最近社区都在说 Muon 用在 LLM 上的训练效果要比 AdamW 好很多,这里根据 Kimi 的论文(http://arxiv.org/abs/2502.16982)和仓库做了一些尝试。 选用模型:minimind,Github 链接:https://github.com/jingyaogong/minimind 硬件:AutoDL自己租个 nv 的卡就行 常见的 AdamW 优化器就是在 Adam 的基础上在梯度更新时加上梯度衰减,这样的话可以避免更新的时候产生更大的参数。 而 Muon …

2026年5月31日 0条评论 8点热度 0人点赞 MuWinds 阅读全文