训练小参数LLM将优化器从AdamW换成Muon的尝试

最近社区都在说 Muon 用在 LLM 上的训练效果要比 AdamW 好很多，这里根据 Kimi 的论文（http://arxiv.org/abs/2502.16982）和仓库做了一些尝试。选用模型：minimind，Github 链接：https://github.com/jingyaogong/minimind 硬件：AutoDL自己租个 nv 的卡就行常见的 AdamW 优化器就是在 Adam 的基础上在梯度更新时加上梯度衰减，这样的话可以避免更新的时候产生更大的参数。而 Muon …