截胡DeepSeek开源周？Kimi深夜首发开源模型，同计算量下好过DeepSeek、Qwen？

InfoQ 2025-02-23 14:06

今日凌晨，月之暗面发布最新论文《Muon is Scalable for LLM Training》，并开源了MoE模型Moonlight（ MIT 许可证），模型激活参数仅需3B。

微信图片_20250223135915.png

论文显示，月之暗面通过深度改造Muon优化器并将其运用于实际训练，证明了Muon在更大规模训练中的有效性，是AdamW训练效率的2倍且模型性能相当。Moonlight 3B/16B MoE 模型使用 Muon 在 5.7 T token上进行训练，“以更少的 FLOP 和更好的性能推进帕累托前沿。”

微信图片_20250223135911.png

月之暗面此次贡献主要在于：

Muon 有效扩展分析：月之暗面发现权重衰减在Muon的可扩展性中起着至关重要的作用。此外，团队提出通过参数级别更新尺度调整，保持不同矩阵和非矩阵参数之间的一致更新均方根（RMS）。这种调整显著提高了训练稳定性。
高效分布式实现：团队开发了一个基于ZeRO-1优化的Muon分布式版本，实现了最佳内存效率并降低了通信开销，同时保持算法的数学特性。