Tilde Research 发现 Muon 优化器会杀死 25% 的神经元;Aurora Alternative 实现 100 倍的数据效率提升

据 Tilde Research 称,领先 AI 模型所采用的 Muon 优化器(包括 DeepSeek V4 和 Kimi K2.5)存在隐藏缺陷:它会导致在早期训练期间,MLP 层的神经元中有超过 25% 会永久死亡。团队设计了 Aurora 作为替代优化器,并将其开源。一个仅用 100B tokens 训练的 11 亿参数模型,在 HellaSwag 和 Winogrande 等语言理解基准上,其表现与在 36T tokens 上训练的 Qwen3-1.7B 相当,展现了约 100 倍的数据效率提升。与 Muon 相比,Aurora 的计算开销增加 6%,并可作为直接替代。

免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明
评论
0/400
暂无评论