小米AI新论文！雷军千万年薪要挖的DeepSeek天才少女署名

10月15日消息，10月14日，小米和北京大学联合署名的论文发表于arXiv，曾被曝获小米集团创始人兼CEO雷军以千万年薪招募的DeepSeek“天才少女”罗福莉，出现在了这篇论文的通讯作者之列，但值得注意的是，论文作者中并没有标注罗福莉属于小米大模型团队。

通讯作者中的罗福莉是95后，她本科就读于北京师范大学计算机专业，硕士毕业于北京大学计算语言学研究所计算语言学专业。随后罗福莉曾在阿里巴巴达摩院主导开发了多语言预训练模型VECO，并推动了AliceMind的开源工作，2022年入职DeepSeek，参与了MoE大模型DeepSeek-V2的研发。去年年底，小米被曝以千万年薪挖角DeepSeek-V2核心开发者之一罗福莉，使其冲上热搜，但双方至今都未公开声明是否正式入职小米。

小米AI新论文！雷军千万年薪要挖的DeepSeek天才少女署名

▲DeepSeek“天才少女”罗福莉（图源：罗福莉个人公众号）

这篇论文提出了提升MoE模型强化学习训练的新方法Rollout Routing Replay（R3）。实验结果证明，R3的整体性能优于GRPO、TIS这类强化学习领域提升模型性能的优化算法，且引入R3的所有组合方法全过程无崩盘，训练过程中训练-推理KL散度等始终较低，在不影响训练速度的情况下，使得极端token比例减少一个量级。

当下，强化学习（RL）已成为提升大语言模型能力的关键方法。然而，在MoE模型中，路由机制往往会引入不稳定性，甚至导致强化学习训练崩溃，但现有的引入重要性采样机制等并不能提升训练稳定性。不同于此前采取诸如丢弃差异较大的数据之类的变通方法，这篇论文的研究人员希望通过解决路由分布也就是R3来根本性解决这个问题。

论文地址：https://arxiv.org/pdf/2510.11370

一、破解强化学习崩溃的关键方法，小米团队提出R3

强化学习已成为大语言模型后期训练的基石，利用大规模强化学习，大模型更深入、更广泛推理，获得解决复杂问题所需的高级能力，但其面临的关键挑战是如何平衡效率和稳定性。

现代强化学习框架通常使用不同的引擎进行推理和训练用于部署，但这种架构上的分离可能导致token概率出现分歧，甚至可能导致灾难性的强化学习崩溃。然而，现有的改进方法并不能完全解决MoE模型上进行强化学习训练时出现的强化学习离线策略问题。

研究人员提出的R3，其工作原理是在序列生成期间从推理引擎捕获路由分布，并将其直接重放到训练引擎中。这一过程可以缩小训练和推理之间的差距，其显著特征是不同引擎生成的逻辑向量的KL散度（量化两个概率分布之间的差异程度，值越小说明两个分布越接近）显著降低，两个阶段之间概率差异显著的token数量减少了大约一个数量级。

此外，该方法同时适用于在线策略（on-policy）和小批量（mini-batch）式离线策略强化学习（off-policy）场景。

论文提到了研究团队的三大主要贡献：

1、系统识别和分析了MoE模型中训练和推理之间的路由分布差异，强调了它们在训练不稳定性中的作用；

2、提出Rollout Routing Replay，它重用训练引擎内部的推理时间路由分布，以协调训练和推理之间的路由行为；

3、将R3应用于多种RL设置进行MoE强化学习，并表明R3在稳定性和整体性能方面优于GSPO和TIS。

二、可显著缩小训练-推理差异，对Agent任务大有裨益

R3的主要思路是在训练前向传播过程中重用推理路由掩码I，同时仍将softmax应用于训练逻辑以保持梯度流。

这种设计主要有两个目的：一是对齐训练和推理，确保训练重放期间使用的专家与推理期间选择的专家相匹配，从而消除专家选择中的不匹配；二是保留梯度数据流，通过仅重放掩码，梯度仍然可以流回logits而不会干扰计算图，这有助于有效地优化路由器。

小米AI新论文！雷军千万年薪要挖的DeepSeek天才少女署名

小米AI新论文！雷军千万年薪要挖的DeepSeek天才少女署名

媒体报道更多>>

每日读书更多>>

写作分享更多>>

原创笔记更多>>

阅读交流更多>>

学习知识更多>>