微软rStar2-Agent：新的GRPO-RoC算法让14B模型在复杂推理时超越了前沿大模型-阿里云开发者社区

微软rStar2-Agent：新的GRPO-RoC算法让14B模型在复杂推理时超越了前沿大模型

2025-09-03 147

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Microsoft Research最新推出的rStar2-Agent在AIME24数学基准测试中以80.6%的准确率超越超大规模模型DeepSeek-R1，展现“思考更聪明”而非“更长”的AI推理新方向。

Microsoft Research最近发布的rStar2-Agent展示了一个令人瞩目的结果：一个仅有14B参数的模型在AIME24数学基准测试上达到了80.6%的准确率，超越了671B参数的DeepSeek-R1（79.8%）。这不是简单的参数效率提升，而是AI推理的进步。

过去几年，大语言模型的发展主要依赖Chain-of-Thought（CoT）提示技术，让模型"展示工作过程"。这催生了"思考更久"的训练范式——通过更长的推理链条来提升性能。OpenAI的o系列和DeepSeek-R1都证明了这条路径在强化学习加持下的有效性。

但这个方向存在明显的天花板。在竞赛数学这类真正困难的问题上，长CoT模型容易犯细微错误，缺乏灵活调整策略的能力，即使发现错误也难以有效自我纠正。就像一个学生能写出100步解题过程，却没有足够的理解力意识到第三步就错了。

rStar2-Agent的突破在于从"思考更久"转向"思考更聪明"。这个模型不仅能使用Python工具进行计算验证，更重要的是学会了如何高效地探索解题路径、自我纠错，并在工具使用中保持简洁性。

rStar2-Agent训练LLMs在专用执行环境中原生使用Python编程工具，为复杂问题解决实现更高级和有效的推理。

三个技术创新的协同效应

rStar2-Agent的成功来自三个关键技术的有机结合。首先是超高效的RL基础设施，能够处理45,000个并发工具调用，平均延迟仅0.3秒，这为大规模智能体训练提供了技术保障。

其次是GRPO-RoC算法，这是整个系统的核心。传统强化学习在智能体环境中面临"环境噪声"问题——模型可能写出有bug的代码，经过多次错误尝试后偶然得到正确答案，系统却给予满分奖励，这会强化低效的解题习惯。

GRPO-RoC通过非对称过滤策略解决了这个问题。对于失败的尝试，算法保留随机样本让模型学习什么不该做。对于成功的尝试，算法则变得极其挑剔——只奖励那些工具使用错误最少、格式规范、推理清晰的高质量解答。这种策略迫使模型不仅要得到正确答案，还要以优雅高效的方式达成目标。

通过GRPO-RoC智能体强化学习训练，rStar2-Agent-14B在数学推理方面达到了与前沿LLMs相当的竞争力，同时使用显著更少的训练计算和更小的模型规模。

第三个创新是反直觉的训练策略。与其他推理模型在SFT阶段就加载大量复杂推理示例不同，rStar2-Agent采用"非推理冷启动"——初期只学习基础的指令遵循、JSON格式化和工具使用，把推理能力的培养完全留给强化学习阶段。这避免了模型过早固化冗长的推理模式。

GRPO-RoC可以在噪声环境中学会精准推理

要理解GRPO-RoC的精妙之处，需要先了解智能体强化学习的核心难题。比如说你在教数学，但给了学生一个时好时坏的计算器。学生不仅要解决数学问题，还要应对工具的不可靠性。当学生写出有语法错误的代码，得到报错信息，再次尝试时又出现逻辑错误，最后凭运气碰对答案——这时给予满分奖励，实际上是在强化混乱低效的解题流程。

传统RL方法试图为每种错误设计惩罚机制，但这容易被"钻空子"。GRPO-RoC采用了完全不同的思路：与其惩罚错误，不如严格筛选奖励对象。

具体机制是这样的：系统为每个问题生成32个解答尝试，然后执行非对称过滤。对于失败的尝试，保留随机样本供模型学习反面教材。对于成功的尝试算法会严格筛选，只保留那些工具调用错误最少、代码简洁、推理清晰的高质量解答。

在正确回答的轨迹中包含错误的工具调用比例。在传统的GRPO下，错误率最初下降但很快在显著水平上达到平台期。相比之下，论文的GRPO-RoC随着更多训练步骤继续减少工具相关错误。

这个策略的效果立竿见影。上图显示，传统GRPO方法下工具错误率很快进入平台期，而GRPO-RoC能持续降低错误率。模型不仅学会了解数学题，还在过程中成为更好的程序员和工具使用者。

分阶段训练：从工具使用到高效推理

训练策略同样体现了设计的巧思。整个过程分为两大阶段：非推理SFT和三步RL训练。

SFT阶段刻意避免复杂推理，专注于让模型掌握指令遵循、JSON格式化和基础工具使用。这个阶段产生的模型给出的都是简短回答，为后续的"简洁性约束"奠定基础。

RL训练分三步进行，每步都有明确的目标。第一步是8K token限制下的简洁训练，由于SFT阶段的铺垫，模型初期不会触及这个限制。但随着推理能力增强，开始碰到长度天花板，这迫使它寻找更高效的推理路径。第二步将限制放宽到12K tokens，让模型处理更复杂的问题。第三步专门训练最困难的17.3K问题（从原始42K中筛选），将模型推向性能极限。

多阶段强化学习训练期间的AIME24/AIME25准确性和平均训练响应长度，这个多面板图表显示了三个强化学习训练阶段的(a) AIME24分数，(b) AIME25分数，和(c)平均响应长度。说明了性能如何稳步攀升，而响应长度以受控的方式逐阶段增长。

整个训练过程仅用510步就完成，在64个MI300X GPU上跑了一周。这个效率相比那些需要数千GPU跑数月的项目来说相当惊人。

性能表现：更短的推理，更高的准确率

最终结果验证了"思考更聪明"的有效性。rStar2-Agent-14B不仅准确率更高，推理长度也显著更短。在AIME24和AIME25测试中，它的平均响应长度比DeepSeek-R1-Zero、QWQ-32B等模型短了数千个tokens。

rStar2-Agent-14B用显著更少的令牌实现有效推理，这个表格比较了rStar2-Agent-14B与DeepSeek-R1-Zero、QWQ-32B和官方Qwen3-14B在AIME24和AIME25上的平均响应长度（令牌数）。它清楚地显示rStar2-Agent的响应平均短了数千个令牌。

虽然RL训练完全基于数学问题，但在GPQA-Diamond科学推理基准上，模型表现从SFT后的42.1%跃升至60.9%。这说明模型学到的不是数学技巧，而是更根本的问题解决、自我纠错和工具辅助验证能力。

总结

rStar2-Agent的成功挑战了"大即是美"的传统观念，指向了一个更加多元化的AI生态。不过作者也指出了局限性。在510步达到性能峰值后，继续训练导致性能急剧下降。这表明强化学习可以充分挖掘基础模型的潜力，但无法创造原本不存在的推理能力，或者说14B参数模型有其固有的认知天花板。

这为AI发展提出了一个关键问题：下一步突破应该来自更大的基础模型，还是更精巧的智能体训练技术？从rStar2-Agent的经验看，后者可能是一条更具前景的路径。

这项工作的意义不仅在于具体的技术突破，更在于验证了智能体系统的巨大潜力。通过环境交互和工具使用，AI模型可以获得远超纯语言训练的认知能力。GRPO-RoC算法通过巧妙的奖励机制，让模型在"噪声环境"中学会了高质量推理。分阶段训练策略则证明了"先学工具再学推理"的有效性。

论文链接：https://www.arxiv.org/abs/2508.20722

微软rStar2-Agent：新的GRPO-RoC算法让14B模型在复杂推理时超越了前沿大模型

三个技术创新的协同效应

GRPO-RoC可以在噪声环境中学会精准推理

分阶段训练：从工具使用到高效推理

性能表现：更短的推理，更高的准确率

总结

大数据与机器学习

热门文章

最新文章

相关课程

相关电子书