内容
活动
关注

微软rStar2-Agent:新的GRPO-RoC算法让14B模型在复杂推理时超越了前沿大模型

简介: Microsoft Research最新推出的rStar2-Agent在AIME24数学基准测试中以80.6%的准确率超越超大规模模型DeepSeek-R1,展现“思考更聪明”而非“更长”的AI推理新方向。

Microsoft Research最近发布的rStar2-Agent展示了一个令人瞩目的结果:一个仅有14B参数的模型在AIME24数学基准测试上达到了80.6%的准确率,超越了671B参数的DeepSeek-R1(79.8%)。这不是简单的参数效率提升,而是AI推理的进步。

过去几年,大语言模型的发展主要依赖Chain-of-Thought(CoT)提示技术,让模型"展示工作过程"。这催生了"思考更久"的训练范式——通过更长的推理链条来提升性能。OpenAI的o系列和DeepSeek-R1都证明了这条路径在强化学习加持下的有效性。

但这个方向存在明显的天花板。在竞赛数学这类真正困难的问题上,长CoT模型容易犯细微错误,缺乏灵活调整策略的能力,即使发现错误也难以有效自我纠正。就像一个学生能写出100步解题过程,却没有足够的理解力意识到第三步就错了。

rStar2-Agent的突破在于从"思考更久"转向"思考更聪明"。这个模型不仅能使用Python工具进行计算验证,更重要的是学会了如何高效地探索解题路径、自我纠错,并在工具使用中保持简洁性。

rStar2-Agent训练LLMs在专用执行环境中原生使用Python编程工具,为复杂问题解决实现更高级和有效的推理。

三个技术创新的协同效应

rStar2-Agent的成功来自三个关键技术的有机结合。首先是超高效的RL基础设施,能够处理45,000个并发工具调用,平均延迟仅0.3秒,这为大规模智能体训练提供了技术保障。

其次是GRPO-RoC算法,这是整个系统的核心。传统强化学习在智能体环境中面临"环境噪声"问题——模型可能写出有bug的代码,经过多次错误尝试后偶然得到正确答案,系统却给予满分奖励,这会强化低效的解题习惯。

GRPO-RoC通过非对称过滤策略解决了这个问题。对于失败的尝试,算法保留随机样本让模型学习什么不该做。对于成功的尝试,算法则变得极其挑剔——只奖励那些工具使用错误最少、格式规范、推理清晰的高质量解答。这种策略迫使模型不仅要得到正确答案,还要以优雅高效的方式达成目标。

通过GRPO-RoC智能体强化学习训练,rStar2-Agent-14B在数学推理方面达到了与前沿LLMs相当的竞争力,同时使用显著更少的训练计算和更小的模型规模。

第三个创新是反直觉的训练策略。与其他推理模型在SFT阶段就加载大量复杂推理示例不同,rStar2-Agent采用"非推理冷启动"——初期只学习基础的指令遵循、JSON格式化和工具使用,把推理能力的培养完全留给强化学习阶段。这避免了模型过早固化冗长的推理模式。

GRPO-RoC可以在噪声环境中学会精准推理

要理解GRPO-RoC的精妙之处,需要先了解智能体强化学习的核心难题。比如说你在教数学,但给了学生一个时好时坏的计算器。学生不仅要解决数学问题,还要应对工具的不可靠性。当学生写出有语法错误的代码,得到报错信息,再次尝试时又出现逻辑错误,最后凭运气碰对答案——这时给予满分奖励,实际上是在强化混乱低效的解题流程。

传统RL方法试图为每种错误设计惩罚机制,但这容易被"钻空子"。GRPO-RoC采用了完全不同的思路:与其惩罚错误,不如严格筛选奖励对象。

具体机制是这样的:系统为每个问题生成32个解答尝试,然后执行非对称过滤。对于失败的尝试,保留随机样本供模型学习反面教材。对于成功的尝试算法会严格筛选,只保留那些工具调用错误最少、代码简洁、推理清晰的高质量解答。

在正确回答的轨迹中包含错误的工具调用比例。在传统的GRPO下,错误率最初下降但很快在显著水平上达到平台期。相比之下,论文的GRPO-RoC随着更多训练步骤继续减少工具相关错误。

这个策略的效果立竿见影。上图显示,传统GRPO方法下工具错误率很快进入平台期,而GRPO-RoC能持续降低错误率。模型不仅学会了解数学题,还在过程中成为更好的程序员和工具使用者。

分阶段训练:从工具使用到高效推理

训练策略同样体现了设计的巧思。整个过程分为两大阶段:非推理SFT和三步RL训练。

SFT阶段刻意避免复杂推理,专注于让模型掌握指令遵循、JSON格式化和基础工具使用。这个阶段产生的模型给出的都是简短回答,为后续的"简洁性约束"奠定基础。

RL训练分三步进行,每步都有明确的目标。第一步是8K token限制下的简洁训练,由于SFT阶段的铺垫,模型初期不会触及这个限制。但随着推理能力增强,开始碰到长度天花板,这迫使它寻找更高效的推理路径。第二步将限制放宽到12K tokens,让模型处理更复杂的问题。第三步专门训练最困难的17.3K问题(从原始42K中筛选),将模型推向性能极限。

多阶段强化学习训练期间的AIME24/AIME25准确性和平均训练响应长度,这个多面板图表显示了三个强化学习训练阶段的(a) AIME24分数,(b) AIME25分数,和(c)平均响应长度。说明了性能如何稳步攀升,而响应长度以受控的方式逐阶段增长。

整个训练过程仅用510步就完成,在64个MI300X GPU上跑了一周。这个效率相比那些需要数千GPU跑数月的项目来说相当惊人。

性能表现:更短的推理,更高的准确率

最终结果验证了"思考更聪明"的有效性。rStar2-Agent-14B不仅准确率更高,推理长度也显著更短。在AIME24和AIME25测试中,它的平均响应长度比DeepSeek-R1-Zero、QWQ-32B等模型短了数千个tokens。

rStar2-Agent-14B用显著更少的令牌实现有效推理,这个表格比较了rStar2-Agent-14B与DeepSeek-R1-Zero、QWQ-32B和官方Qwen3-14B在AIME24和AIME25上的平均响应长度(令牌数)。它清楚地显示rStar2-Agent的响应平均短了数千个令牌。

虽然RL训练完全基于数学问题,但在GPQA-Diamond科学推理基准上,模型表现从SFT后的42.1%跃升至60.9%。这说明模型学到的不是数学技巧,而是更根本的问题解决、自我纠错和工具辅助验证能力。

总结

rStar2-Agent的成功挑战了"大即是美"的传统观念,指向了一个更加多元化的AI生态。不过作者也指出了局限性。在510步达到性能峰值后,继续训练导致性能急剧下降。这表明强化学习可以充分挖掘基础模型的潜力,但无法创造原本不存在的推理能力,或者说14B参数模型有其固有的认知天花板。

这为AI发展提出了一个关键问题:下一步突破应该来自更大的基础模型,还是更精巧的智能体训练技术?从rStar2-Agent的经验看,后者可能是一条更具前景的路径。

这项工作的意义不仅在于具体的技术突破,更在于验证了智能体系统的巨大潜力。通过环境交互和工具使用,AI模型可以获得远超纯语言训练的认知能力。GRPO-RoC算法通过巧妙的奖励机制,让模型在"噪声环境"中学会了高质量推理。分阶段训练策略则证明了"先学工具再学推理"的有效性。

论文链接:https://www.arxiv.org/abs/2508.20722

目录
相关文章
|
22天前
|
负载均衡 测试技术 调度
大模型分布式推理:张量并行与流水线并行技术
本文深入探讨大语言模型分布式推理的核心技术——张量并行与流水线并行。通过分析单GPU内存限制下的模型部署挑战,详细解析张量并行的矩阵分片策略、流水线并行的阶段划分机制,以及二者的混合并行架构。文章包含完整的分布式推理框架实现、通信优化策略和性能调优指南,为千亿参数大模型的分布式部署提供全面解决方案。
357 4
|
1月前
|
机器学习/深度学习 缓存 监控
大模型推理优化技术:KV缓存机制详解
本文深入探讨了大语言模型推理过程中的关键技术——KV缓存(Key-Value Cache)机制。通过对Transformer自注意力机制的分析,阐述了KV缓存的工作原理、实现方式及其对推理性能的显著优化效果。文章包含具体的代码实现和性能对比数据,为开发者理解和应用这一关键技术提供实践指导。
659 8
|
2月前
|
分布式计算 测试技术 Spark
科大讯飞开源星火化学大模型、文生音效模型
近期,科大讯飞在魔搭社区(ModelScope)和Gitcode上开源两款模型:讯飞星火化学大模型Spark Chemistry-X1-13B、讯飞文生音频模型AudioFly,助力前沿化学技术研究,以及声音生成技术和应用的探索。
224 2
|
2月前
|
人工智能 Java API
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
本文介绍AI大模型的核心概念、分类及开发者学习路径,重点讲解如何选择与接入大模型。项目基于Spring Boot,使用阿里云灵积模型(Qwen-Plus),对比SDK、HTTP、Spring AI和LangChain4j四种接入方式,助力开发者高效构建AI应用。
1184 122
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
|
27天前
|
人工智能 搜索推荐 程序员
当AI学会“跨界思考”:多模态模型如何重塑人工智能
当AI学会“跨界思考”:多模态模型如何重塑人工智能
233 120
|
1月前
|
机器学习/深度学习 缓存 自然语言处理
【万字长文】大模型训练推理和性能优化算法总结和实践
我们是阿里云公共云 AI 汽车行业大模型技术团队,致力于通过专业的全栈 AI 技术推动 AI 的落地应用。
1069 38
【万字长文】大模型训练推理和性能优化算法总结和实践
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
466 13
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
|
1月前
|
机器学习/深度学习 存储 并行计算
大模型推理加速技术:FlashAttention原理与实现
本文深入解析大语言模型推理加速的核心技术——FlashAttention。通过分析传统注意力机制的计算瓶颈,详细阐述FlashAttention的IO感知算法设计、前向反向传播实现,以及其在GPU内存层次结构中的优化策略。文章包含完整的CUDA实现示例、性能基准测试和实际部署指南,为开发者提供高效注意力计算的全套解决方案。
261 10
下一篇