强化学习真的能让大模型获得新的推理能力吗？研究表明：其能力边界或仍囿于基座模型近年来，RLVR（可验证奖励的强化学习）训练大模型在数学、代码等各项任务中表现惊艳，大模型的推理能力快速提升，强化学习因而被视为重要的推手

13:36 · Apr 26, 2025 · Sat

强化学习真的能让大模型获得新的推理能力吗？研究表明：其能力边界或仍囿于基座模型

近年来，RLVR（可验证奖励的强化学习）训练大模型在数学、代码等各项任务中表现惊艳，大模型的推理能力快速提升，强化学习因而被视为重要的推手。然而，其中直指核心的重要问题却悬而未决：强化学习真的能让大模型获得超越基础模型的新推理能力吗？

清华大学LeapLab团队联合上海交通大学开展的实证研究表明：RLVR并不能使模型解决基础模型无法解决的问题。RLVR只是将采样做得更有效率，而其输出的正确答案，早已藏在基座模型的「基因」里。

同时，对奖励路径的聚焦削弱了模型的探索能力，限制了其在大规模采样时对可解问题的覆盖范围。这些发现说明 RLVR 并未从根本上突破基础模型的推理能力，而是以牺牲解决问题的多样性为代价来优化现有路径。

arxiv.org/abs/2504.13837

via mp.weixin.qq.com