强化学习真的能让大模型获得新的推理能力吗?研究表明:其能力边界或仍囿于基座模型
近年来,RLVR(可验证奖励的强化学习)训练大模型在数学、代码等各项任务中表现惊艳,大模型的推理能力快速提升,强化学习因而被视为重要的推手。然而,其中直指核心的重要问题却悬而未决:强化学习真的能让大模型获得超越基础模型的新推理能力吗?
清华大学LeapLab团队联合上海交通大学开展的实证研究表明:RLVR并不能使模型解决基础模型无法解决的问题。RLVR只是将采样做得更有效率,而其输出的正确答案,早已藏在基座模型的「基因」里。
同时,对奖励路径的聚焦削弱了模型的探索能力,限制了其在大规模采样时对可解问题的覆盖范围。这些发现说明 RLVR 并未从根本上突破基础模型的推理能力,而是以牺牲解决问题的多样性为代价来优化现有路径。
arxiv.org/abs/2504.13837
via mp.weixin.qq.com
近年来,RLVR(可验证奖励的强化学习)训练大模型在数学、代码等各项任务中表现惊艳,大模型的推理能力快速提升,强化学习因而被视为重要的推手。然而,其中直指核心的重要问题却悬而未决:强化学习真的能让大模型获得超越基础模型的新推理能力吗?
清华大学LeapLab团队联合上海交通大学开展的实证研究表明:RLVR并不能使模型解决基础模型无法解决的问题。RLVR只是将采样做得更有效率,而其输出的正确答案,早已藏在基座模型的「基因」里。
同时,对奖励路径的聚焦削弱了模型的探索能力,限制了其在大规模采样时对可解问题的覆盖范围。这些发现说明 RLVR 并未从根本上突破基础模型的推理能力,而是以牺牲解决问题的多样性为代价来优化现有路径。
arxiv.org/abs/2504.13837
via mp.weixin.qq.com