通用人工智能(AGI)的追求不仅需要缩放模型参数,还需要从根本上重新思考智能效率和自主改进的架构。虽然之前的版本如 GLM-4.5 证明了在混合专家(MoE)框架下统一代理、推理和代码(ARC)能力的优势,但大语言模型(LLM)从被动知识库向主动问题解决者的转型,暴露了计算成本和现实适应性(特别是在软件工程领域)的关键瓶颈。
为了应对这些挑战,我们推出了 GLM-5,这是一款旨在填补高性能推理与运算效率之间鸿沟的旗舰模型。其架构的核心是 DeepSeek 稀疏注意力(DSA),它允许根据 token 的重要性动态分配注意力资源。这一创新显著降低了训练和推理过程中的计算开销,且未损害长文本理解能力。因此,我们成功将模型规模扩展至 744B 参数(40B 激活),并将训练预算增加到 28.5T token。
我们的后训练流水线超越了标准的监督微调,实施了序列强化学习(RL)框架。我们开发了一种异步强化学习基础设施,通过将生成与训练解耦,最大限度地提高 GPU 利用率并消除同步瓶颈。此外,新型异步代理 RL 算法使 GLM-5 能够从复杂的长时程交互中学习,显著提升了其在动态环境中的规划和自我纠错能力。
评估结果表明,GLM-5 在各大主流基准测试中均达到了顶尖水平,在 Artificial Analysis 智能指数 v4.0 中获得 50 分。在真实的工程任务中,该模型展示了前所未有的熟练度,特别是在大仓库检索方面超越了以往的基准。这些进展表明,有效的代理工程更多地依赖于战略性的迭代推理,而非简单的代码生成。
arxiv