DeepSeek 宣布正式发布两款模型:DEEPSEEK-V3.2 和 DEEPSEEK-V3.2-SPECIALE

高效注意力机制:引入 DeepSeek 稀疏注意力 (DSA),在不牺牲性能的前提下,通过降低计算复杂度来优化长上下文场景。

可扩展的强化学习:利用稳健的强化学习框架和可扩展的计算资源,实现了 GPT-5 级别的性能。其中,高计算量版本 DeepSeek-V3.2-Speciale 的性能超越了 GPT-5,并在推理能力上与 Gemini-3.0-Pro 持平。

高级数据合成:开发了大规模任务合成流程,增强了模型在复杂交互环境中的推理能力、服从性和泛化能力。

DeepSeek-V3.2 官方评估结果超过 GPT-5,仅次于 Gemini 3 Pro,同时 DeepSeek-V3.2-Speciale 成功斩获 IMO 2025、CMO 2025、ICPC World Finals 2025 及 IOI 2025 金牌。

来源:DeepSeek / HuggingFace 2
 
 
Back to Top