来源:互联网2025-12-02 00:00:00 热度:

DeepSeek-3.2年终压轴,追上OpenAI,遇上Gemini,算力正在影响后劲

AI中国网 https://www.cnaiplus.com

导读:DeepSeek全年压轴的来了。今天,它同时发布了两个正式版模型:DeepSeek-V3.2 ,与GPT-5有得一拼;和 DeepSeek-V3.2-Speciale,胜过GPT-5,推理熟练程度达到了Gemini-3.0-Pro的水平 ,在国际奥数等比赛中达到金牌水准。经过整整一年,DeepSeek从年初以最快的速度和最低的成本复刻出推理模型o1,到年底追上OpenAI,号称推理模型全球领先。不过,它以后需要对标更强的Gemini、对标 ......

DeepSeek全年压轴的来了。

今天,它同时发布了两个正式版模型:DeepSeek-V3.2 ,与GPT-5有得一拼;和 DeepSeek-V3.2-Speciale,胜过GPT-5,推理熟练程度达到了Gemini-3.0-Pro的水平 ,在国际奥数等比赛中达到金牌水准。

经过整整一年,DeepSeek从年初以最快的速度和最低的成本复刻出推理模型o1,到年底追上OpenAI,号称推理模型全球领先。不过,它以后需要对标更强的Gemini、对标它长期学习的DeepMind了。而且,算力正在限制中国开源模型进一步追赶的后劲,在预训练和后训练方面已经表现出来。

今年,虽然没有发布期待中的V4,但是,DeepSeek用V3一直打到年底,也基本完成了使命。正如它所说:“DeepSeek-V3.2 模型在智能体评测中达到了当前开源模型的最高水平,大幅缩小了开源模型与闭源模型的差距。”在公开的推理类基准测试中,DeepSeek-V3.2 达到了 GPT-5的水平,仅略低于 Gemini-3.0-Pro。

DeepSeek-3.2年终压轴,追上OpenAI,遇上Gemini,算力正在影响后劲

DeepSeek-V 3.2-Speciale,要展示出它才是2025年真正的学霸。在Gemini和OpenAI先后都达到了奥数等一系列中学生顶级竞赛冠军水平之后,Speciale也迅速展示出,它在国际、中国、美国一系列最顶级的竞赛中,都可以达到最高水平。

DeepSeek-3.2年终压轴,追上OpenAI,遇上Gemini,算力正在影响后劲

中国的开源模型,以往与美国先进闭源模型相比,在回答相同难度的问题时,耗费的token数量显著更多。

这一次,它部分改掉了“嗦”的毛病。大家以后日常使用的V3.2 ,在问答和通用智能体任务中,可以平衡推理能力与输出长度。相比 Kimi-K2-Thinking,V3.2的输出长度大幅降低,显著减少了计算开销与用户等待时间。

不过它也提醒,在高度复杂任务上,Speciale模型大幅优于标准版本,但消耗的Tokens也显著更多,成本更高。目前,DeepSeek-V3.2-Speciale仅供研究使用,不支持工具调用,暂未针对日常对话与写作任务进行专项优化。

好在通过DSA(DeepSeek稀疏注意力)机制,DeepSeek能控制住推理中的每百万token成本。结合优化实现,DSA在长上下文场景中实现了端到端的显著加速。下图展示了DeepSeek-V3.1-Terminus 与 DeepSeek-V3.2 的 token 计算成本随序列中 token 位置的变化关系。这些成本数据来自H800GPU真实部署服务的基准测试估算,租赁价格为每GPU小时2美元。

DeepSeek-3.2年终压轴,追上OpenAI,遇上Gemini,算力正在影响后劲

DeepSeek指出,尽管中国正在主导的开源社区很热闹,如 MiniMax、月之暗面、智谱等,仍在持续推进研究和模型能力,但美国的闭源的专有大模型(Anthropic、DeepMind、OpenAI)的性能曲线“在近几个月以更陡峭的速度加速攀升。”

人们一直以为,开源模型将逐步逼近并最终追平闭源模型,但实际上,开源模型与闭源模型之间的性能差距并没有收敛,反而呈现出扩大的趋势。DeepSeek警告中国开源模型:“在越来越复杂的任务中,专有闭源系统展现出了显著更强的能力优势,并在处理高复杂、多步骤、交互式问题时体现出的领先幅度在扩大。”

DeepSeek分析了开源模型的三项关键缺陷:第一,在架构层面,开源模型对原版注意力机制(vanilla attention mechanisms)的主要依赖,极大地限制了其在处理长序列任务中的效率。这种低效性成为可扩展部署和有效后训练的重大障碍。第二,在资源配置方面,开源模型在后训练阶段缺乏足够的计算资源投入,从而限制了其在高难任务上的表现。最后,在AI智能体方面,开源模型在泛化能力和指令追随能力上明显落后于闭源的专有模型,这阻碍了其在真实部署中的实际效果。

为了解决这些关键的局限,DeepSeek首先提出了DSA,大幅降低计算复杂度,有效缓解了效率瓶颈,即便在长上下文场景中也能保持模型性能。第二,开发了一套稳定且可扩展的强化学习协议,使得在后训练阶段可以大幅扩展计算投入。值得注意的是,该框架分配的后训练计算预算超过了预训练成本的10%,从而解锁了更高级的能力。

但更重要的是,V3.2首次将思考融入工具使用,并且同时支持思考模式与非思考模式的工具调用。“我们提出了一种大规模Agent训练数据合成方法,构造了大量「难解答,易验证」的强化学习任务(1800+ 环境,85,000+ 复杂指令),大幅提高了模型的泛化能力。”

如下表所示,V3.2 在智能体评测中达到了当前开源模型的最高水平。值得说明的是,它并没有针对这些测试集的工具进行特殊训练,所以“我们相信,V3.2 在真实应用场景中能够展现出较强的泛化性。”

DeepSeek-3.2年终压轴,追上OpenAI,遇上Gemini,算力正在影响后劲

智能体能力,光当学霸拼考分不行,还要看下实际解决问题的能力。V3.2还特意演示了一个旅行助手提供的杭州西溪湿地的旅游攻略生成过程。那些动不动能解奥数题的智能体,目前面对的最大挑战,其实是能不能让外卖小哥送上一杯奶茶。智能体完成真实世界里真实任务的能力,正在日益变得比获得高分更重要。

DeepSeek也承认了自己的不足,尤其是与Gemini-3.0-Pro等前沿闭源模型相比,仍然存在一些局限。

第一,由于总体训练FLOPs更少,V3.2在世界知识的覆盖广度上仍落后于领先的专有闭源模型。我们计划在后续迭代中通过扩大预训练算力规模来弥补这一知识差距。

第二,token效率仍然是一项挑战。V3.2通常需要更长的生成轨迹(即更多tokens)才能达到像Gemini-3.0-Pro这样的模型所具备的输出质量。未来的工作将聚焦于提升模型推理链的智能密度,以改善效率。

第三,在解决复杂任务的能力上,它的表现仍不及前沿模型,这驱使我们继续改进基础模型并优化后训练方法。

--

参考:

V3.2技术报告

https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2/resolve/master/assets/paper.pdf

AI中国网 https://www.cnaiplus.com

本文网址:

欢迎关注微信公众号:人工智能报;合作及投稿请联系:editor@cnaiplus.com

AI中国号...

关注微信公众号,了解最新精彩内容