DeepSeek V4 vs 顶级闭源模型：开源不是追随者，而是另一条通往 AGI 的路

大家是否还记得，去年春节前后 DeepSeek-R1 横空出世时的盛况？

那不是一次普通的模型发布。它更像是在全球 AI 叙事里砸下了一块石头：原来顶级推理能力并不必然只存在于 OpenAI、Anthropic、Google 这些闭源黑箱里；原来一个中国团队，也可以用开源方式把推理模型推到世界牌桌中央。

转眼一年多过去，这期间网上无数次传出 DeepSeek V4、DeepSeek-R2 的消息。每一次都像要来了，每一次又沉下去。直到几天前，DeepSeek-V4 预览版正式上线，并同步开源。

问题也随之回来：

这次 DeepSeek V4 还能不能复刻 R1 当年的神话？

我的判断是：如果把“神话”理解成全网情绪爆炸、朋友圈刷屏、海外社区集体震动，那 V4 未必会完全复刻 R1 的场面。因为市场已经被大模型教育过一次，惊喜阈值变高了。

但如果从工程价值和产业路线看，V4 的意义可能比 R1 更深。R1 证明的是中国开源模型能把推理能力做出来；V4 证明的是，开源模型正在把顶级闭源模型的核心能力拆开，压价，开放，然后推向真实生产环境。

这不是一次简单的模型升级，而是一次路线宣言。

先别急着喊神话：V4 的意义不是全胜，而是进入闭源腹地

今天评价一个大模型，最容易犯的错误就是拿一张榜单说故事。

跑分第一，就说天下无敌；某项落后，就说不过如此。这种判断方式很痛快，但也很粗糙。大模型已经不是单一能力的竞赛，它同时牵涉代码、数学、知识、长上下文、工具调用、推理稳定性、API 成本、部署自由度以及生态成熟度。

所以 DeepSeek V4 该怎么评价？

一句话：

它不是全面碾压顶级闭源模型，但它已经把开源模型带进了闭源模型最核心的战场。

根据 DeepSeek 官方发布页与 Hugging Face 模型卡，DeepSeek-V4-Pro Max 在 Codeforces、LiveCodeBench、IMOAnswerBench、HMMT、GPQA Diamond 等多项代码、数学与科学推理指标上已经逼近甚至超过部分闭源旗舰模型。在 Agentic Coding 和长上下文任务上，它也明显不再只是“能用”，而是进入了可以和 GPT、Claude、Gemini 正面比较的区间。

但另一边也必须承认：在世界知识、复杂工具生态、多模态原生能力、企业级产品成熟度上，闭源模型仍有护城河。尤其是 Gemini、Claude、GPT 这类模型背后有搜索、浏览器、办公套件、云平台、企业权限体系和海量用户反馈闭环，不是单靠一次开源权重发布就能全部抹平。

这才是 V4 最真实的位置：

闭源模型仍然领先，但领先不再等于垄断。

双模型不是大小杯，而是两种生产场景

DeepSeek V4 这次没有只给一个模型，而是推出了两个 MoE 版本：DeepSeek-V4-Pro 和 DeepSeek-V4-Flash。二者都采用 MIT 许可证开源，官方服务也都支持 1M token 上下文。

模型	总参数	激活参数	预训练规模	上下文	定位
DeepSeek-V4-Pro	1.6T	49B	33T tokens	1M tokens	旗舰性能，面向复杂推理、代码 Agent、科研分析、长文档理解
DeepSeek-V4-Flash	284B	13B	32T tokens	1M tokens	快捷经济，面向日常问答、办公写作、轻量代码、批量任务

这里最值得看的不是“1.6T 参数”这个数字本身，而是 MoE 架构背后的成本逻辑。

MoE 的本质，是让模型拥有更大的总知识容量，却不在每一次推理时激活全部参数。换句话说，它试图在“能力上限”和“单次调用成本”之间找一个更现实的平衡点。Pro 负责上限，Flash 负责普惠。一个像重型工程车，一个像高频通勤车，它们不是谁替代谁，而是覆盖不同工作负载。

这也是 DeepSeek 路线里很稳定的一点：它很少只为了榜单堆体量，而是始终盯着“真实可用成本”。

顶级闭源模型也可以强，但如果每次调用都像刷信用卡买奢侈品，开发者就不敢让它进入高频工作流。Agent、代码修复、长文档审阅、自动化测试这些场景，真正可怕的不是单次问答，而是反复读取、反复调用、反复试错。模型价格一旦压不下来，智能体就只能停留在演示视频里。

V4 的双模型策略，本质上是在回答一个更现实的问题：

如果 AI 要从聊天窗口进入生产流水线，它不能只有天花板，还必须有地板价。

百万上下文：不是能塞更多字，而是 Agent 的记忆地基

很多人看到 1M 上下文，第一反应是：终于可以一次性喂一本小说、一份合同、一篇论文合集了。

这当然是价值，但还不是最关键的价值。

对普通办公用户来说，百万上下文意味着不用把材料拆成十几段，也不用反复提醒模型“前面说过什么”。对开发者来说，它的意义更大：模型有机会一次性读入一个中型代码仓库、完整 API 文档、多轮需求变更记录、测试日志、历史 issue 和架构约束。

过去很多 Agent 失败，并不是因为模型完全不会推理，而是因为它“失忆”。

它看到了当前文件，却忘了调用链；它改了业务逻辑，却漏了测试约束；它理解了需求第一段，却忽略了后面补充的边界条件。于是开发者不得不反复把上下文切碎、粘贴、总结、再粘贴，最后自己变成了模型的临时内存管理器。

百万上下文真正改变的是这个结构。

DeepSeek 在 V4 发布材料里提到，在 1M token 负载下，V4-Pro 的单 token 推理 FLOPs 仅为 V3.2 的 27%，KV Cache 占用压缩到上代的 10%。这背后不是简单把显存堆大，而是通过 CSA、HCA、DSA 等压缩与稀疏注意力机制，在 token 维度重新设计长上下文的计算方式。

这件事的工程意义很直接：

长上下文从炫技变成标配，靠的不是蛮力，而是架构。

闭源模型当然也有长上下文能力，Gemini 这条线尤其强。但 DeepSeek V4 的特殊性在于，它把 1M 上下文和开源权重、低价 API 放在了一起。对于开发者和中小团队而言，这意味着长上下文不再只是大厂产品页上的高级特性，而可能成为日常工具链的一部分。

当模型可以完整读入项目、文档、日志、需求和约束，Agent 才真正有资格从“会聊天的助手”走向“能干活的协作者”。

DeepSeek 的路线：用结构创新抵消算力劣势

如果只看 V4，很容易把它当成一次孤立更新。但如果把 V2、V3、R1、V4 连起来看，DeepSeek 的路线其实非常清晰：

它一直在用结构创新抵消算力劣势。

DeepSeek-V2 的关键词是 MLA 和 MoE。它真正打响的不是“参数大战”，而是“低成本推理”的第一枪。V2 之后，大家开始认真讨论一个问题：模型能力提升，是否一定意味着推理成本指数级上涨？

DeepSeek-V3 则证明了另一件事：顶级模型训练不一定只能依靠无限烧钱。V3 技术报告里给出的训练效率和成本，引发了全球 AI 圈对训练范式的重新审视。那一刻，DeepSeek 开始不再只是一个“中国开源模型团队”，而是被放进了全球基础模型研究的参照系里。

DeepSeek-R1 则把推理模型推到前台。它最重要的意义不是某一道数学题做对了，而是证明通过强化学习可以让模型形成可见的推理能力。R1 爆火，本质上是因为它打破了一个心理垄断：复杂推理不再只能从闭源模型那里租。

到了 V4，DeepSeek 把这些线索合到了一起：

MoE 继续负责能力和成本平衡；
长上下文负责 Agent 记忆地基；
GRPO、on-policy distillation 等方法继续强化推理和对齐；
Muon 优化器、mHC 架构、压缩注意力机制继续服务训练与推理效率；
API 低价和开源权重则负责把能力释放给开发者。

这条路线和美国闭源巨头的主流路线不完全一样。

OpenAI、Anthropic、Google 的优势是巨型集群、商业闭环、用户数据、生态绑定和资本强度。它们像是在修一座巨大的智能城市，入口、道路、电网、办公楼、商店都在自己体系里。

DeepSeek 更像是在做另一件事：把一套尽可能强、尽可能便宜、尽可能开放的智能发动机放出来，让更多开发者、企业、研究者去接入自己的机器。

前者的关键词是平台，后者的关键词是基础设施。

这不是谁天然高贵的问题，而是两种路线的分歧。闭源路线追求一体化体验和商业控制，开源路线追求可审计、可部署、可迁移、可再创造。

DeepSeek 最值得看的地方，从来不是参数多大，而是它总在问：

同样一份算力，能不能榨出更多智能？

和顶级闭源模型相比，V4 到底哪里能打

把 V4 放到 GPT、Claude、Gemini 面前，最稳妥的说法不是“吊打”，而是“局部反杀，整体逼近”。

尤其在代码与数学上，V4 已经非常锋利。

根据官方模型卡，DeepSeek-V4-Pro Max 在 Codeforces Rating 上达到 3206，LiveCodeBench v6 达到 93.5，在这些指标上已经和 GPT-5.4-high、Claude Opus 4.6 Thinking、Gemini 3.1 Pro、Kimi K2.6 Thinking 这些模型处在同一张桌子上。对于开发者来说，这不是一个抽象分数，而意味着模型在竞赛编程、算法题、代码生成、复杂逻辑拆解上具备了非常高的可用性。

在数学和 STEM 任务上，V4 也表现强势。GPQA Diamond、HMMT、IMOAnswerBench、AIME 2025 等指标都说明，它不只是会写样板代码，而是具备较强的多步推理能力。

但真正值得关注的是 Agentic Coding。

未来程序员使用模型，不会只是问“帮我写个函数”。更常见的工作流会是：

读取项目结构；
理解需求；
找出影响范围；
修改多个文件；
运行测试；
根据错误继续修复；
输出变更说明。

这类任务对模型要求极高。它既要有代码能力，也要有长上下文能力，还要有工具调用、计划分解、错误恢复和约束记忆能力。V4 在 SWE Bench Verified、Terminal Bench、Toolathlon、MCPAtlas 等 Agent 相关指标上进入前列，说明 DeepSeek 已经把重点从“会答题的模型”转向“能执行任务的模型”。

不过，闭源模型仍然有它们的优势。

Claude 在复杂代码重构、长文写作、指令遵循方面仍然很强；Gemini 在长上下文、多模态和搜索生态上有天然优势；GPT 系列在工具生态、企业集成、产品稳定性上积累深厚。V4 的出现不是让这些优势消失，而是让开发者第一次可以用更低成本、更开放的方式接近它们。

可以用一张表概括：

维度	DeepSeek V4 的位置
代码能力	开源第一梯队，部分指标进入闭源旗舰区间
数学推理	强势逼近顶级闭源模型，但不宜说全面碾压
长上下文	1M 标配，且强调推理效率，工程价值很高
Agent 能力	已经进入主战场，复杂工具链仍需更多真实项目验证
世界知识	明显进步，但闭源旗舰仍有优势
多模态	不是 V4 当前主战场
商业生态	API 兼容友好，企业工具链弱于闭源巨头
部署自由度	开源权重带来长期优势

所以，DeepSeek V4 最准确的位置不是“闭源模型终结者”，而是“闭源模型价格和权力结构的挑战者”。

它不一定每项都赢，但它让闭源厂商不能再舒服地说：顶级智能只能关在我们的黑箱里。

小测评可以看手感，但别把演示当成铁证

除了官方 benchmark，很多人更关心的是“上手到底灵不灵”。

比如原文里提到的那个脑筋急转弯：

洗车店离我家 50 米远，我去洗车，建议开车去还是走路去？

这类题的关键不在语言知识，而在常识约束。模型如果只看到“50 米很近”，就会建议走路；但真正的任务目标是“去洗车”，车必须到洗车店。一个合格回答应该能识别出这个隐藏约束：人可以走过去，车不能自己过去，所以建议开车去。

DeepSeek V4 能答对这类题，说明它在短链路常识推理上没有被表面距离带偏。但坦白讲，这种单题演示只能看手感，不能证明模型总体强弱。今天很多模型都能背过热门脑筋急转弯，真正拉开差距的不是会不会答一道题，而是在陌生场景里能否稳定识别任务目标、隐含条件和反常识陷阱。

另一个小游戏案例更接近开发者的真实感受：让模型“开发一个 2D 横版飞行射击游戏，类似红白机上的《沙罗曼蛇》”。

这类任务看似简单，实际包含不少隐性要求：画布初始化、主循环、键盘事件、碰撞检测、敌人生成、子弹生命周期、计分系统、失败重开、基础视觉表现。如果模型能在一轮生成中把这些要素组织起来，至少说明它具备较好的代码骨架生成能力。

但这里也要留一条边界：小游戏 demo 不等于工程能力。真正的工程代码还要看模块拆分、可维护性、异常处理、测试覆盖、性能边界和后续需求变更。V4 的价值不在于“能不能一口气写出一个小游戏”，而在于它已经能比较稳地完成从需求理解到可运行原型的第一步。

对开发者来说，这一步很重要。

因为 AI 写代码最有价值的地方，不是替你交付最终系统，而是把“从零到一”的启动成本打下来。你不用先盯着空白文件发呆，也不用从 canvas、事件循环、碰撞检测这些基础件重新搭架子。模型先给出一个能跑的版本，程序员再接管结构、质量和边界。

这才是 V4 代码能力最现实的落点：不是替代工程判断，而是缩短从想法到原型的距离。

价格不是附属项，而是路线本身

很多人讨论模型，只盯着能力，不看价格。这在真实工程里是不成立的。

因为模型一旦进入生产环境，token 不是数字，而是成本。

写一段文案，贵一点无所谓；但让 Agent 读完整代码仓库、分析日志、跑测试、修 bug、生成报告、再反复重试，token 会像水一样流走。闭源模型如果每一步都昂贵，开发者就会天然收缩使用频率，最后模型只适合做“关键时刻请一次的专家”，而不是“每天高频协作的工友”。

根据 DeepSeek API 价格页，截至今日，V4-Flash 的百万 tokens 价格为：缓存命中输入 0.02 元，缓存未命中输入 1 元，输出 2 元。

V4-Pro 原价为：缓存命中输入 0.1 元，缓存未命中输入 12 元，输出 24 元。官方当前提供限时 2.5 折，优惠期会持续到下周二晚间，折后为缓存命中输入 0.025 元，缓存未命中输入 3 元，输出 6 元。

两个模型的上下文长度均为 1M，最大输出长度为 384K。API 层面仍兼容 OpenAI ChatCompletions 格式，也提供 Anthropic 格式入口。需要注意的是，旧有的 deepseek-chat 与 deepseek-reasoner 两个模型名只是兼容映射，官方已经说明它们将在三个月后停止使用。新项目最好直接切到 deepseek-v4-flash 或 deepseek-v4-pro，免得临近停用时再被迫改配置。

这个价格的冲击力在于，它不是“便宜一点”，而是把高频试错的心理门槛打掉。

对个人开发者来说，这意味着可以更大胆地把模型接进脚本、编辑器、CI 工具、文档分析流程。对中小企业来说，这意味着不用一上来就面对让财务皱眉的 API 账单。对 Agent 产品来说，这意味着多轮规划、多次调用、多次自我修复不再是奢侈动作。

这就是 DeepSeek 路线里的“普惠”。

普惠不是一句漂亮口号，而是价格表上每百万 token 的数字。模型再强，如果普通人用不起，它就是少数公司的生产资料；模型足够强又足够便宜，才可能变成开发者手里的日常工具。

开源权重：自由是真的，门槛也是真的

V4 同步开源，是这次发布里最重要的信号之一。

但这里也要纠正一个容易误导读者的说法：开源不等于普通笔记本就能满血运行 V4-Pro。

V4-Pro 是 1.6T 总参数、49B 激活参数的 MoE 模型。即使它有很强的推理效率优化，即使未来社区会做量化、切分和适配，它也不是普通消费级机器可以轻松完整承载的东西。对于绝大多数个人用户，V4 首先是一个 API 故事；对于基础设施团队、云厂商、大企业和研究机构，它才是本地部署和私有化优化的故事。

但这并不削弱开源的意义。

开源权重真正带来的价值，是把选择权交还给使用者：

企业可以在合规场景下做私有化部署；
社区可以做量化、蒸馏、推理框架适配；
研究者可以审查模型结构和训练方法；
开发者不必被单一 API 平台长期锁死；
国产算力和开源推理栈可以围绕真实旗舰模型做优化；
生态可以在模型之上长出自己的工具链，而不是永远租住在闭源厂商的房子里。

闭源模型的优势是体验统一、服务稳定、生态完整；开源模型的优势是可迁移、可审计、可改造、可长期沉淀。

如果说闭源模型卖的是“即插即用的高级服务”，那么开源模型释放的是“可被整个行业再加工的基础资产”。

这两者不是同一种商品。

国产算力适配：不是终点，而是闭环的开始

DeepSeek V4 还有一个容易被情绪化解读的点：国产算力适配。

官方材料提到，V4 的细粒度专家并行方案在 NVIDIA GPU 和华为昇腾 NPU 平台上均完成验证；在通用推理负载下，吞吐有 1.50 到 1.73 倍提升，在延迟敏感场景中最高达到 1.96 倍。

这当然值得重视。

但它不应该被写成“彻底摆脱英伟达”的口号。CUDA 生态、训练集群、通信库、算子优化、工程工具链仍然非常成熟，国产算力要追的不只是芯片单点性能，而是从模型结构、推理框架、调度系统、开发工具到部署经验的完整生态。

DeepSeek V4 的意义在于，它给国产算力提供了一个真正有分量的负载。

过去很多硬件适配喜欢跑小 benchmark，数据很好看，但离真实大模型生产环境很远。旗舰模型愿意适配，愿意暴露真实瓶颈，愿意围绕 MoE、长上下文、专家并行、KV Cache 做工程优化，这才是国产 AI 软硬件协同真正需要的东西。

国产算力的胜利不会来自一句口号，而会来自无数次这样的真实负载验证。

DeepSeek 的初心：不是国产替代，而是开放前沿

谈 DeepSeek，很容易滑向一种简单叙事：国产模型打败海外模型，中国 AI 扬眉吐气。

这当然能提供情绪价值，但不够准确，也不够高级。

DeepSeek 真正值得尊重的地方，不只是“国产”，而是它一直在做基础模型研究，一直愿意把关键成果开放出来，一直试图通过结构创新和工程效率，把先进 AI 能力变得更便宜。

如果只是做一个国产 ChatGPT 替代品，DeepSeek 不需要这么折腾。它完全可以把应用层做厚，把入口做重，把模型藏起来，然后像传统互联网产品一样抢流量、做会员、卖套餐。

但 DeepSeek 选择的是更难的一条路：模型、论文、权重、API、价格一起接受全球开发者检验。

这背后其实有一种朴素但坚定的初心：

中国 AI 不能永远做跟随者，开源 AI 也不能永远做闭源模型的廉价替身。

DeepSeek 官方在 V4 发布页末尾引用了《荀子》中的一句话：

不诱于誉，不恐于诽，率道而行，端然正己。

这句话用在 DeepSeek 身上，倒是很合适。

R1 爆火之后，它没有急着用流量包装自己；V4 迟迟未发时，它也没有被外界催促节奏牵着走。它真正做的，是继续在模型结构、推理效率、强化学习、长上下文和开源生态上往前拱。

技术路线最怕两件事：一种是被赞誉冲昏头脑，开始卖概念；另一种是被质疑吓住，退回安全区。DeepSeek 现在最难得的地方，是它还在沿着自己那条并不好走的路往前走。

V4 不一定复刻 R1 的流量神话，但可能留下更深的工程遗产

所以，DeepSeek V4 能否再次缔造神话？

如果说的是社交媒体上的爆炸式传播，我不确定。R1 的时间点太特殊，全球 AI 圈对中国开源推理模型的预期也还没有被刷新。那种第一次击穿认知的震动，很难复制。

但如果说的是工程意义，V4 可能会留下更扎实的东西。

它把百万上下文做成标配，把代码和数学能力推到开源第一梯队，把 Agentic Coding 放到模型核心位置，把价格压到开发者可以高频试错的程度，又把权重放出来，让社区和企业有机会真正参与生态建设。

这不是一次烟花式发布，而更像是铺路。

闭源模型仍然强，甚至在很多方面仍然更成熟。我们没有必要为了支持 DeepSeek，就假装 Claude、Gemini、GPT 的优势不存在。真正的自信不是拒绝承认差距，而是在承认差距之后，依然拿出自己的路线、自己的技术、自己的价格和自己的开放姿态。

DeepSeek V4 最打动人的地方，不是它在某张榜单上赢了谁，而是它继续证明了一件事：

先进 AI 能力不应该只被锁在少数闭源平台里。

当更强的模型开始开源，当百万上下文不再高不可攀，当代码 Agent 的成本下降到普通开发者可以承受，当国产算力有机会围绕真实旗舰模型建立优化闭环，这场全球 AI 竞赛才真正变得有意思。

因为它不再只是巨头之间的军备竞赛，也不再只是资本市场上的算力狂欢。

它开始重新回到开发者、研究者、中小团队和真实工程问题手里。

这或许才是 DeepSeek 路线最珍贵的地方：用结构创新降低算力依赖，用开源对抗黑箱垄断，用低价把智能交还给更多普通人。

R1 像一道惊雷，让世界突然回头看见中国开源模型。

V4 则更像一条路，告诉大家：这件事不是偶然，它还在继续。

参考资料