大家是否还记得,去年春节前后 DeepSeek-R1 横空出世时的盛况?
那不是一次普通的模型发布。它更像是在全球 AI 叙事里砸下了一块石头:原来顶级推理能力并不必然只存在于 OpenAI、Anthropic、Google 这些闭源黑箱里;原来一个中国团队,也可以用开源方式把推理模型推到世界牌桌中央。
转眼一年多过去,这期间网上无数次传出 DeepSeek V4、DeepSeek-R2 的消息。每一次都像要来了,每一次又沉下去。直到几天前,DeepSeek-V4 预览版正式上线,并同步开源。
问题也随之回来:
这次 DeepSeek V4 还能不能复刻 R1 当年的神话?
我的判断是:如果把“神话”理解成全网情绪爆炸、朋友圈刷屏、海外社区集体震动,那 V4 未必会完全复刻 R1 的场面。因为市场已经被大模型教育过一次,惊喜阈值变高了。
但如果从工程价值和产业路线看,V4 的意义可能比 R1 更深。R1 证明的是中国开源模型能把推理能力做出来;V4 证明的是,开源模型正在把顶级闭源模型的核心能力拆开,压价,开放,然后推向真实生产环境。
这不是一次简单的模型升级,而是一次路线宣言。
先别急着喊神话:V4 的意义不是全胜,而是进入闭源腹地
今天评价一个大模型,最容易犯的错误就是拿一张榜单说故事。
跑分第一,就说天下无敌;某项落后,就说不过如此。这种判断方式很痛快,但也很粗糙。大模型已经不是单一能力的竞赛,它同时牵涉代码、数学、知识、长上下文、工具调用、推理稳定性、API 成本、部署自由度以及生态成熟度。
所以 DeepSeek V4 该怎么评价?
一句话:
它不是全面碾压顶级闭源模型,但它已经把开源模型带进了闭源模型最核心的战场。
根据 DeepSeek 官方发布页与 Hugging Face 模型卡,DeepSeek-V4-Pro Max 在 Codeforces、LiveCodeBench、IMOAnswerBench、HMMT、GPQA Diamond 等多项代码、数学与科学推理指标上已经逼近甚至超过部分闭源旗舰模型。在 Agentic Coding 和长上下文任务上,它也明显不再只是“能用”,而是进入了可以和 GPT、Claude、Gemini 正面比较的区间。
但另一边也必须承认:在世界知识、复杂工具生态、多模态原生能力、企业级产品成熟度上,闭源模型仍有护城河。尤其是 Gemini、Claude、GPT 这类模型背后有搜索、浏览器、办公套件、云平台、企业权限体系和海量用户反馈闭环,不是单靠一次开源权重发布就能全部抹平。
这才是 V4 最真实的位置:
闭源模型仍然领先,但领先不再等于垄断。
双模型不是大小杯,而是两种生产场景
DeepSeek V4 这次没有只给一个模型,而是推出了两个 MoE 版本:DeepSeek-V4-Pro 和 DeepSeek-V4-Flash。二者都采用 MIT 许可证开源,官方服务也都支持 1M token 上下文。
| 模型 | 总参数 | 激活参数 | 预训练规模 | 上下文 | 定位 |
|---|---|---|---|---|---|
| DeepSeek-V4-Pro | 1.6T | 49B | 33T tokens | 1M tokens | 旗舰性能,面向复杂推理、代码 Agent、科研分析、长文档理解 |
| DeepSeek-V4-Flash | 284B | 13B | 32T tokens | 1M tokens | 快捷经济,面向日常问答、办公写作、轻量代码、批量任务 |
这里最值得看的不是“1.6T 参数”这个数字本身,而是 MoE 架构背后的成本逻辑。
MoE 的本质,是让模型拥有更大的总知识容量,却不在每一次推理时激活全部参数。换句话说,它试图在“能力上限”和“单次调用成本”之间找一个更现实的平衡点。Pro 负责上限,Flash 负责普惠。一个像重型工程车,一个像高频通勤车,它们不是谁替代谁,而是覆盖不同工作负载。
这也是 DeepSeek 路线里很稳定的一点:它很少只为了榜单堆体量,而是始终盯着“真实可用成本”。
顶级闭源模型也可以强,但如果每次调用都像刷信用卡买奢侈品,开发者就不敢让它进入高频工作流。Agent、代码修复、长文档审阅、自动化测试这些场景,真正可怕的不是单次问答,而是反复读取、反复调用、反复试错。模型价格一旦压不下来,智能体就只能停留在演示视频里。
V4 的双模型策略,本质上是在回答一个更现实的问题:
如果 AI 要从聊天窗口进入生产流水线,它不能只有天花板,还必须有地板价。
百万上下文:不是能塞更多字,而是 Agent 的记忆地基
很多人看到 1M 上下文,第一反应是:终于可以一次性喂一本小说、一份合同、一篇论文合集了。
这当然是价值,但还不是最关键的价值。
对普通办公用户来说,百万上下文意味着不用把材料拆成十几段,也不用反复提醒模型“前面说过什么”。对开发者来说,它的意义更大:模型有机会一次性读入一个中型代码仓库、完整 API 文档、多轮需求变更记录、测试日志、历史 issue 和架构约束。
过去很多 Agent 失败,并不是因为模型完全不会推理,而是因为它“失忆”。
它看到了当前文件,却忘了调用链;它改了业务逻辑,却漏了测试约束;它理解了需求第一段,却忽略了后面补充的边界条件。于是开发者不得不反复把上下文切碎、粘贴、总结、再粘贴,最后自己变成了模型的临时内存管理器。
百万上下文真正改变的是这个结构。
DeepSeek 在 V4 发布材料里提到,在 1M token 负载下,V4-Pro 的单 token 推理 FLOPs 仅为 V3.2 的 27%,KV Cache 占用压缩到上代的 10%。这背后不是简单把显存堆大,而是通过 CSA、HCA、DSA 等压缩与稀疏注意力机制,在 token 维度重新设计长上下文的计算方式。
这件事的工程意义很直接:
长上下文从炫技变成标配,靠的不是蛮力,而是架构。
闭源模型当然也有长上下文能力,Gemini 这条线尤其强。但 DeepSeek V4 的特殊性在于,它把 1M 上下文和开源权重、低价 API 放在了一起。对于开发者和中小团队而言,这意味着长上下文不再只是大厂产品页上的高级特性,而可能成为日常工具链的一部分。
当模型可以完整读入项目、文档、日志、需求和约束,Agent 才真正有资格从“会聊天的助手”走向“能干活的协作者”。
DeepSeek 的路线:用结构创新抵消算力劣势
如果只看 V4,很容易把它当成一次孤立更新。但如果把 V2、V3、R1、V4 连起来看,DeepSeek 的路线其实非常清晰:
它一直在用结构创新抵消算力劣势。
DeepSeek-V2 的关键词是 MLA 和 MoE。它真正打响的不是“参数大战”,而是“低成本推理”的第一枪。V2 之后,大家开始认真讨论一个问题:模型能力提升,是否一定意味着推理成本指数级上涨?
DeepSeek-V3 则证明了另一件事:顶级模型训练不一定只能依靠无限烧钱。V3 技术报告里给出的训练效率和成本,引发了全球 AI 圈对训练范式的重新审视。那一刻,DeepSeek 开始不再只是一个“中国开源模型团队”,而是被放进了全球基础模型研究的参照系里。
DeepSeek-R1 则把推理模型推到前台。它最重要的意义不是某一道数学题做对了,而是证明通过强化学习可以让模型形成可见的推理能力。R1 爆火,本质上是因为它打破了一个心理垄断:复杂推理不再只能从闭源模型那里租。
到了 V4,DeepSeek 把这些线索合到了一起:
- MoE 继续负责能力和成本平衡;
- 长上下文负责 Agent 记忆地基;
- GRPO、on-policy distillation 等方法继续强化推理和对齐;
- Muon 优化器、mHC 架构、压缩注意力机制继续服务训练与推理效率;
- API 低价和开源权重则负责把能力释放给开发者。
这条路线和美国闭源巨头的主流路线不完全一样。
OpenAI、Anthropic、Google 的优势是巨型集群、商业闭环、用户数据、生态绑定和资本强度。它们像是在修一座巨大的智能城市,入口、道路、电网、办公楼、商店都在自己体系里。
DeepSeek 更像是在做另一件事:把一套尽可能强、尽可能便宜、尽可能开放的智能发动机放出来,让更多开发者、企业、研究者去接入自己的机器。
前者的关键词是平台,后者的关键词是基础设施。
这不是谁天然高贵的问题,而是两种路线的分歧。闭源路线追求一体化体验和商业控制,开源路线追求可审计、可部署、可迁移、可再创造。
DeepSeek 最值得看的地方,从来不是参数多大,而是它总在问:
同样一份算力,能不能榨出更多智能?
和顶级闭源模型相比,V4 到底哪里能打
把 V4 放到 GPT、Claude、Gemini 面前,最稳妥的说法不是“吊打”,而是“局部反杀,整体逼近”。
尤其在代码与数学上,V4 已经非常锋利。
根据官方模型卡,DeepSeek-V4-Pro Max 在 Codeforces Rating 上达到 3206,LiveCodeBench v6 达到 93.5,在这些指标上已经和 GPT-5.4-high、Claude Opus 4.6 Thinking、Gemini 3.1 Pro、Kimi K2.6 Thinking 这些模型处在同一张桌子上。对于开发者来说,这不是一个抽象分数,而意味着模型在竞赛编程、算法题、代码生成、复杂逻辑拆解上具备了非常高的可用性。
在数学和 STEM 任务上,V4 也表现强势。GPQA Diamond、HMMT、IMOAnswerBench、AIME 2025 等指标都说明,它不只是会写样板代码,而是具备较强的多步推理能力。
但真正值得关注的是 Agentic Coding。
未来程序员使用模型,不会只是问“帮我写个函数”。更常见的工作流会是:
- 读取项目结构;
- 理解需求;
- 找出影响范围;
- 修改多个文件;
- 运行测试;
- 根据错误继续修复;
- 输出变更说明。
这类任务对模型要求极高。它既要有代码能力,也要有长上下文能力,还要有工具调用、计划分解、错误恢复和约束记忆能力。V4 在 SWE Bench Verified、Terminal Bench、Toolathlon、MCPAtlas 等 Agent 相关指标上进入前列,说明 DeepSeek 已经把重点从“会答题的模型”转向“能执行任务的模型”。
不过,闭源模型仍然有它们的优势。
Claude 在复杂代码重构、长文写作、指令遵循方面仍然很强;Gemini 在长上下文、多模态和搜索生态上有天然优势;GPT 系列在工具生态、企业集成、产品稳定性上积累深厚。V4 的出现不是让这些优势消失,而是让开发者第一次可以用更低成本、更开放的方式接近它们。
可以用一张表概括:
| 维度 | DeepSeek V4 的位置 |
|---|---|
| 代码能力 | 开源第一梯队,部分指标进入闭源旗舰区间 |
| 数学推理 | 强势逼近顶级闭源模型,但不宜说全面碾压 |
| 长上下文 | 1M 标配,且强调推理效率,工程价值很高 |
| Agent 能力 | 已经进入主战场,复杂工具链仍需更多真实项目验证 |
| 世界知识 | 明显进步,但闭源旗舰仍有优势 |
| 多模态 | 不是 V4 当前主战场 |
| 商业生态 | API 兼容友好,企业工具链弱于闭源巨头 |
| 部署自由度 | 开源权重带来长期优势 |
所以,DeepSeek V4 最准确的位置不是“闭源模型终结者”,而是“闭源模型价格和权力结构的挑战者”。
它不一定每项都赢,但它让闭源厂商不能再舒服地说:顶级智能只能关在我们的黑箱里。
小测评可以看手感,但别把演示当成铁证
除了官方 benchmark,很多人更关心的是“上手到底灵不灵”。
比如原文里提到的那个脑筋急转弯:
洗车店离我家 50 米远,我去洗车,建议开车去还是走路去?
这类题的关键不在语言知识,而在常识约束。模型如果只看到“50 米很近”,就会建议走路;但真正的任务目标是“去洗车”,车必须到洗车店。一个合格回答应该能识别出这个隐藏约束:人可以走过去,车不能自己过去,所以建议开车去。
DeepSeek V4 能答对这类题,说明它在短链路常识推理上没有被表面距离带偏。但坦白讲,这种单题演示只能看手感,不能证明模型总体强弱。今天很多模型都能背过热门脑筋急转弯,真正拉开差距的不是会不会答一道题,而是在陌生场景里能否稳定识别任务目标、隐含条件和反常识陷阱。
另一个小游戏案例更接近开发者的真实感受:让模型“开发一个 2D 横版飞行射击游戏,类似红白机上的《沙罗曼蛇》”。
这类任务看似简单,实际包含不少隐性要求:画布初始化、主循环、键盘事件、碰撞检测、敌人生成、子弹生命周期、计分系统、失败重开、基础视觉表现。如果模型能在一轮生成中把这些要素组织起来,至少说明它具备较好的代码骨架生成能力。
但这里也要留一条边界:小游戏 demo 不等于工程能力。真正的工程代码还要看模块拆分、可维护性、异常处理、测试覆盖、性能边界和后续需求变更。V4 的价值不在于“能不能一口气写出一个小游戏”,而在于它已经能比较稳地完成从需求理解到可运行原型的第一步。
对开发者来说,这一步很重要。
因为 AI 写代码最有价值的地方,不是替你交付最终系统,而是把“从零到一”的启动成本打下来。你不用先盯着空白文件发呆,也不用从 canvas、事件循环、碰撞检测这些基础件重新搭架子。模型先给出一个能跑的版本,程序员再接管结构、质量和边界。
这才是 V4 代码能力最现实的落点:不是替代工程判断,而是缩短从想法到原型的距离。
价格不是附属项,而是路线本身
很多人讨论模型,只盯着能力,不看价格。这在真实工程里是不成立的。
因为模型一旦进入生产环境,token 不是数字,而是成本。
写一段文案,贵一点无所谓;但让 Agent 读完整代码仓库、分析日志、跑测试、修 bug、生成报告、再反复重试,token 会像水一样流走。闭源模型如果每一步都昂贵,开发者就会天然收缩使用频率,最后模型只适合做“关键时刻请一次的专家”,而不是“每天高频协作的工友”。
根据 DeepSeek API 价格页,截至今日,V4-Flash 的百万 tokens 价格为:缓存命中输入 0.02 元,缓存未命中输入 1 元,输出 2 元。
V4-Pro 原价为:缓存命中输入 0.1 元,缓存未命中输入 12 元,输出 24 元。官方当前提供限时 2.5 折,优惠期会持续到下周二晚间,折后为缓存命中输入 0.025 元,缓存未命中输入 3 元,输出 6 元。
两个模型的上下文长度均为 1M,最大输出长度为 384K。API 层面仍兼容 OpenAI ChatCompletions 格式,也提供 Anthropic 格式入口。需要注意的是,旧有的 deepseek-chat 与 deepseek-reasoner 两个模型名只是兼容映射,官方已经说明它们将在三个月后停止使用。新项目最好直接切到 deepseek-v4-flash 或 deepseek-v4-pro,免得临近停用时再被迫改配置。
这个价格的冲击力在于,它不是“便宜一点”,而是把高频试错的心理门槛打掉。
对个人开发者来说,这意味着可以更大胆地把模型接进脚本、编辑器、CI 工具、文档分析流程。对中小企业来说,这意味着不用一上来就面对让财务皱眉的 API 账单。对 Agent 产品来说,这意味着多轮规划、多次调用、多次自我修复不再是奢侈动作。
这就是 DeepSeek 路线里的“普惠”。
普惠不是一句漂亮口号,而是价格表上每百万 token 的数字。模型再强,如果普通人用不起,它就是少数公司的生产资料;模型足够强又足够便宜,才可能变成开发者手里的日常工具。
开源权重:自由是真的,门槛也是真的
V4 同步开源,是这次发布里最重要的信号之一。
但这里也要纠正一个容易误导读者的说法:开源不等于普通笔记本就能满血运行 V4-Pro。
V4-Pro 是 1.6T 总参数、49B 激活参数的 MoE 模型。即使它有很强的推理效率优化,即使未来社区会做量化、切分和适配,它也不是普通消费级机器可以轻松完整承载的东西。对于绝大多数个人用户,V4 首先是一个 API 故事;对于基础设施团队、云厂商、大企业和研究机构,它才是本地部署和私有化优化的故事。
但这并不削弱开源的意义。
开源权重真正带来的价值,是把选择权交还给使用者:
- 企业可以在合规场景下做私有化部署;
- 社区可以做量化、蒸馏、推理框架适配;
- 研究者可以审查模型结构和训练方法;
- 开发者不必被单一 API 平台长期锁死;
- 国产算力和开源推理栈可以围绕真实旗舰模型做优化;
- 生态可以在模型之上长出自己的工具链,而不是永远租住在闭源厂商的房子里。
闭源模型的优势是体验统一、服务稳定、生态完整;开源模型的优势是可迁移、可审计、可改造、可长期沉淀。
如果说闭源模型卖的是“即插即用的高级服务”,那么开源模型释放的是“可被整个行业再加工的基础资产”。
这两者不是同一种商品。
国产算力适配:不是终点,而是闭环的开始
DeepSeek V4 还有一个容易被情绪化解读的点:国产算力适配。
官方材料提到,V4 的细粒度专家并行方案在 NVIDIA GPU 和华为昇腾 NPU 平台上均完成验证;在通用推理负载下,吞吐有 1.50 到 1.73 倍提升,在延迟敏感场景中最高达到 1.96 倍。
这当然值得重视。
但它不应该被写成“彻底摆脱英伟达”的口号。CUDA 生态、训练集群、通信库、算子优化、工程工具链仍然非常成熟,国产算力要追的不只是芯片单点性能,而是从模型结构、推理框架、调度系统、开发工具到部署经验的完整生态。
DeepSeek V4 的意义在于,它给国产算力提供了一个真正有分量的负载。
过去很多硬件适配喜欢跑小 benchmark,数据很好看,但离真实大模型生产环境很远。旗舰模型愿意适配,愿意暴露真实瓶颈,愿意围绕 MoE、长上下文、专家并行、KV Cache 做工程优化,这才是国产 AI 软硬件协同真正需要的东西。
国产算力的胜利不会来自一句口号,而会来自无数次这样的真实负载验证。
DeepSeek 的初心:不是国产替代,而是开放前沿
谈 DeepSeek,很容易滑向一种简单叙事:国产模型打败海外模型,中国 AI 扬眉吐气。
这当然能提供情绪价值,但不够准确,也不够高级。
DeepSeek 真正值得尊重的地方,不只是“国产”,而是它一直在做基础模型研究,一直愿意把关键成果开放出来,一直试图通过结构创新和工程效率,把先进 AI 能力变得更便宜。
如果只是做一个国产 ChatGPT 替代品,DeepSeek 不需要这么折腾。它完全可以把应用层做厚,把入口做重,把模型藏起来,然后像传统互联网产品一样抢流量、做会员、卖套餐。
但 DeepSeek 选择的是更难的一条路:模型、论文、权重、API、价格一起接受全球开发者检验。
这背后其实有一种朴素但坚定的初心:
中国 AI 不能永远做跟随者,开源 AI 也不能永远做闭源模型的廉价替身。
DeepSeek 官方在 V4 发布页末尾引用了《荀子》中的一句话:
不诱于誉,不恐于诽,率道而行,端然正己。
这句话用在 DeepSeek 身上,倒是很合适。
R1 爆火之后,它没有急着用流量包装自己;V4 迟迟未发时,它也没有被外界催促节奏牵着走。它真正做的,是继续在模型结构、推理效率、强化学习、长上下文和开源生态上往前拱。
技术路线最怕两件事:一种是被赞誉冲昏头脑,开始卖概念;另一种是被质疑吓住,退回安全区。DeepSeek 现在最难得的地方,是它还在沿着自己那条并不好走的路往前走。
V4 不一定复刻 R1 的流量神话,但可能留下更深的工程遗产
所以,DeepSeek V4 能否再次缔造神话?
如果说的是社交媒体上的爆炸式传播,我不确定。R1 的时间点太特殊,全球 AI 圈对中国开源推理模型的预期也还没有被刷新。那种第一次击穿认知的震动,很难复制。
但如果说的是工程意义,V4 可能会留下更扎实的东西。
它把百万上下文做成标配,把代码和数学能力推到开源第一梯队,把 Agentic Coding 放到模型核心位置,把价格压到开发者可以高频试错的程度,又把权重放出来,让社区和企业有机会真正参与生态建设。
这不是一次烟花式发布,而更像是铺路。
闭源模型仍然强,甚至在很多方面仍然更成熟。我们没有必要为了支持 DeepSeek,就假装 Claude、Gemini、GPT 的优势不存在。真正的自信不是拒绝承认差距,而是在承认差距之后,依然拿出自己的路线、自己的技术、自己的价格和自己的开放姿态。
DeepSeek V4 最打动人的地方,不是它在某张榜单上赢了谁,而是它继续证明了一件事:
先进 AI 能力不应该只被锁在少数闭源平台里。
当更强的模型开始开源,当百万上下文不再高不可攀,当代码 Agent 的成本下降到普通开发者可以承受,当国产算力有机会围绕真实旗舰模型建立优化闭环,这场全球 AI 竞赛才真正变得有意思。
因为它不再只是巨头之间的军备竞赛,也不再只是资本市场上的算力狂欢。
它开始重新回到开发者、研究者、中小团队和真实工程问题手里。
这或许才是 DeepSeek 路线最珍贵的地方:用结构创新降低算力依赖,用开源对抗黑箱垄断,用低价把智能交还给更多普通人。
R1 像一道惊雷,让世界突然回头看见中国开源模型。
V4 则更像一条路,告诉大家:这件事不是偶然,它还在继续。