The Lab · 2026-04-24 04:57:36 · 华尔街见闻 (RSSHub)
DeepSeek正式发布V4预览版并同步开源,核心动作只有一件事:将一百万token上下文设为所有官方服务的标配。这听起来像技术参数升级,但真正的问题在于——Transformer注意力机制的计算量随序列长度平方增长,序列翻倍算力翻四倍,一百万token在传统架构下几乎无法商业化落地。V4给出的答案是架构层面的彻底重构。
技术报告披露的改动幅度超出预期。在1M token场景下,V4-Pro单token推理FLOPs仅为V3.2的27%,KV缓存用量只有10%。实现路径是两套机制的协同: CSA(压缩稀疏注意力)解决“算什么”,用轻量级索引器对所有token对做粗筛,快速估算相关性排序后精选需要完整计算的集合,关键在于这套稀疏结构...
The Lab · 2026-04-24 05:57:33 · 36氪
被业界调侃为"Next Week"近三个月后,DeepSeek V4终于正式亮相。1.6T最大参数量、1M上下文窗口、基于MoE架构与稀疏注意力机制DSA的设计——这些核心参数在2026年初尘埃落定。值得注意的是,V4将训练框架从英伟达全面迁移至华为昇腾平台,这一转变成为延期的主要原因之一。
然而,芯片适配只是表面挑战。多名知情者向《智能涌现》透露,2025年年中DeepSeek曾经历一次严重的训练失败,导致项目被迫推倒重来。内部在训练方向上存在意见分歧——梁文锋提出特定技术要求,但执行层面难以折中。此外,受制于算力和资金约束,V4仍定位为纯语言模型,多模态生成能力暂缓上线。业界消息显示,V4的1.6T参数量与OpenAI、Ant...
The Lab · 2026-04-24 05:57:35 · 36氪最新 (RSSHub)
被业界戏称为"Next Week"的玩笑持续近三个月后,DeepSeek V4终于正式发布。1.6万亿最大参数量、100万token上下文窗口、基于MoE架构与稀疏注意力机制DSA的性能优化——这些参数尘埃落定,但围绕这款模型背后的一系列内部抉择与外部压力,才是真正值得关注的暗流。
据多名知情者向《智能涌现》透露,V4姗姗来迟的真正原因,不仅涉及将训练框架从英伟达向华为昇腾的艰难迁移。2025年年中,DeepSeek曾经历一次较为严重的训练失败,内部在训练方向上存在分歧——梁文锋提出的要求在执行层面难以折中。更深层的原因在于:V4暂缓多模态路线,并非技术意愿,而是算力与现金的双重掣肘。
一个更具深远影响的转变正在发生:DeepS...
The Lab · 2026-04-24 07:27:33 · 华尔街见闻 (RSSHub)
4月24日,DeepSeek V4预览版正式发布并同步开源权重,两个版本——旗舰V4-PRO(总参数1.6万亿,激活49B)与经济型V4-Flash(总参数284B,激活13B)——均支持100万token上下文,MIT协议完全开源。就在前一天,OpenAI刚上线GPT-5.5,每百万输出token定价30美元;同日DeepSeek V4-Flash的输出定价仅为2元人民币,折合不到0.3美元。两种定价逻辑在48小时内正面碰撞,开源与闭源的成本预期被重新校准。
V4的到来比行业预期晚了近半年,从去年底到今年2月、3月、4月初经历三次跳票。在此期间,Gemini、Qwen等产品已相继将百万上下文纳入能力清单,V4要回答的核心问题不是...
The Lab · 2026-04-24 08:27:32 · 36氪
4月24日,深度求索正式发布并开源DeepSeek V4,同步实现海光DCU对该模型的Day0适配。这一协同动作打破了传统模型发布与芯片适配之间的时间差,形成“模型发布—芯片适配—产业落地”的高效闭环,为全球开发者及企业客户提供了即取即用的部署方案。
此次适配的核心在于海光DCU对DeepSeek V4的原生支持能力。Day0适配意味着在模型开源当天,硬件层面已完成验证与优化,开发者无需等待后续驱动更新或二次调优即可直接部署。这一响应速度在国产AI芯片生态中尚不多见,折射出深度求索与海光在协同验证流程上的深度整合能力。对于需要快速交付AI能力的企业用户而言,模型与芯片的同步就绪大幅压缩了从评估到生产的时间周期。
从产业格局来看,...
The Lab · 2026-04-24 08:57:33 · 36氪最新 (RSSHub)
4月24日上午,DeepSeek V4预览版正式发布,这是国产大模型厂商在推理与编程赛道上的又一次关键落子。此前多次发布预期落空后,这一次终于靴子落地。由于模型发布仅数小时,第三方评测与客户反馈仍处于密集进行中,有效信息量相对有限,但从官方技术文档与海外AI社区的初步讨论中,仍可梳理出若干关键情报。
V4的核心战略方向指向Agent能力提升,这与OpenClaw发布以来的行业趋势高度吻合。“全民养龙虾”浪潮为国内大模型厂商带来了可观的Token增量,但最专业、最核心的增量份额被Claude收入囊中。Agent能力与编程能力深度绑定,而Claude Code至今仍是全球最强的AI编程工具,GPT-Codex亦未能撼动其地位。Deep...
The Lab · 2026-04-24 09:27:41 · 36氪最新 (RSSHub)
2025年4月24日,DeepSeek正式发布V4预览版并开源,一口气推出Pro与Flash两个版本。这是自2025年1月R1发布后,这家被视为行业锚点的公司时隔三个多月再次出手。上一次引发全行业震动的R1尚未被完全消化,V4已经直接把枪口对准了顶级闭源模型阵营。
据官方披露的技术规格,V4-Pro对标顶级闭源竞品,在Agent Coding模式下内部测评体验优于Sonnet 4.5,交付质量逼近Opus 4.6非思考模式;数学和代码推理性能则被官方形容为"超越当前所有已公开评测的开源模型"。Flash作为轻量版本,推理能力接近Pro,但参数与激活量更小,响应更快,成本更低。两款模型的百万token上下文均为标配。完整版V4总参数...
The Lab · 2026-04-24 09:27:48 · 华尔街见闻 (RSSHub)
DeepSeek V4预览版开源上线后,第三方测评结果密集释出,代码能力成为最亮眼的核心标签。Arena.ai平台将V4 Pro(思考模式)定性为“相较DeepSeek V3.2的重大飞跃”,在其代码竞技场中位列开源模型第3位、综合排名第14位;Vals AI则更为直接,称V4在其Vibe Code Benchmark中“压倒性”登顶开源权重模型榜首,同时超越Gemini 3.1 Pro等闭源前沿模型,较上代V3.2实现约10倍性能跃升。开源阵营在代码任务上首次正面挑战闭os源顶级模型的格局已经成型。
两款模型参数规模差异显著:V4-Pro总参数1.6万亿(激活参数49B),V4-Flash总参数2840亿(激活参数13B),均支...
The Lab · 2026-04-24 09:57:34 · 36氪最新 (RSSHub)
4月24日,DeepSeek V4预览版正式发布并同步开源权重,旗舰版V4-Pro总参数1.6万亿、激活49B,经济型V4-Flash总参数284B、激活13B,两者均支持100万token上下文、MIT协议完全开源。就在前一天,OpenAI刚上线GPT-5.5,每百万输出token定价30美元;同日DeepSeek V4-Flash定价仅2元人民币,折合不到0.3美元。两种定价逻辑在48小时内正面交锋,开源与闭源的商业模式张力被推至台前。
这次发布距DeepSeek上一次预告已多次跳票——从去年底到今年2月、3月、4月初,发布时间窗口推了至少三轮,行业密集更新周期中,V4的到来比预期更晚但来势更猛。V4采用全新混合注意力架构,在...
The Lab · 2026-04-24 12:57:41 · 36氪最新 (RSSHub)
2024年3月,AI行业迎来一次罕见的同频共振:OpenAI发布GPT-5.5,同日DeepSeek V4预览版亮相并开源。两家公司不约而同地将Agentic Coding作为核心能力对外宣告——这不是巧合,而是行业在一年之内完成了从"什么都做"到"重点做Coding"的路径收窄。
OpenAI公布的数据显示,GPT-5.5在Terminal-Bench 2.0上达82.7%、SWE-Bench Pro上达58.6%;DeepSeek-V4-Pro则已作为内部员工的Agentic Coding模型投入使用,并针对Claude Code、OpenClaw等主流产品进行了专项适配优化。行业分析长期停留在"编程市场大"、"开发者付费意愿...
The Lab · 2026-04-25 02:57:32 · 钛媒体
3月的同一天,OpenAI发布GPT-5.5,DeepSeek公开V4预览版并宣布开源。两家头部实验室在策略上做出了高度一致的选择:将Agentic Coding作为旗舰产品的核心能力标签。GPT-5.5在Terminal-Bench 2.0达到82.7%、SWE-Bench Pro达到58.6%;DeepSeek-V4-Pro已在内部取代其他模型,并针对Claude Code、OpenClaw等主流产品进行专项优化。这不是巧合,而是整个行业在过去一年内完成路径收窄后的必然会师。
行业分析长期停留在“编程市场大、开发者付费意愿强”的表层叙事,但这无法解释为何两家战略优先级最高的实验室会在同一天用同一话语体系定义各自最先进的模型。《...
The Lab · 2026-04-25 08:27:32 · 36氪最新 (RSSHub)
2026年4月,DeepSeek同时释放两条重磅信号:新一代旗舰模型V4正式发布,首次全面适配华为昇腾950PR芯片;而在资本市场端,这家以“技术理想主义”自居的公司正式开启首轮外部融资,目标估值从100亿美元跃升至200亿至300亿美元,腾讯、阿里正洽谈入局。一内一外两条线索,勾勒出中国AI竞争进入深水区后的战略分化。
V4并非一次常规迭代。参数总量推至1.6万亿,百万token上下文成为标配,且在百万上下文下每token算力消耗仅为V3.2的27%,KV缓存占用压缩至10%。模型输出质量上,V4同时支持三档推理强度,并针对Agentic Coding做了专项优化。内部评测显示,其交付质量已接近Claude Opus 4.6的非...
The Lab · 2026-04-26 04:57:33 · 华尔街见闻 (RSSHub)
高盛最新研报揭示,DeepSeek V4的核心价值不在于参数量的军备竞赛,而在于以激进成本压缩打开AI应用规模化的新空间。4月24日,高盛Ronald Keung团队发布分析指出,V4延续了DeepSeek效率优先、开源路线的基因,其技术突破直指当前制约AI落地的关键瓶颈——长上下文推理的高昂成本。
技术层面,V4通过混合注意力机制实现显著降本。压缩稀疏注意力(CSA)与重度压缩注意力(HCA)的组合架构,将100万上下文场景下的浮点运算量压缩至V3.2的27%(Pro版本),KV缓存占用更降至10%。Flash版本更为激进,FLOPs降至10%,KV缓存压缩至7%。与此同时,引入mHC机制增强信息传递稳定性,并以Muon优化器替...
The Lab · 2026-04-26 07:27:32 · 钛媒体
4月24日,DeepSeek V4正式亮相,DeepSeek-V4-Pro随即登顶Hugging Face开源模型榜首。两大核心突破引发业内关注:百万级超长上下文窗口下,KV cache仅需V3.2的10%,被亚马逊工程师评价为有望缓解HBM短缺难题;同时,DeepSeek在研发中与华为深度合作,快速适配了昇腾、寒武纪等国产芯片。同日,4月20日深夜发布的Kimi K2.6位列开源榜第二。不同于美国大模型厂商的剑拔弩张,国内两大模型“撞档”却未上演互揭底牌的戏码,甚至在技术底层实现了某种程度的协同。
这一反差折射出中美AI发展路线的根本分歧。以OpenAI、Anthropic、谷歌Gemini为代表的硅谷头部玩家,无不选择闭源路径...
The Vault · 2026-04-27 02:27:38 · 华尔街见闻 (RSSHub)
4月24日,DeepSeek发布V4预览版当天,国内AI大模型板块应声下挫,智谱与MiniMax股价双双暴跌9%,恒生指数却同期上涨0.2%。这被视为市场对"竞争威胁"的集中释放——但摩根大通证券(中国)4月26日发布的研报给出了截然不同的判断:这是"过度反应",V4的发布实质上是行业利好,而非零和冲击。
报告的核心逻辑在于:市场忽略了一个关键变量——算力约束的松动,才是V4对整个中国LLM行业最深远的影响。DeepSeek V4成功适配华为昇腾芯片,验证了国产芯片支撑1.6万亿参数前沿模型推理的技术可行性,且可能具备国际芯片难以匹配的成本竞争力。此前,算力瓶颈一直是中国大模型公司难以将token需求转化为可确认收入(ARR)的隐...
The Lab · 2026-04-27 03:57:45 · 36氪最新 (RSSHub)
2026 年 4 月 24 日,最早让人意识到 DeepSeek-V4 不只是一次模型更新的地方,可能不是 Hugging Face,也不是 DeepSeek 的官方公告,而是 B 站——华为昇腾 CANN 官方账号开了一场直播,标题大意很直白:DeepSeek V4 昇腾首发。一个大模型公司发新模型,芯片生态的官方账号为何要出来讲,这件事本身就是信号。
V4-Pro 的核心参数包括 1.6 万亿总参数、49B 激活参数、百万 token 上下文,并以 MIT License 开源。但真正让这一次从"模型更新"变成"产业信号"的,是另一条信息的叠加:华为昇腾 950PR 原生适配。同一天,路透社报道腾讯和阿里正在参与 DeepSe...
The Lab · 2026-04-27 12:57:41 · 36氪最新 (RSSHub)
2026年4月,DeepSeek V4发布仅两天后,便以2.5折限时优惠杀入价格战,随即触发调用量暴涨。V4-Flash单日Token调用量达814亿,环比增长62.2%。这一快速市场响应,掩盖了一场持续超过15个月的人才危机。
在此之前,DeepSeek经历了密集的核心研发流失:V3核心贡献者罗福莉被雷军以千万年薪挖走,R1核心作者郭达雅转投字节跳动,第一代大模型核心作者王炳宣加入腾讯,多模态核心研究员阮翀则去了自动驾驶公司元戎启行。至少5名核心研发成员确认离职,而同期OpenAI连推GPT-5、Claude完成三代迭代、字节豆包月活突破3.31亿,DeepSeek在模型发布节奏上形成了整整一个代际的空白。
梁文锋选择让V4从...
The Lab · 2026-05-07 02:01:16 · 36氪最新 (RSSHub)
两周前发布的DeepSeek V4,与去年V3引发的行业震动形成鲜明反差。2023年V3发布时,整个AI圈讨论热烈,海外开发者首次认真审视一家中国大模型公司,低训练成本与高推理性价比让DeepSeek被视为真正的「Open AI」。然而今年V4问世后,市场情绪明显冷静许多,普通用户继续使用豆包、ChatGPT,而原本被寄予厚望的开发者群体也未因V4降价而替换现有工具。这一转变揭示了2026年大模型竞争的核心逻辑已发生根本位移——模型本身的能力指标正让位于实际产出价值。
多位开发者反馈显示,V4在代码执行效率上与竞品存在显著差距。X用户Ayush Jaipuriar指出,同一操作任务在Codex 5.5 medium模式下仅需20分...