1. DeepSeek V4预览版开源:1M上下文成标配,架构层彻底重构注意力机制
DeepSeek正式发布V4预览版并同步开源,核心动作只有一件事:将一百万token上下文设为所有官方服务的标配。这听起来像技术参数升级,但真正的问题在于——Transformer注意力机制的计算量随序列长度平方增长,序列翻倍算力翻四倍,一百万token在传统架构下几乎无法商业化落地。V4给出的答案是架构层面的彻底重构。 技术报告披露的改动幅度超出预期。在1M token场景下,V4-Pro单token推理FLOPs仅为V3.2的27%,KV缓存用量只有10%。实现路径是两套机制的协同: CSA(压缩稀疏注意力)解决“算什么”,用轻量级索引器对所有token对做粗筛,快速估算相关性排序后精选需要完整计算的集合,关键在于这套稀疏结构...