Anonymous Intelligence Signal
DeepSeek V4技术报告缺失Engram引热议:社区追问“记忆模块”下落
DeepSeek V4的技术报告包含mHC、CSA、HCA、Muon、FP4等多项架构优化,却唯独未见Engram的身影。这一缺失迅速成为圈内外热议的焦点,众多开发者第一时间在论文中command+f检索Engram未果,不少声音直言“没有Engram,V4是不完整的”。
Engram由DeepSeek与北京大学于今年1月联合开源,论文题为《Conditional Memory via Scalable Lookup》,第一作者为北大博士生ChengXin(曾署名V3),通讯作者为梁文锋。Engram的核心设计是为Transformer添加原生知识查表模块,实现“能查的别算”——模型处理“伦敦是英国首都”这类静态知识时,无需动用整个深层网络重新推导,可直接查表获取,从而释放深层网络容量用于更高阶的推理任务。论文数据显示,识别“Diana, Princess of Wales”这一实体,模型原本需要消耗6层注意力和前馈网络逐层拼凑特征。
尽管V4主报告未见Engram集成,但相关研究并未中断。三篇后续论文相继出现:CXL内存池化版本将Engram部署至多机共享的CXL内存池,解决大模型分布式存储问题;无冲突热层实验对多头哈希优化进行了实证检验并证伪部分直觉式改进方案;视觉团队AutoArk则将文本Engram迁移至视觉模态,扩展了应用边界。Engram的理念与工程探索已在V4之外悄然铺开,为下一代模型的记忆机制奠定基础。