WhisperX tag archive

#Transformer

This page collects WhisperX intelligence signals tagged #Transformer. It is designed for humans, search engines, and AI agents: each item links to a canonical source-backed record with sector, source, timestamp, credibility, and exportable structured data.

Latest Signals (4)

The Lab · 2026-04-09 13:30:10 · 华尔街见闻 (RSSHub)

1. 谷歌CEO皮查伊坦承AI战略失误：内部早期模型“毒性太强”不敢发布，错失先机

在执掌谷歌十周年之际，CEO桑达尔·皮查伊罕见地直面公司最令人“意难平”的战略失误。在接受Stripe联创约翰·克里森和投资人埃拉德·吉尔的联合访谈中，皮查伊承认，尽管颠覆性的Transformer架构诞生于谷歌，但最终却是OpenAI利用它推出了ChatGPT，并撼动了搜索行业的根基。他将此部分归咎于谷歌自身对产品发布的“更高门槛”，并透露一个关键内幕：内部早期版本因“毒性太强”而不敢向公众发布。这一迟滞，让谷歌在生成式AI的浪潮初期陷入了被动。皮查伊试图澄清外界“误解”，强调Transformer从一开始就是为解决翻译质量等实际问题而生，并非纯学术研究。谷歌研究团队也迅速将其应用于搜索，并衍生出BERT等模型。然而，对潜在风...

#人工智能 #Transformer #OpenAI #算力 #基础设施

The Lab · 2026-04-17 13:03:01 · 36氪最新 (RSSHub)

2. 谷歌论文再掀AI架构革命：Transformer与RNN合体，打破超长上下文显存瓶颈

谷歌的研究团队再次将矛头对准了AI模型的内存瓶颈。继上个月引发行业震动的TurboQuant研究后，本周一篇新论文提出了一种名为“记忆缓存（Memory Caching, MC）”的架构创新，旨在从根本上解决大模型处理超长文本时面临的算力与显存困境。该方法试图融合Transformer与循环神经网络（RNN）的优势，为AI解锁“超长上下文”能力的同时，大幅降低推理的资源门槛。当前AI领域的主流Transformer架构，因其注意力机制的计算复杂度随上下文长度呈二次方增长，在处理长文本时面临极高的算力和显存成本。而作为替代方案的RNN、线性注意力或状态空间模型（如Mamba），虽然拥有固定的记忆容量和更低的资源占用，却受限于一个“...

#人工智能 #谷歌 #Transformer #RNN #显存瓶颈

The Lab · 2026-04-20 14:32:56 · 36氪最新 (RSSHub)

3. 22岁开发者Kye Gomez开源OpenMythos，逆向工程Claude Mythos架构，以循环深度Transformer挑战AI堆参数范式

传闻中因过于强大而被‘封印’的Claude Mythos架构，其核心设计已被一名22岁的开发者逆向工程并开源。这个名为OpenMythos的项目，整合了公开研究和当前对Mythos架构的主流推测，实现了一种名为循环深度Transformer（RDT）的创新模型。其核心在于，通过让同一组模型权重在潜在空间中循环计算最多16次，并每次激活不同的专家路径，实现了不依赖堆叠参数层数的深度推理。已有研究证实，这种架构仅用一半的参数，就能获得与传统Transformer模型同等的效果。将这一系列技术碎片拼凑起来的关键人物是Kye Gomez，年仅22岁，也是Swarms智能体框架的创始人。他设计的RDT架构有三个支柱：权重在循环中复用、每次...

#人工智能 #开源 #模型架构 #Transformer #逆向工程

The Lab · 2026-05-06 08:01:16 · 36氪最新 (RSSHub)

4. DeepSeek V4技术报告缺失Engram引热议：社区追问“记忆模块”下落

DeepSeek V4的技术报告包含mHC、CSA、HCA、Muon、FP4等多项架构优化，却唯独未见Engram的身影。这一缺失迅速成为圈内外热议的焦点，众多开发者第一时间在论文中command+f检索Engram未果，不少声音直言“没有Engram，V4是不完整的”。 Engram由DeepSeek与北京大学于今年1月联合开源，论文题为《Conditional Memory via Scalable Lookup》，第一作者为北大博士生ChengXin（曾署名V3），通讯作者为梁文锋。Engram的核心设计是为Transformer添加原生知识查表模块，实现“能查的别算”——模型处理“伦敦是英国首都”这类静态知识时，无需动用整...

#DeepSeek #V4 #Engram #大模型 #Transformer