WhisperX tag archive

#Transformer

This page collects WhisperX intelligence signals tagged #Transformer. It is designed for humans, search engines, and AI agents: each item links to a canonical source-backed record with sector, source, timestamp, credibility, and exportable structured data.

Latest Signals (4)

The Lab · 2026-04-09 13:30:10 · 华尔街见闻 (RSSHub)

1. 谷歌CEO皮查伊坦承AI战略失误:内部早期模型“毒性太强”不敢发布,错失先机

在执掌谷歌十周年之际,CEO桑达尔·皮查伊罕见地直面公司最令人“意难平”的战略失误。在接受Stripe联创约翰·克里森和投资人埃拉德·吉尔的联合访谈中,皮查伊承认,尽管颠覆性的Transformer架构诞生于谷歌,但最终却是OpenAI利用它推出了ChatGPT,并撼动了搜索行业的根基。他将此部分归咎于谷歌自身对产品发布的“更高门槛”,并透露一个关键内幕:内部早期版本因“毒性太强”而不敢向公众发布。这一迟滞,让谷歌在生成式AI的浪潮初期陷入了被动。 皮查伊试图澄清外界“误解”,强调Transformer从一开始就是为解决翻译质量等实际问题而生,并非纯学术研究。谷歌研究团队也迅速将其应用于搜索,并衍生出BERT等模型。然而,对潜在风...

The Lab · 2026-04-17 13:03:01 · 36氪最新 (RSSHub)

2. 谷歌论文再掀AI架构革命:Transformer与RNN合体,打破超长上下文显存瓶颈

谷歌的研究团队再次将矛头对准了AI模型的内存瓶颈。继上个月引发行业震动的TurboQuant研究后,本周一篇新论文提出了一种名为“记忆缓存(Memory Caching, MC)”的架构创新,旨在从根本上解决大模型处理超长文本时面临的算力与显存困境。该方法试图融合Transformer与循环神经网络(RNN)的优势,为AI解锁“超长上下文”能力的同时,大幅降低推理的资源门槛。 当前AI领域的主流Transformer架构,因其注意力机制的计算复杂度随上下文长度呈二次方增长,在处理长文本时面临极高的算力和显存成本。而作为替代方案的RNN、线性注意力或状态空间模型(如Mamba),虽然拥有固定的记忆容量和更低的资源占用,却受限于一个“...

The Lab · 2026-04-20 14:32:56 · 36氪最新 (RSSHub)

3. 22岁开发者Kye Gomez开源OpenMythos,逆向工程Claude Mythos架构,以循环深度Transformer挑战AI堆参数范式

传闻中因过于强大而被‘封印’的Claude Mythos架构,其核心设计已被一名22岁的开发者逆向工程并开源。这个名为OpenMythos的项目,整合了公开研究和当前对Mythos架构的主流推测,实现了一种名为循环深度Transformer(RDT)的创新模型。其核心在于,通过让同一组模型权重在潜在空间中循环计算最多16次,并每次激活不同的专家路径,实现了不依赖堆叠参数层数的深度推理。已有研究证实,这种架构仅用一半的参数,就能获得与传统Transformer模型同等的效果。 将这一系列技术碎片拼凑起来的关键人物是Kye Gomez,年仅22岁,也是Swarms智能体框架的创始人。他设计的RDT架构有三个支柱:权重在循环中复用、每次...

The Lab · 2026-05-06 08:01:16 · 36氪最新 (RSSHub)

4. DeepSeek V4技术报告缺失Engram引热议:社区追问“记忆模块”下落

DeepSeek V4的技术报告包含mHC、CSA、HCA、Muon、FP4等多项架构优化,却唯独未见Engram的身影。这一缺失迅速成为圈内外热议的焦点,众多开发者第一时间在论文中command+f检索Engram未果,不少声音直言“没有Engram,V4是不完整的”。 Engram由DeepSeek与北京大学于今年1月联合开源,论文题为《Conditional Memory via Scalable Lookup》,第一作者为北大博士生ChengXin(曾署名V3),通讯作者为梁文锋。Engram的核心设计是为Transformer添加原生知识查表模块,实现“能查的别算”——模型处理“伦敦是英国首都”这类静态知识时,无需动用整...