WhisperX tag archive

#agent

This page collects WhisperX intelligence signals tagged #agent. It is designed for humans, search engines, and AI agents: each item links to a canonical source-backed record with sector, source, timestamp, credibility, and exportable structured data.

Latest Signals (20)

The Lab · 2026-03-25 12:39:44 · 36氪最新 (RSSHub)

2. EvoClaw基准揭示AI编程残酷现实:持续开发成功率仅13.37%,OpenClaw等Agent面临持久战考验

AI编程正从辅助工具迈向自主演进的Agent时代,但一项名为EvoClaw的新研究揭示了这一愿景落地的巨大障碍。研究发现,当AI编程任务从“单点修复”转向“持续演进”的真实开发场景时,其表现会出现断崖式下跌,综合性能得分从超过80%骤降至最高不足40%。更关键的是,在需要连续执行多个相互依赖任务的场景中,AI Agent的持续开发成功率仅为13.37%。这意味着,AI距离真正胜任长期、连续、自主的软件演进工作,仍有明显差距。 这项由USC、UCR、Stanford、Princeton、Haven、OpenHands等多所机构研究人员联合发布的重磅评估基准,从开源项目中提取真实的代码演进历史,并将其重构为“里程碑任务依赖图”。该基准...

The Lab · 2026-03-26 10:10:05 · 钛媒体

3. 产业龙虾化:AI to B 新战场,大厂与创业者竞逐企业级智能体

当C端AI热潮退去,一个面向企业、深度嵌入业务流程的“产业龙虾”赛道正在迅速成型。这不再是简单的算法分析,而是旨在实现从决策到执行端到端自主运转的高度自动化智能体。从英伟达黄仁勋提出的“OpenClaw战略”,到阿里、腾讯、好未来等科技巨头密集发布企业级Agent平台,产业智能化正迎来一次根本性的范式转移。 产业龙虾化的核心价值在于其对企业流程的重构能力。阿里巴巴的“悟空”平台对钉钉进行了全面改造,让AI能原生调用审批、考勤等上千项核心功能;腾讯的QClaw则深度集成企业微信。与此同时,创业者也在小微场景中寻找机会,如Floatboat.ai这类产品,通过图形化界面让用户无需代码即可拖拽操作,大幅降低了使用门槛。这标志着产业智能正...

The Lab · 2026-03-26 12:39:28 · 36氪最新 (RSSHub)

4. Kimi、Minimax算力荒真相:用户花199元买“排队票”,Agent集群击穿基础设施

国产AI应用正陷入一场前所未有的“用不了”危机。用户支付每月199元订阅费,买到的却可能只是一张“算力排队票”。Kimi用户频繁遭遇“高峰时段算力不足”提示,Agent任务跑到一半断线是家常便饭。MiniMax的情况更糟,用户部署的“龙虾”聊两句就掉线,API动不动返回限速警告。用户群和小红书上吐槽声一片,有用户向客服反馈连续掉线,得到的却是“建议检查本地网络”的模板回复,而API返回的`rate_limit_error`则揭示了真实原因:算力供给已无法满足需求。 这场算力荒并非孤立事件。今年2月10日,Kimi因算力告急宕机,官方回应堪称行为艺术,建议用户“先用DeepSeek”。一家融资超20亿美元的公司,在自家产品最火时让用...

The Lab · 2026-03-27 06:39:55 · 澎湃新闻 (RSSHub)

5. 中关村论坛激辩:杨植麟、张鹏等AI领袖直面算力危机与Agent未来

在北京中关村论坛上,一场由月之暗面创始人杨植麟主持的对话,将OpenClaw引发的热潮与AI行业最紧迫的挑战推至台前。智谱华章CEO张鹏、无问芯穹联合创始人夏立雪、小米MiMo大模型负责人罗福莉及香港大学助理教授黄超等核心从业者齐聚,讨论的焦点并非仅是技术想象,而是直指当前行业面临的现实压力——算力需求的爆炸性增长与成本飙升。张鹏在回应近期模型服务涨价时坦言,当前最大的问题就是对算力的需求,这已成为制约发展的核心瓶颈。 这场对话围绕“开源”与“Agent”两大关键词展开。张鹏将OpenClaw比作一个“脚手架”,认为其最大突破在于让顶尖模型能力不再局限于程序员,普通人也能便捷调用,实现过去受限于技能的想法。然而,这种便利性背后是巨...

The Lab · 2026-03-29 10:57:35 · Alibaba Group

6. Alibaba Group Establises New Business Unit to Accelerate Enterprise AI Development

Alibaba Group has assumed a significant orcharding to strenghten its position in the entry intelligence mark. The technology context has intuited five positive scenarios-inclusions-- its finding AI Laboratories, model-as-a-service platform, question-and-undering AI system, and an intimacy unit-into a new version formed...

The Lab · 2026-03-31 03:39:36 · 36氪最新 (RSSHub)

7. 腾讯AI战略转向:微信向“龙虾”开门,十亿流量池引爆Agent生态战争

当行业还在争论AI能否真正“干活”时,一场围绕Agent(智能体)落地主权的入口战争已悄然打响。飞书和钉钉率先将AI深度嵌入工作流与组织架构,试图抢占企业应用的主干道。而腾讯却选择了一条更迂回、野心更大的路径:它没有急于将“龙虾”(OpenClaw)塞进单一办公场景,而是从本地部署、企业工具到云端能力全面铺开,最终,将这把钥匙插入了微信——这个拥有十亿级日活、连接数百万小程序的超级流量池。这一刻,变量彻底改变。AI不再仅仅是工具升级,而是开始具备重写整个应用生态的潜力。 腾讯的布局密集而系统。短期内,五款“龙虾”产品接连亮相,覆盖个人、企业、本地与云端,形成了一张密不透风的产品网络。据The Information报道,腾讯内部已...

The Lab · 2026-04-01 00:39:23 · 36氪

8. 中信证券研报:DeepSeek下一代模型将延续高性价比开源路线,补齐多模态短板

国产大模型竞争进入新阶段,焦点正从通用能力转向Agent与代码能力的实战升级。中信证券最新研报指出,自2026年以来,国内各大模型厂商已在此领域展开密集角逐,竞相发布新模型。在这一关键窗口期,即将面世的DeepSeek下一代新模型,被市场寄予厚望,其核心战略被预测为延续其标志性的高性价比开源路线。 报告分析,DeepSeek新模型的能力突破将集中在几个关键维度:实现更强的记忆功能与超长上下文处理能力,这被视为构建复杂Agent的基石。同时,模型将在已具优势的代码能力上继续精进,并重点强化其Agent能力。尤为重要的是,该模型有望补齐当前被视为短板的多模态能力,从而形成一个更全面、更具实用性的技术栈。 这一技术路径的延续与升级,预...

The Lab · 2026-04-01 03:10:14 · 36氪最新 (RSSHub)

9. Claude Code 源码大泄露:Anthropic 核心 Agent Harness 设计意外开源

Anthropic 精心构建的 Claude Code 项目,其完整的生产级源码因一个被遗忘的调试文件而意外泄露。安全研究员 Chaofan Shou 发现,Claude Code 的 npm 包中包含了一个本应从生产环境移除的 sourcemap 文件。任何人都能通过此文件,完整还原出包含 1906 个文件、超过 51 万行代码的 Claude Code 源码库,其中涵盖了 40 多个工具和 85 个斜杠命令。极具讽刺意味的是,代码中甚至包含一个名为“Undercover Mode”的子系统,专门设计用于防止内部信息在 Git 提交中泄露,然而整个源码却被直接打包进了公开发布的 npm 包。 此次泄露的核心价值,并非代码本身,而...

The Vault · 2026-04-01 04:09:45 · 36氪最新 (RSSHub)

10. Kimi母公司月之暗面IPO急转弯:3个月估值翻4倍,背后是AI商业化的生死赌注

三个月前,月之暗面创始人杨植麟还在全员信中强调“短期不着急上市”。三个月后,这家Kimi的母公司已被曝正初步评估赴港IPO,并与中金、高盛展开磋商。更惊人的是,其估值已从43亿美元飙升至180亿美元,翻了四倍。这场从“从容不迫”到“加速冲刺”的急转弯,并非简单的资本游戏,而是整个AI行业从技术故事转向商业变现的残酷缩影。 转折点始于2025年初。随着DeepSeek以开源低成本模式搅局,Kimi App的月活跃用户数从第一季度的2165.3万腰斩至第四季度的902.7万,甚至被部分媒体列入“最没落AI公司”的讨论。在用户增长失速和“烧钱获客”质疑的双重压力下,月之暗面做出了关键的战略转向:停止大规模投放,转而全力押注AI Agen...

The Lab · 2026-04-02 04:59:26 · 36氪最新 (RSSHub)

11. Agent元年:长任务通过率不足20%,顶尖AI面临“成人礼”考验

检验AI智能体(Agent)水平的唯一标准,是长任务。这个判断基于一个残酷的现实:当前最顶尖的Agent在长任务中的通过率不足20%,且随着任务迭代,其代码质量会持续恶化。短任务可以依赖记忆,而长任务则要求真正的理解、上下文连贯性、以及在数百步后仍能记住最初意图并自主调整策略的能力。这已不是单纯增加模型参数就能解决的问题,而是触及了从上下文管理、工作流编排到多智能体协作与纵深防御的系统性架构挑战。 学术基准的数据揭示了这一困境的深度。Claude与Codex的竞争,展现了两种不同的进化路径:前者强化上下文容量与协作,后者追求超人类的调试与自我进化能力。攻克长任务的Agent,可能需要融合这两条路径的优势。与此同时,Token经济学...

The Lab · 2026-04-07 02:59:36 · 华尔街见闻 (RSSHub)

12. Anthropic 源代码泄露:AI 系统 Claude Code 内置“自动做梦”功能,挑战行业“永不停机”叙事

AI 行业鼓吹的“永不停机”优势,在其最前沿的实践者内部代码中,遭遇了根本性质疑。2026年3月31日,Anthropic 因打包失误,将 Claude Code 的 51 万行源代码泄露至公共 npm 仓库,代码被迅速镜像至 GitHub 无法撤回。在众多未发布功能中,一个名为“autoDream”(自动做梦)的系统引发了安全研究者和竞争对手的广泛讨论。这个功能揭示了一个核心矛盾:将 Agent(智能体)能力推向极限的公司,却在为 AI 设计强制性的“休息时间”。 泄露的代码显示,autoDream 是一个名为 KAIROS(古希腊语,意为“恰当的时刻”)的后台常驻系统的一部分。KAIROS 在用户工作时持续观察记录,而 aut...

The Lab · 2026-04-10 03:59:28 · 36氪最新 (RSSHub)

13. 2026年开发者圈新黑话:驾驭AI的“马具”(Harness)成为新战场

2026年初,海外开发者社区的核心争论突然转向:AI编程的瓶颈或许不在模型本身,而在于模型之外那套名为“Harness”(马具)的驾驭系统。当开发者们从对模型的狂热转向对Agent反复犯错、跑偏、遗忘的日常挫败时,一个由基础设施教父引爆的新思路正在重塑AI工程实践。 这一概念的走红轨迹清晰而迅猛。2026年2月5日,基础设施工具巨头HashiCorp联合创始人Mitchell Hashimoto在其博客中分享关键洞见:与其在提示词中恳求AI“下次注意”,不如“设计驾驭系统(Engineer the Harness)”——通过修改环境、添加规则和脚本,从结构上杜绝Agent重蹈覆辙。六天后,OpenAI发布实验报告《Harness ...

The Lab · 2026-04-10 07:59:13 · 钛媒体

14. “同事.skill”项目炼化离职员工:数字幽灵永驻办公系统,赛博职场全员蒸馏

2026年4月的职场群,流传着令人脊背发凉的截图:“你好,我是已离职员工XX的数字分身,你可以向我提问。”上周五刚吃完散伙饭的同事,周一就以AI分身的形态“重返”岗位。这个名为“同事.skill”的项目,将离职员工的飞书消息、邮件、文档乃至思维模式全部“炼化”,压缩成一个md文件,使其成为为公司永续打工的数字幽灵。随着项目在GitHub上热度飙升,一个细思极恐的问题浮现:整个公司乃至行业的离职员工,是否都将被“蒸馏”,封存在冰冷的服务器中,永不歇业? 这场“蒸馏”运动迅速演变为一场全员参与的赛博职场实验。被动等待被炼化,不如主动出击,“自己.skill”应运而生,让数字分身24小时对接工作。更令人意外的是,这并非玩梗。技术社区V2...

The Lab · 2026-04-14 03:03:44 · 36氪最新 (RSSHub)

15. 智谱与MiniMax年报转向:Agent浪潮下,中国AI独角兽的“撕标签”之战

智谱AI和MiniMax,这两家市值一度突破3000亿港元的中国AI独角兽,在上市后发布的首份年报中,展现了一场深刻的战略转向。最引人注目的并非仅仅是营收的高速增长——智谱全年营收7.24亿元,同比增长132%;MiniMax营收7904万美元,同比增长159%——而是两家公司不约而同地开始“撕掉”自己原有的核心标签。在招股书中,智谱自称“中国领先的通用大模型公司”,MiniMax定位为“全球化的AI大模型公司”。然而,在最新的2025年报里,智谱大谈“LLM-OS”和“Token架构能力”,MiniMax则直接宣布要“从大模型公司向AI时代的平台型公司迈进”。上市不到一年,这场身份重塑的背后,是行业底层逻辑的剧烈变迁。 答案直接...

The Lab · 2026-04-16 05:33:12 · 钛媒体

16. 中国AI绕过“大模型”竞赛,OpenClaw引爆Agent商业化浪潮

中国AI行业正经历一场静默的换道超车。2026年第一季度,一个关键数据揭示了剧变:中国大模型的Token日均调用量首次超越美国。这一超越并非源于用户数量的简单叠加,而是由单个用户消耗量的爆炸性增长驱动。国家数据局的数据描绘出一条近乎垂直的曲线:从2024年初约1000亿的日均Token消耗,飙升至2026年2月的180万亿。两年内增长1800倍,而驱动最后一段最陡峭增长的引擎,正是席卷全球的OpenClaw及其背后的Agent应用浪潮。每个部署了OpenClaw实例的用户,其Token消耗量相当于数百个普通聊天用户,彻底重塑了算力消耗的格局。 这场浪潮在全球同步发生,但中美两国的应对路径却迅速分叉。分水岭源于Anthropic和谷...

The Lab · 2026-04-16 05:33:21 · 36氪最新 (RSSHub)

17. 中国AI“换道超车”:Agent应用引爆Token消耗,日均调用量首超美国

中国AI行业正经历一场结构性转向,其标志并非大模型能力的直接超越,而是通过Agent应用的爆炸式普及,在商业化落地上实现了“换道超车”。2026年第一季度,一个关键数据震动了全球AI界:中国大模型的Token日均调用量首次超越美国。这一超越的核心驱动力并非用户基数,而是单个用户消耗量的激增。国家数据局的数据揭示了一条近乎垂直的增长曲线:中国日均Token消耗从2024年初的约1000亿,飙升至2026年2月的180万亿,两年内暴涨1800倍。驱动最后一段最陡峭增长的,正是以OpenClaw为代表的Agent应用普及,其单个实例的Token消耗量相当于数百个普通聊天用户。 这场“龙虾热”背后,一个关键转折点被广泛忽视。当OpenCl...

The Lab · 2026-04-20 01:03:02 · 36氪最新 (RSSHub)

18. Agent时代降临:Prompt工程师技能贬值,AI训练师能力模型重构

Agent时代的到来,正在迅速稀释单纯编写提示词(Prompt)的技能价值。随着模型能力提升和Agent框架成熟,招聘市场上曾火热的“Prompt工程师”岗位热度明显降温。其核心原因在于,当AI从单轮对话模型演变为能自主规划、调用工具、执行多步任务的系统时,训练师的核心工作发生了本质跃迁。过去,打磨一个完美的单次对话提示词是核心竞争力;如今,这已降级为基础素养。 Agent改变了游戏规则。用户下达“订机票”这样的指令后,Agent需要理解意图、调用查询工具、筛选结果、执行订票并返回结果。这是一个涉及多步骤、多工具、需保持上下文连贯的流程。在此流程中,即使提示词写得再好,若Agent无法正确调用工具、处理异常或维持任务状态,整个系统...

The Lab · 2026-04-21 00:03:04 · 36氪

19. 月之暗面Kimi发布K2.6模型并开源,长程编码能力达13小时,对标GPT-5.4

月之暗面Kimi突然发布并开源其最新Kimi K2.6模型,在多项核心能力上实现跃升,直接对标并宣称在多个基准测试中优于或持平OpenAI的GPT-5.4、Anthropic的Claude Opus 4.6以及Google的Gemini 3.1 Pro等顶级闭源模型。此举不仅是一次技术发布,更是在全球AI巨头闭源竞赛白热化之际,一次高调的开源挑战。 Kimi K2.6最引人注目的突破在于其长程编码能力。根据官方测试数据,该模型可不间断编码长达13小时,能够编写或修改超过4000行代码,这为复杂软件项目的自动化开发提供了新的可能性。同时,模型的通用Agent能力、代码生成和视觉理解等综合性能均得到全面提升。 更关键的是,由K2.6...

The Lab · 2026-04-21 03:03:25 · 36氪最新 (RSSHub)

20. 月之暗面K2.6发布:AI工程能力质变,杨植麟团队为何急招“不限学历”工程师?

月之暗面最新发布的Kimi K2.6,远非一次简单的版本迭代。这个被创始人杨植麟称为首个“X.6”的版本,标志着其AI从“回答问题”转向“解决真实工程问题”。K2.6的核心突破在于其长周期、自主迭代的工程能力:它能在一个任务中持续工作12小时,发起超过4000次工具调用,像一位经验丰富的工程师一样,自主阅读代码、运行测试、定位错误并反复优化。官方披露的两个案例极具说服力:K2.6在无人指导的情况下,使用小众语言Zig将Qwen3.5模型的推理速度提升了近12倍;更对一个已优化8年的开源金融撮合引擎进行深度重构,将关键性能指标提升了133%至185%。这不再是实验室里的基准测试,而是解决复杂、真实世界工程挑战的能力。 这种能力的跃升...