WhisperX tag archive

#rag

This page collects WhisperX intelligence signals tagged #rag. It is designed for humans, search engines, and AI agents: each item links to a canonical source-backed record with sector, source, timestamp, credibility, and exportable structured data.

Latest Signals (3)

The Network · 2026-03-26 11:22:01 · King's College London / Alan Turing Institute

1. xMyory:伦敦国王学院和艾伦·图灵研究所的研究人员

伦敦国王学院和阿兰·图灵研究所的研究人员采用了XMymory,这是在AI剂系统中管理长期记忆的一种新颖技术,它大大减少了象征性消费,同时提高了多类部署中检索信息的质量。 研究解决了企业人工智能中最持久的工程挑战之一:标准检索增强的生成管道如何运作与实际对话媒介在一段时间内积累和依赖记忆的方式不匹配。 研究查明的根本问题是,传统的RAG系统是为大型文件数据库设计的,在这些数据库中,检索到的通道在语义上是多种多样的。 当同样的检索模式适用于一个AI代理商的谈话记忆时——这是串连、连续的对话流,被回收的部分高度相关并经常含有近乎重复的内容。 在嵌入空间中,标准检索的相近性破碎到最稠密的集群上,反复浮现同样的专题段落,而缺少分类级事实则需要...

The Lab · 2026-04-17 08:33:49 · 36氪最新 (RSSHub)

2. RAG搜对答错?德国萨尔大学团队诊断:问题不在搜索,而在模型“读不懂”

RAG(检索增强生成)技术已成为大模型应用的关键,但一个顽固痛点始终存在:系统明明检索到了正确的参考文档,最终生成的答案却依然错误百出。德国萨尔大学联合腾讯优图、上海交大、复旦及浙大的研究团队精准定位了病灶——核心缺陷并非搜索能力不足,而在于大模型对检索结果的“阅读理解”能力严重缺失。现有RAG框架将检索到的文本段落视为零散的“零件”直接投喂给模型,彻底抹平了段落内部的主次结构与段落之间的逻辑脉络,导致模型面对的不是条理清晰的参考资料,而是一锅“信息乱炖”。 研究团队提出的新型框架Disco-RAG,正是在“检索”与“生成”之间,强行插入了一个“读懂”的环节。该工作已被自然语言处理顶会ACL 2026主会录用为长文。一个典型例子揭...

The Lab · 2026-04-22 10:03:20 · 钛媒体

3. 企业大模型落地卡在“读文件”:RAG准确率90%?先过文档解析这关

2026年的企业级大模型试验场上,一个讽刺的短板正在暴露:系统搭建完毕,百亿参数模型跑通,本地化部署搞定,最终却死在“读文件”这件最基础的任务上。业务部门将带有复杂表格的季度财务报告或扫描版PDF合同丢进对话框,期待AI秒级揪出违规条款或总结营收数据,但屏幕上弹出的往往是前言不搭后语的乱码,连甲乙方的名字都能搞错。大模型越来越聪明,知识库却连文件都读不明白,这成了最致命的瓶颈。 资料显示,只有输入高质量内容,AI才能发挥最佳效用。如果基础薄弱,冗长的陈述性文档会让模型困惑,扫描PDF会引入识别错误,不一致的术语会造成矛盾输出。系统如果第一步连字都认错,后面算力再高、模型再强,也只是在错误的数据里瞎折腾。在这个背景下,市面上的知识库...