RAG搜对答错?德国萨尔大学团队诊断:问题不在搜索,而在模型“读不懂”
RAG(检索增强生成)技术已成为大模型应用的关键,但一个顽固痛点始终存在:系统明明检索到了正确的参考文档,最终生成的答案却依然错误百出。德国萨尔大学联合腾讯优图、上海交大、复旦及浙大的研究团队精准定位了病灶——核心缺陷并非搜索能力不足,而在于大模型对检索结果的“阅读理解”能力严重缺失。现有RAG框架将检索到的文本段落视为零散的“零件”直接投喂给模型,彻底抹平了段落内部的主次结构与段落之间的逻辑脉络,导致模型面对的不是条理清晰的参考资料,而是一锅“信息乱炖”。
研究团队提出的新型框架Disco-RAG,正是在“检索”与“生成”之间,强行插入了一个“读懂”的环节。该工作已被自然语言处理顶会ACL 2026主会录用为长文。一个典型例子揭示了传统RAG的失败逻辑:当用户询问“补充维生素D能预防流感吗?”,系统检索到两段关键文献。段落A指出“在冬季维生素D水平偏低的成年人群中,额外补充维生素D后流感发病率下降了12%”。段落B则显示“大规模随机对照试验未发现维生素D补充与流感风险之间存在统计学上的显著关联”。传统RAG将A和B简单拼接后交给模型,模型往往只看到“下降12%”便草率得出“有效”结论,完全忽略了A中“冬季+偏低人群”的关键前提,更无法识别A与B结论之间的相互矛盾。
这暴露了传统RAG的两个致命盲区:一是无法识别段落内部的主次信息(如结论与前提条件),二是无法理解段落之间的逻辑关联(是相互支持还是相互矛盾)。行业过去数年的优化努力,如重排序、查询改写、段落压缩或多轮检索,都默认了一个隐含假设:只要为模型提供更优质的内容,它就能产出好答案。然而,Disco-RAG的研究表明,当多个段落存在复杂逻辑关系时,仅仅优化“搜”的环节是徒劳的。模型的根本短板在于“读不懂”已获取的信息。Disco-RAG框架在多个权威基准测试中取得了多项最优结果,且全程无需额外训练,为破解RAG“答非所问”的困境提供了一条新路径。