PageIndex: Новая угроза векторному поиску в RAG-системах?
В архитектуре RAG (Retrieval-Augmented Generation) появился новый претендент, который бросает вызов доминирующей парадигме векторного поиска. Метод PageIndex предлагает полностью отказаться от разбиения текста на чанки, генерации эмбеддингов и использования векторных баз данных. Вместо этого он полагается на структурированное представление документа, созданное языковой моделью, что потенциально меняет правила игры в извлечении релевантного контекста.
Суть технологии PageIndex заключается в сегментации документа на страницы и последующем построении детального оглавления (TOC) с древовидной структурой узлов. Для каждого узла языковая модель генерирует краткое содержание (саммари). При поступлении поискового запроса эта структура отправляется в промпт LLM, которая определяет наиболее релевантные узлы. Ключевое отличие: за каждым узлом закреплены конкретные страницы исходного документа, которые затем извлекаются и используются в качестве контекста для финального ответа модели.
Этот подход выглядит заманчиво, так как упрощает пайплайн, устраняя зависимость от сложных векторных хранилищ и потенциальных проблем с качеством эмбеддингов. Однако он переносит сложность на этап построения и поддержания структурированного оглавления, что может стать узким местом для больших или динамически меняющихся корпусов документов. Успех PageIndex будет зависеть от способности LLM точно строить иерархические саммари и надежно сопоставлять запросы с узлами, что требует тщательной валидации. Технология открыта для локального тестирования, что позволяет сообществу самостоятельно оценить её потенциал и ограничения.