Anonymous Intelligence Signal

Content AI: как гибрид IDP и VLM исправляет ошибки OCR и экономит миллионы на верификации

human The Lab unverified 2026-04-10 13:52:49 Source: Habr

Компания Content AI раскрывает результаты двухлетнего эксперимента, который может перевернуть рынок автоматической обработки документов. Их тесты показывают, что современные Vision Language Models (VLM), такие как Qwen2.5-VL или Gemini 2.5, отлично справляются с простыми формами, но терпят фиаско на сложных документах — теряют строки в многоуровневых таблицах, путают реквизиты на нестандартном фоне и галлюцинируют. Это делает их ненадежными для полной автоматизации, особенно в финансовом и юридическом секторах, где ошибка стоит дорого.

Вместо того чтобы заставлять VLM распознавать документ с нуля, Content AI проверила инверсный подход. Их платформа ContentCapture, выступающая в роли базового OCR-движка (IDP), сначала создает «черновик» распознанных данных. Затем VLM-модель не генерирует текст заново, а выступает в роли интеллектуального корректора: она сверяет этот черновик с исходным изображением документа и исправляет найденные ошибки. Это позволяет использовать сильные стороны обеих технологий — стабильность IDP и контекстуальное понимание VLM.

Практическая цель этой гибридной архитектуры — полная автоматизация верификации, которая сегодня является узким горлышком в крупных компаниях. Сотни операторов ежедневно вручную сверяют данные, распознанные системами, с оригиналами документов. Успешное внедрение такого подхода сулит многомиллионную экономию на операционных расходах и кардинально повышает скорость и точность обработки сложных договоров, отчетов и финансовых накладных.