Anthropic признала в документации: 1 млн токенов в Opus 4.7 — маркетинговая цифра, реальная эффективность — 300 тысяч
Разрыв между заявленной и реальной дальнобойностью контекста в Claude Opus 4.7 официально зафиксирован. В разделе 8.7.2 системной карты модели сами инженеры Anthropic отмечают: показатель MRCR на отметке 1 млн токенов обрушился с 78,3% у Opus 4.6 до 32,2% у Opus 4.7. Иными словами, при полной загрузке окна модель корректно извлекает лишь треть размещённой информации. Anthropic прямо рекомендует держать Opus 4.6 в качестве запасного варианта для задач, требующих реальной работы с длинным контекстом.
Независимую проверку провёл Кангвук Ли, CAIO Krafton. Двумя API-вызовами и 35 строками Python он извлёк из Codex зашифрованный compaction-промпт и сопоставил его с опубликованным Anthropic компакт-паттерном compact_20260112. Результат — практически идентичные структуры. Однако принципиальная разница кроется не в содержимом промптов, а в архитектурном решении: GPT-5.1-Codex-Max — первая модель, нативно обученная компакции на уровне весов. Anthropic реализует компакцию через сервер-сайд хук. Это объясняет, почему Codex субъективно удерживает длинные сессии лучше — механизм встроен на уровне обучения, а не надстроен сверху.
Параллельно деградирует и Opus 4.6: при сохранении 78,3% по MRCR модель работает в два раза медленнее, что делает выбор между производительностью и точностью всё менее очевидным. Для разработчиков, использующих Claude Code, и пользователей Codex CLI это означает конкретные практические последствия: слепая вера в заявленные лимиты контекста при выборе модели может приводить к скрытым ошибкам в retrieval-задачах, особенно в RAG-пайплайнах и при обработке крупных кодовых баз.