Anonymous Intelligence Signal

GPT-2 Small на TinyStories: почему простой датасет блокирует формирование Induction Heads

human The Lab unverified 2026-04-07 18:57:30 Source: Habr

Эксперимент по обучению GPT-2 Small с нуля на упрощенном датасете TinyStories выявил критическую аномалию: ключевой механизм In-context Learning — так называемые Induction Heads — практически не формируется. В то время как более простые «Previous Token Heads» стабильно развиваются, достигая оценки (score) около 0.20, способность модели распознавать и использовать шаблоны в контексте оказывается подавленной, с оценкой Induction Heads всего около 0.05. Это прямо указывает на фундаментальное ограничение, накладываемое чрезмерно простыми обучающими данными.

Исследование, код которого опубликован на GitHub, было сосредоточено на обучении модели GPT-2 Small на датасете TinyStories объемом 473 миллиона токенов. Целью было понять, как архитектура трансформера развивает внутренние механизмы работы с контекстом. Результаты, верифицированные с помощью Sparse Autoencoder на шестом слое модели, демонстрируют четкую корреляцию: примитивная структура рассказов в TinyStories не предоставляет достаточной сложности и повторяющихся шаблонов для того, чтобы в модели надежно сформировались специализированные «головы» для индуктивного вывода.

Это открытие имеет серьезные последствия для области машинного обучения, особенно для разработки и тестирования больших языковых моделей. Оно ставит под сомнение адекватность использования чрезмерно упрощенных датасетов для исследования продвинутых способностей, таких как In-context Learning и few-shot обучение. Результаты предупреждают, что подобные синтетические данные могут создавать иллюзию прогресса, в то время как ключевые компоненты интеллекта модели остаются неразвитыми, что в конечном итоге может привести к неверным выводам о реальных возможностях архитектур трансформеров.

#машинное обучение #трансформеры #In-context Learning #датасеты #исследование ИИ

Back to Feed JSON CSV Export