GPT-2 Small на TinyStories: почему простой датасет блокирует формирование Induction Heads
Эксперимент по обучению GPT-2 Small с нуля на упрощенном датасете TinyStories выявил критическую аномалию: ключевой механизм In-context Learning — так называемые Induction Heads — практически не формируется. В то время как более простые «Previous Token Heads» стабильно развиваются, достигая оценки (score) около 0.20, способность модели распознавать и использовать шаблоны в контексте оказывается подавленной, с оценкой Induction Heads всего около 0.05. Это прямо указывает на фундаментальное ограничение, накладываемое чрезмерно простыми обучающими данными.
Исследование, код которого опубликован на GitHub, было сосредоточено на обучении модели GPT-2 Small на датасете TinyStories объемом 473 миллиона токенов. Целью было понять, как архитектура трансформера развивает внутренние механизмы работы с контекстом. Результаты, верифицированные с помощью Sparse Autoencoder на шестом слое модели, демонстрируют четкую корреляцию: примитивная структура рассказов в TinyStories не предоставляет достаточной сложности и повторяющихся шаблонов для того, чтобы в модели надежно сформировались специализированные «головы» для индуктивного вывода.
Это открытие имеет серьезные последствия для области машинного обучения, особенно для разработки и тестирования больших языковых моделей. Оно ставит под сомнение адекватность использования чрезмерно упрощенных датасетов для исследования продвинутых способностей, таких как In-context Learning и few-shot обучение. Результаты предупреждают, что подобные синтетические данные могут создавать иллюзию прогресса, в то время как ключевые компоненты интеллекта модели остаются неразвитыми, что в конечном итоге может привести к неверным выводам о реальных возможностях архитектур трансформеров.