1. GPT-2 Small на TinyStories: почему простой датасет блокирует формирование Induction Heads
Эксперимент по обучению GPT-2 Small с нуля на упрощенном датасете TinyStories выявил критическую аномалию: ключевой механизм In-context Learning — так называемые Induction Heads — практически не формируется. В то время как более простые «Previous Token Heads» стабильно развиваются, достигая оценки (score) около 0.20, с...