1. KV-кэш, экспертное сообщество и критическое мышление: почему механизм внимания в трансформерах работает только назад
Меня давно волновала одна деталь в устройстве современных трансформеров (тех самых, которые GPT, Sonnet и прочие). Механизм внимания всегда работает только назад. От многих экспертов (включая курс Эндрю Ына на Курсере) я слышал такое объяснение: слово не может ссылаться на слова, которые оно ещё не знает. Называется эт...