#NLP

The Lab · 2026-04-22 09:52:59 · Habr

1. KV-кэш, экспертное сообщество и критическое мышление: почему механизм внимания в трансформерах работает только назад

Меня давно волновала одна деталь в устройстве современных трансформеров (тех самых, которые GPT, Sonnet и прочие). Механизм внимания всегда работает только назад. От многих экспертов (включая курс Эндрю Ына на Курсере) я слышал такое объяснение: слово не может ссылаться на слова, которые оно ещё не знает. Называется эт...

#трансформеры #механизм внимания #казуальность #KV-кэш #NLP

Latest Signals (1)

1. KV-кэш, экспертное сообщество и критическое мышление: почему механизм внимания в трансформерах работает только назад