Титаны: учимся запоминать во время тестов (анализ статьи)
Статья: https://arxiv.org/abs/2501.00663.
Аннотация:
Более десяти лет проводились обширные исследования того, как эффективно использовать повторяющиеся модели и внимание. В то время как рекуррентные модели направлены на сжатие данных в память фиксированного размера (так называемое скрытое состояние), внимание позволяет обслуживать все окно контекста, фиксируя прямые зависимости всех токенов. Однако такое более точное моделирование зависимостей требует квадратичной стоимости, ограничивающей модель контекстом фиксированной длины. Мы представляем новый модуль нейронной долговременной памяти, который учится запоминать исторический контекст и помогает вниманию уделять внимание текущему контексту, используя при этом информацию из далекого прошлого. Мы показываем, что эта нейронная память имеет преимущество быстрого распараллеливаемого обучения при сохранении быстрого вывода. С точки зрения памяти мы утверждаем, что внимание из-за его ограниченного контекста, но точного моделирования зависимостей действует как кратковременная память, тогда как нейронная память из-за своей способности запоминать данные действует как долговременная, более устойчивая память. На основе этих двух модулей мы представляем новое семейство архитектур под названием Titans и представляем три варианта, позволяющих эффективно включить память в эту архитектуру. Наши экспериментальные результаты по языковому моделированию, здравому смыслу, геномике и задачам временных рядов показывают, что Титаны более эффективны, чем Трансформеры и последние современные линейно-рекуррентные модели. Кроме того, они могут эффективно масштабироваться до размера контекстного окна более 2 МБ с более высокой точностью при выполнении задач «иголка в стоге сена» по сравнению с базовыми показателями.
Авторы: Али Бехруз, Пейлин Чжун, Вахаб Миррокни
Ссылки:
Домашняя страница: https://ykilcher.com
Мерч: https://ykilcher.com/merch
Ютуб: https://www.youtube.com/c/yannickilcher
Твиттер: https://twitter.com/ykilcher
Дискорд: https://ykilcher.com/discord
LinkedIn: https://www.linkedin.com/in/ykilcher
Если вы хотите поддержать меня, лучше всего поделиться контентом :)
Если вы хотите поддержать меня материально (совершенно необязательно и добровольно, но многие об этом просили):
Подпишитесь на звезду: https://www.subscribestar.com/yannickilcher
Патреон: https://www.patreon.com/yannickilcher
Биткойн (BTC): bc1q49lsw3q325tr58ygf8sudx2dqfguclvngvy2cq
Эфириум (ETH): 0x7ad3513E3B8f66799f507Aa7874b1B0eBC7F85e2
Лайткоин (LTC): LQW2TRyKYetVC8WjFkhpPhtpbDM4Vw7r9m
Monero (XMR): 4ACL8AGrEo5hAir8A9CeVrW8pEauWvnp1WnSDZxW7tziCDLhZAGsgzhRQABDnFy8yuM9fWJDviJPHKRjV4FWt19CJZN9D4n