Революция на рынке ОЗУ откладывается: что стоит за алгоритмом TurboQuant

Революция на рынке ОЗУ откладывается: что стоит за алгоритмом TurboQuant

Инженеры Google пообещали сократить потребление памяти в 8 раз с помощью алгоритма TurboQuant. Однако рыночная реакция была преждевременной, поскольку не были учтены технические нюансы.

Шум из-за TurboQuant

Алгоритм TurboQuant сжимает KV-кэш языковых моделей до 3 бит без переобучения и без заметной потери качества.

Что такое KV-кэш и почему он проблема

KV-кэш — это кэш, который хранит ключи и значения для всех токенов в контексте. Он является главным пожирателем памяти, особенно на длинных контекстах.

Как работает TurboQuant

Алгоритм состоит из двух этапов: PolarQuant и QJL (Quantized Johnson-Lindenstrauss). Первый этап перераспределяет энергию вектора равномерно по всем координатам, а второй этап кодирует остаток от первого этапа и делает оценку скалярных произведений несмещённой.

Что здесь важно оговорить

Маленькие модели страдают от агрессивного сжатия до 3 бит, официального кода пока нет, и существует научная полемика вокруг алгоритма.

Почему это всё равно важно

TurboQuant — это честный технический прогресс в конкретном узком месте, который может снизить стоимость одного токена или увеличить пропускную способность в разы для инференса с длинными контекстами.

Читать оригинал