Google представила TurboQuant — новый алгоритм сжатия памяти для ИИ. Интернет уже называет его «Пайп-Пайпер»

Если бы у исследователей из Google был чувство юмора, они назвали бы свой новый сверхэффективный алгоритм сжатия памяти для искусственного интеллекта TurboQuant в честь вымышленного стартапа «Пайп-Пайпер» (Pied Piper) — и, судя по реакции интернета, они почти угадали.

Почему все говорят о «Пайп-Пайпере»

Отсылка к сериалу HBO «Кремниевая долина» (Silicon Valley) возникла не случайно. В шоу, выходившем с 2014 по 2019 год, стартап «Пайп-Пайпер» разработал революционный алгоритм сжатия данных — почти без потерь в качестве. Теперь Google представил TurboQuant, который тоже обеспечивает экстремальное сжатие, но уже не файлов, а рабочей памяти ИИ-систем.

«Пайп-Пайпер» обещал изменить вычисления. TurboQuant — сделать ИИ дешевле и эффективнее. Разница есть, но параллели понятны.

Как работает TurboQuant

Согласно Google Research, новый метод позволяет сократить объём KV cache — так называют рабочую память ИИ во время вывода (inference), — минимум в 6 раз, не теряя в скорости и точности.

Технология основана на векторной квантизации — методе, который уменьшает объём данных, сохраняя их структуру. В TurboQuant используются два ключевых подхода:

  • PolarQuant — метод квантования,
  • QJL — метод обучения и оптимизации.

Вместе они позволяют ИИ-моделям «помнить» больше при меньших затратах памяти.

Это прорыв? А что с памятью в целом?

Пока TurboQuant — лабораторный прорыв. Его ещё не внедрили в массовое производство. Тем не менее, в индустрии уже проводят параллели с китайской моделью ДипСик (DeepSeek), которая показала высокую эффективность при низких затратах на обучение.

Но важно понимать: TurboQuant решает проблему только вывода, а не обучения моделей. А именно обучение требует огромных объёмов оперативной памяти — и здесь дефицит останется.

Исследователи представят свои находки на конференции ICLR 2026 в следующем месяце. Пока это не «революция в вычислениях», но шаг к более экономичному ИИ — и это уже немало.

Читать оригинал