Если бы у исследователей из Google был чувство юмора, они назвали бы свой новый сверхэффективный алгоритм сжатия памяти для искусственного интеллекта TurboQuant в честь вымышленного стартапа «Пайп-Пайпер» (Pied Piper) — и, судя по реакции интернета, они почти угадали.
Почему все говорят о «Пайп-Пайпере»
Отсылка к сериалу HBO «Кремниевая долина» (Silicon Valley) возникла не случайно. В шоу, выходившем с 2014 по 2019 год, стартап «Пайп-Пайпер» разработал революционный алгоритм сжатия данных — почти без потерь в качестве. Теперь Google представил TurboQuant, который тоже обеспечивает экстремальное сжатие, но уже не файлов, а рабочей памяти ИИ-систем.
«Пайп-Пайпер» обещал изменить вычисления. TurboQuant — сделать ИИ дешевле и эффективнее. Разница есть, но параллели понятны.
Как работает TurboQuant
Согласно Google Research, новый метод позволяет сократить объём KV cache — так называют рабочую память ИИ во время вывода (inference), — минимум в 6 раз, не теряя в скорости и точности.
Технология основана на векторной квантизации — методе, который уменьшает объём данных, сохраняя их структуру. В TurboQuant используются два ключевых подхода:
- PolarQuant — метод квантования,
- QJL — метод обучения и оптимизации.
Вместе они позволяют ИИ-моделям «помнить» больше при меньших затратах памяти.
Это прорыв? А что с памятью в целом?
Пока TurboQuant — лабораторный прорыв. Его ещё не внедрили в массовое производство. Тем не менее, в индустрии уже проводят параллели с китайской моделью ДипСик (DeepSeek), которая показала высокую эффективность при низких затратах на обучение.
Но важно понимать: TurboQuant решает проблему только вывода, а не обучения моделей. А именно обучение требует огромных объёмов оперативной памяти — и здесь дефицит останется.
Исследователи представят свои находки на конференции ICLR 2026 в следующем месяце. Пока это не «революция в вычислениях», но шаг к более экономичному ИИ — и это уже немало.