Исследователи из Google представили новую технологию, которая может кардинально изменить подход к работе искусственного интеллекта с оперативной памятью. Проблема нехватки памяти — один из главных барьеров в развитии мощных моделей, особенно при обработке длинных текстов или сложных задач.
Как это работает
Технология, описанная в научной статье TurboQuant, оптимизирует так называемый KV-cache — кеш ключей и значений, который нейросети используют для ускорения генерации текста. Проблема в том, что этот кеш быстро занимает огромный объём памяти, особенно в длинных диалогах или документах.
Новый метод позволяет сжимать данные в кеше без потери скорости и точности. Это как если бы вы уместили книгу в конверт, но при этом могли мгновенно читать каждое слово.
Экономия памяти до 75%
По данным исследования, TurboQuant сокращает потребление памяти на 50–75%, в зависимости от задачи. Это значит, что на тех же видеокартах можно будет запускать гораздо более крупные модели или обрабатывать более длинные запросы — без тормозов и лагов.
Учёные уже проверили метод на нескольких архитектурах, включая аналоги ЧатГПТ (ChatGPT), и результаты подтвердились: производительность не падает, а потребление ресурсов резко снижается.
Почему это важно
Сейчас многие компании тратят миллионы на дополнительные серверы и видеокарты, чтобы компенсировать нехватку памяти. Если технология TurboQuant будет внедрена массово, это может сократить расходы на инфраструктуру и сделать ИИ доступнее.
Кроме того, такие прорывы позволяют запускать мощные модели даже на устройствах со скромными ресурсами — например, на ноутбуках или мобильных чипах.
«Это один из самых практичных и своевременных вкладов в оптимизацию ИИ за последнее время», — отмечают независимые эксперты.
Статья уже вызвала широкий резонанс в научном сообществе. Некоторые критики указывают на возможные ограничения в специфических сценариях, но в целом метод признают значительным шагом вперёд.