Новый ИИ от Google может решить проблему нехватки памяти

Исследователи из Google представили новую технологию, которая может кардинально изменить подход к работе искусственного интеллекта с оперативной памятью. Проблема нехватки памяти — один из главных барьеров в развитии мощных моделей, особенно при обработке длинных текстов или сложных задач.

Как это работает

Технология, описанная в научной статье TurboQuant, оптимизирует так называемый KV-cache — кеш ключей и значений, который нейросети используют для ускорения генерации текста. Проблема в том, что этот кеш быстро занимает огромный объём памяти, особенно в длинных диалогах или документах.

Новый метод позволяет сжимать данные в кеше без потери скорости и точности. Это как если бы вы уместили книгу в конверт, но при этом могли мгновенно читать каждое слово.

Экономия памяти до 75%

По данным исследования, TurboQuant сокращает потребление памяти на 50–75%, в зависимости от задачи. Это значит, что на тех же видеокартах можно будет запускать гораздо более крупные модели или обрабатывать более длинные запросы — без тормозов и лагов.

Учёные уже проверили метод на нескольких архитектурах, включая аналоги ЧатГПТ (ChatGPT), и результаты подтвердились: производительность не падает, а потребление ресурсов резко снижается.

Почему это важно

Сейчас многие компании тратят миллионы на дополнительные серверы и видеокарты, чтобы компенсировать нехватку памяти. Если технология TurboQuant будет внедрена массово, это может сократить расходы на инфраструктуру и сделать ИИ доступнее.

Кроме того, такие прорывы позволяют запускать мощные модели даже на устройствах со скромными ресурсами — например, на ноутбуках или мобильных чипах.

«Это один из самых практичных и своевременных вкладов в оптимизацию ИИ за последнее время», — отмечают независимые эксперты.

Статья уже вызвала широкий резонанс в научном сообществе. Некоторые критики указывают на возможные ограничения в специфических сценариях, но в целом метод признают значительным шагом вперёд.

Читать оригинал