Llama.cpp научился работать с речью

Habr AI 13 апр 2026

В проекте llama.cpp добавлена поддержка моделей Gemma4, которые умеют распознавать речь.

Модели Gemma4 поддерживают режим LLM, распознавание изображений, видео и речи, а также работу с кодом.

Поддерживаются следующие модели:

Обе модели поддерживают:

Для работы с моделями Gemma4 требуется формат GGUF (кванты), который можно скачать на сайте Hugging Face.

Также необходимо использовать параметры `-b 1024 -ub 1024` для стабильной работы.

Модель была протестирована на RTX 4090D с квантами Q8_0, используя 10 ГБ VRAM.

Было проведено экспериментальное развертывание llama.cpp в Интернет без авторизации.

Модель пока не всегда понимает промпты, но будет интересно получить обратную связь.

llama.cpp теперь умеет работать с речью