Llama.cpp научился работать с речью

Llama.cpp научился работать с речью

В проекте llama.cpp добавлена поддержка моделей Gemma4, которые умеют распознавать речь.

Модели Gemma4

Модели Gemma4 поддерживают режим LLM, распознавание изображений, видео и речи, а также работу с кодом.

Поддерживаются следующие модели:

  • Gemma-4-E4B-it: 4,5 млрд параметров
  • Gemma-4-E2B-it: 2,3 млрд параметров

Функционал

Обе модели поддерживают:

  • режим LLM (большая языковая модель)
  • распознавание изображений и видео
  • распознавание речи и перевод
  • работу с кодом
  • поддержку 35+ языков, включая русский
  • контекст 128к

Использование

Для работы с моделями Gemma4 требуется формат GGUF (кванты), который можно скачать на сайте Hugging Face.

Также необходимо использовать параметры `-b 1024 -ub 1024` для стабильной работы.

Модель была протестирована на RTX 4090D с квантами Q8_0, используя 10 ГБ VRAM.

Эксперимент

Было проведено экспериментальное развертывание llama.cpp в Интернет без авторизации.

Модель пока не всегда понимает промпты, но будет интересно получить обратную связь.

Читать оригинал