В проекте llama.cpp добавлена поддержка моделей Gemma4, которые умеют распознавать речь.
Модели Gemma4
Модели Gemma4 поддерживают режим LLM, распознавание изображений, видео и речи, а также работу с кодом.
Поддерживаются следующие модели:
- Gemma-4-E4B-it: 4,5 млрд параметров
- Gemma-4-E2B-it: 2,3 млрд параметров
Функционал
Обе модели поддерживают:
- режим LLM (большая языковая модель)
- распознавание изображений и видео
- распознавание речи и перевод
- работу с кодом
- поддержку 35+ языков, включая русский
- контекст 128к
Использование
Для работы с моделями Gemma4 требуется формат GGUF (кванты), который можно скачать на сайте Hugging Face.
Также необходимо использовать параметры `-b 1024 -ub 1024` для стабильной работы.
Модель была протестирована на RTX 4090D с квантами Q8_0, используя 10 ГБ VRAM.
Эксперимент
Было проведено экспериментальное развертывание llama.cpp в Интернет без авторизации.
Модель пока не всегда понимает промпты, но будет интересно получить обратную связь.