Дообучение модели Mistral 7B на русском языке для автоматизации протоколирования встреч

Дообучение модели Mistral 7B на русском языке для автоматизации протоколирования встреч

Автоматизация протоколирования встреч включает в себя четыре последовательных задачи: распознавание речи, идентификация говорящего, разделение диалога на темы и обработка текста. Для решения этих задач была выбрана модель Mistral 7B, но она требовала дообучения для улучшения качества работы с русскоязычными данными.

Архитектура системы

Система состоит из нескольких компонентов: Backend, ML-модель, очередь на RabbitMQ, сервис-оркестратор ML Controller и векторная база данных. Такая архитектура обеспечивает лёгкое масштабирование, безопасность и удобство изменения функционала.

Дообучение модели

Первоначально была попытка использовать LoRA-тюнинг, но он не дал желаемого результата. Поэтому было принято решение дообучить модель с нуля на русскоязычном датасете из 5 млрд 350 млн токенов. Дообучение проводилось с использованием библиотеки transformers и различных оптимизаций для экономии ресурсов.

Оценка качества модели

Качество модели оценивалось на открытых бенчмарках, включая MERA. Результаты показали, что дообученная модель существенно превосходит базовую модель Mistral 7B и другие сравниваемые модели.

Итоговые результаты

Дообученная модель достигла BertScore f1 0,93 для суммаризации диалоговых данных. Это указывает на высокое качество работы модели и её способность успешно выделять необходимую информацию из диалогов.

Читать оригинал