LLM как декодер в ASR: опыт адаптации SOTA архитектуры для спонтанной русскоязычной речи

LLM как декодер в ASR: опыт адаптации SOTA архитектуры для спонтанной русскоязычной речи

Команда речевых технологий Контура разработала собственную систему распознавания речи (ASR), которая ежедневно обрабатывает миллионы звонков и записей видеоконференций.

Недавно Nvidia представила новую архитектуру SALM, которая использует LLM как декодер в ASR. Эта архитектура показала высокое качество распознавания речи на английском языке.

Команда Контура решила адаптировать эту архитектуру для русскоязычной речи и проверить ее эффективность на своих данных.

В результате экспериментов было получено высокое качество распознавания речи, но также были выявлены проблемы с производительностью и требованиями к инфраструктуре.

Команда планирует продолжить работу над оптимизацией инференса и изучением возможностей использования этой архитектуры в качестве учителя на этапе псевдоразметки сырых аудиоданных.

Читать оригинал