Компания DeepL, которую знают по точным инструментам перевода текста, представила новую систему — голос-в-голос (voice-to-voice). Она подходит для встреч, мобильных и веб-разговоров, а также для групповых обсуждений, например, среди сотрудников на производстве. Для этого DeepL разработала специальные приложения.
Также компания запустила API, с помощью которого сторонние разработчики и бизнесы смогут интегрировать технологию DeepL в свои решения — например, в колл-центры.
«После стольких лет работы с текстовым переводом переход к голосу стал для нас логичным шагом. Мы уже далеко продвинулись в переводе текстов и документов. Но на рынке до сих пор не было по-настоящему хорошего продукта для перевода речи в реальном времени»
Так сказал генеральный директор DeepL Ярек Кутыловски (Jarek Kutylowski) в интервью TechCrunch.
Как это работает
Главная сложность — снизить задержку между речью и переводом, не потеряв при этом в точности. Сейчас система сначала преобразует речь в текст, затем переводит его и снова озвучивает. DeepL утверждает, что за счёт многолетнего опыта в переводе текста у неё выше качество итогового результата.
В будущем компания хочет создать сквозную модель, которая будет переводить голос напрямую, без промежуточного этапа в виде текста.
Интеграции и доступ
DeepL уже выпустила плагины для Zoom и Microsoft Teams. Участники звонка смогут слушать перевод в наушниках или читать субтитры на экране. Пока продукт доступен по предварительной записи — компания набирает пользователей в лист ожидания.
Есть и отдельное решение для мобильных и веб-разговоров — подойдёт как для личных встреч, так и для общения на расстоянии.
Для групповых сценариев, например, на тренингах или воркшопах, DeepL позволяет каждому участнику подключиться по QR-коду и общаться на своём языке. Система адаптируется под специфическую лексику — отраслевые термины, названия компаний и имён.
Конкуренция на рынке
DeepL сталкивается с конкуренцией со стороны стартапов, работающих в смежных областях:
- Sanas — стартап, который в прошлом году привлёк 65 миллионов долларов. Его технология меняет акцент диктора в реальном времени, в первую очередь для операторов колл-центров.
- Camb.AI из Дубая специализируется на озвучке и переводе речи для медиа и развлекательных компаний, сотрудничая с Amazon Web Services.
- Palabra, поддерживаемый фондом Seven Seven Six (основатель Reddit Алексис Оханян), создаёт движок для перевода речи, сохраняя и смысл, и голос говорящего — это делает его прямым конкурентом DeepL.
По мнению Кутыловски, искусственный интеллект меняет лицо клиентской поддержки. Переводческий слой позволяет компаниям работать на языках, где не хватает квалифицированных сотрудников, а их найм слишком дорог.