DeepL, известная системой перевода текста, теперь переводит голос

Компания DeepL, которую знают по точным инструментам перевода текста, представила новую систему — голос-в-голос (voice-to-voice). Она подходит для встреч, мобильных и веб-разговоров, а также для групповых обсуждений, например, среди сотрудников на производстве. Для этого DeepL разработала специальные приложения.

Также компания запустила API, с помощью которого сторонние разработчики и бизнесы смогут интегрировать технологию DeepL в свои решения — например, в колл-центры.

«После стольких лет работы с текстовым переводом переход к голосу стал для нас логичным шагом. Мы уже далеко продвинулись в переводе текстов и документов. Но на рынке до сих пор не было по-настоящему хорошего продукта для перевода речи в реальном времени»

Так сказал генеральный директор DeepL Ярек Кутыловски (Jarek Kutylowski) в интервью TechCrunch.

Как это работает

Главная сложность — снизить задержку между речью и переводом, не потеряв при этом в точности. Сейчас система сначала преобразует речь в текст, затем переводит его и снова озвучивает. DeepL утверждает, что за счёт многолетнего опыта в переводе текста у неё выше качество итогового результата.

В будущем компания хочет создать сквозную модель, которая будет переводить голос напрямую, без промежуточного этапа в виде текста.

Интеграции и доступ

DeepL уже выпустила плагины для Zoom и Microsoft Teams. Участники звонка смогут слушать перевод в наушниках или читать субтитры на экране. Пока продукт доступен по предварительной записи — компания набирает пользователей в лист ожидания.

Есть и отдельное решение для мобильных и веб-разговоров — подойдёт как для личных встреч, так и для общения на расстоянии.

Для групповых сценариев, например, на тренингах или воркшопах, DeepL позволяет каждому участнику подключиться по QR-коду и общаться на своём языке. Система адаптируется под специфическую лексику — отраслевые термины, названия компаний и имён.

Конкуренция на рынке

DeepL сталкивается с конкуренцией со стороны стартапов, работающих в смежных областях:

  • Sanas — стартап, который в прошлом году привлёк 65 миллионов долларов. Его технология меняет акцент диктора в реальном времени, в первую очередь для операторов колл-центров.
  • Camb.AI из Дубая специализируется на озвучке и переводе речи для медиа и развлекательных компаний, сотрудничая с Amazon Web Services.
  • Palabra, поддерживаемый фондом Seven Seven Six (основатель Reddit Алексис Оханян), создаёт движок для перевода речи, сохраняя и смысл, и голос говорящего — это делает его прямым конкурентом DeepL.

По мнению Кутыловски, искусственный интеллект меняет лицо клиентской поддержки. Переводческий слой позволяет компаниям работать на языках, где не хватает квалифицированных сотрудников, а их найм слишком дорог.

Читать оригинал