Команда ИИ-переводчика DeepL представила функцию голосового перевода в реальном времени под названием DeepL Voice. В компании рассказали подробности о сервисе и ответили на вопрос, почему они хоть и специализируются на переводе, но реализовали нововведение далеко не в числе первых.
DeepL Voice работает так: ИИ слушает, когда говорит один собеседник, показывает перевод на экране, а потом слушает ответ другого собеседника и переводит уже его. В число поддерживаемых языков пока входят следующие: русский, английский, немецкий, японский, корейский, шведский, голландский, французский, турецкий, польский, португальский, испанский и итальянский.
Сервис не позволяет сохранять результат в виде аудио- или видеофайла и пока лишь отображает текст, а не озвучивает перевод в реальном времени. Например, можно настроить двухстороннее отображение перевода на экране смартфона, когда гаджет лежит на столе между собеседниками и каждому из них показывает переведённую реплику второй стороны.
Из слов создателя DeepL Ярека Кутыловски можно сделать вывод, что компания ориентирована на корпоративный рынок и видит новый голосовой сервис решением, например, для сферы услуг. Автоматические субтитры пока доступны только в сервисе Teams, и неизвестно, появятся ли они в Zoom или Google Meet.
В DeepL утверждают, что не стремились первыми представить подобный сервис, а были сконцентрированы на качестве продукта и своей языковой модели вместо того, чтобы использовать сторонние решения, например, от OpenAI. Так, у DeepL есть своя оптимизированная для перевода модель, которая, по словам разработчиков, превосходит GPT-4, модели Google и Microsoft.