В 2018 появились первые демонстрации работы нового проекта Duplex. Это расширение ассистента Google могло совершать звонки самостоятельно и голосом бронировать столик в ресторане, номер в гостинице или заказывать билеты. Компания смогла добиться такого звучания компьютерного голоса, что у собеседников не возникало дискомфорта и общение происходило естественно. В некоторых случаях люди не сразу понимали, что говорят с программой.
В среду, 15 мая в блоге Google AI появилась статья с описанием новой программы Translatotron и демонстрацией ее работы (несколько десятков звукозаписей для сравнения размещены по ссылке). С помощью нейросетевых алгоритмов искусственного интеллекта система произносит переведенную речь на целевом языке тем же голосом, каким был совершен ввод исходного звукового фрагмента. Иными словами, пользователь просто говорит, а голосовой ассистент переводит его речь на нужный язык с сохранением интонации, тембра и высоты голоса.
Это новый шаг в речевых переводчиках, но неизвестно, в каком виде эта технология будет внедряться в продукты Google. Существующие алгоритмы перевода речи в речь состоят из трех этапов: распознавание речи, перевод текста и его озвучивание. Translatotron работает по совершенно иному принципу — «последовательность-в-последовательность», в котором программа действует также, как наш
Сервис Google Translate практически полностью вытеснил всех конкурентов с рынка мобильных и онлайн-переводчиков, однако компания не останавливается и добавляет в него новые возможности. Сейчас как приложение для смартфонов, так и веб-сервис умеют не только переводить любые объемы текста, но и распознавать слова на изображениях, а также в звуковых файлах. Последняя функция особенно удобна, если пользователь не знаком с письменностью другого языка и вынужден пытаться понять иностранца «на слух».