Рубрика «синтез речи» - 3

Синтез речи на сегодняшний день применяется в самых разных областях. Это и голосовые ассистенты, и IVR-системы, и умные дома, и еще много чего. Сама по себе задача, на мой вкус, очень наглядная и понятная: написанный текст должен произноситься так, как это бы сделал человек.

Некоторое время назад в область синтеза речи, как и во многие другие области, пришло машинное обучение. Выяснилось, что целый ряд компонентов всей системы можно заменить на нейронные сети, что позволит не просто приблизиться по качеству к существующим алгоритмам, а даже значительно их превзойти.

Нейросетевой синтез речи своими руками - 1

Я решил попробовать сделать полностью нейросетевой синтез своими руками, а заодно и поделиться с сообществом своим опытом. Что из этого получилось, можно узнать, заглянув под кат.
Читать полностью »

Нейросеть Tacotron 2 говорит с человеческими интонациями, на которых обучена - 1
Архитектура Tacotron 2. В нижней части иллюстрации показаны модели предложение-к-предложению, которые транслируют последовательность букв в последовательность признаков в 80-мерном пространстве. Техническое описание см. в научной статье

Синтез речи — искусственное воспроизводство человеческой речи из текста — традиционно считается одной из составляющих частей искусственного интеллекта. Раньше такие системы можно было увидеть только в фантастических фильмах, а сейчас они работают буквально в каждом смартфоне: это системы Сири, Алиса и тому подобные. Вот только они не очень реалистично произносят фразы: голос неживой, слова отделены друг от друга.

Компания Google разработала продвинутый синтезатор речи нового поколения. Он называется Tacotron 2 и основан на нейросети. Для демонстрации его возможностей компания выложила примеры синтеза. Внизу странички с примерами можно пройти тест и попробовать определить, где текст произносит синтезатор речи, а где человек. Определить разницу практически невозможно.
Читать полностью »

image

Давным-давно посетила меня идея создать синтезатор речи с «голосом робота», как, например, в песне Die Roboter группы Kraftwerk. Поиски информации по «голосу робота» привели к историческому факту, что подобное звучание синтетической речи характерно для вокодеров, которые используются для сжатия речи (2400 — 9600 бит/c). Голос человека, синтезированный вокодером, отдает металлическим звучанием и становится похожим на тот самый «голос робота». Музыкантам понравился данный эффект искажения речи, и они стали активно его использовать в своем творчестве.
Читать полностью »

Пока еще Cortana не стала доступной для русскоговорящих пользователей Windows Phone 8.1, а это ожидается скоро, я предлагаю вам самим сделать веселое апрельское приложение, с помощью которого можно будет поговорить с телефоном, покомандовать им, а может быть и поиграть.

На деле это, оказывается, довольно просто.

Поговори со мной, Windows Phone - 1

В качестве примера предлагаю сделать детское приложение, которое тренирует в устном счете до 10-ти. Приложение будем писать на XAML/C#
Читать полностью »

Мобильное приложение «Читатель» теперь для Android - 1

Три года назад мы выпустили мобильное приложение «Читатель» для iOS и от многих пользователей нам стали приходить письма с вопросом, собираемся ли мы выпустить версию под Android. Разработка завершена, и состоялся официальный запуск «Читателя» в Google Play.
Читать полностью »

Технические аспекты обеспечения невизуальной доступности Android-приложений - 1
Возможно, читателю, далекому от рассматриваемой проблематики, название покажется абсурдным, ведь дизайн интерфейса как самой системы Android, так и разрабатываемых для нее приложений, ориентирован прежде всего именно на визуальную наглядность и привлекательность, что усугубляется использованием сенсорного экрана в качестве главного органа взаимодействия пользователя с устройством. Однако существует категория пользователей, волею природы или случая лишенных возможности в полной мере насладиться всеми этими прелестями. Благодаря тому, что в Android предусмотрены альтернативные, — или, лучше сказать, дополнительные, — способы взаимодействия, интерфейс и основной функционал системы отнюдь не являются принципиально недоступными для данной категории пользователей. Именно обеспечению такой доступности посвящены пункт «Специальные возможности» в меню настроек системы и входящее в ее состав приложение TalkBack. Что же касается невизуальной доступности сторонних приложений, то она варьируется от случая к случаю и порой требует от разработчика не то чтобы каких-то специальных сверхусилий, но хотя бы минимального внимания к проблеме.

Читать полностью »

VoiceFabric: технология синтеза речи из облака - 1

Сегодня поговорим про перспективы и возможности облачного сервиса VoiceFabric для разработчиков и пользователей. Сервис озвучивает любую текстовую информацию синтезированным голосом в режиме реального времени. Под катом мы подробно расскажем о нашем синтезе, сценариях его использования (стандартных и не очень) и как подключить его к своим проектам, а так же о том, чем он уникален.
Читать полностью »

Вышла новая версия мобильного приложения «Читатель» для iOS

Немного предыстории
Два года назад мы выпустили для iOS первую версию «Читателя» (Ссылка на iTunes). Это мобильное приложение, которое читает вслух загруженные в него книги и текстовые документы с помощью технологии синтеза русской речи. По сути дела, он позволяет озвучить в реальном времени любую книгу (.txt, .doc, .fb2). Книги озвучиваются прямо в мобильном устройстве, постоянный доступ в интернет при этом не нужен. За это время «Читатель» установили порядка 100 тысяч пользователей.
Читать полностью »

Поздравляем всех с наступающими праздниками! Этот пост будет не столько технический, сколько сказочно-новогодний. По традиции, накануне Нового года мы придумываем подарки для наших партнеров и клиентов. Но также нам хочется сделать что-то приятное для более широкой аудитории. Самый лучший подарок – сделанный своими руками. А дарить подарки приятнее всего детям. Поэтому в этом году мы придумали проект «Робот читает сказки детям». Мы взяли 12 новогодних сказок, озвучили их с помощью синтеза речи и разместили на нашем портале Voice Fabric.

image

Как известно, Центр речевых технологий создал несколько голосов TTS (text-to-speech), которые используются в системах IVR контакт-центров, системах голосового оповещения, мобильных приложениях — «Radio RSS» и «Читатель».

Как подбирались голоса

Всего в команде «голосовых роботов» на данный момент 5 женских и 2 мужских голоса. У каждого голоса свое имя. Преобладание женских голосов объясняется тем, что в информационных системах именно женские голоса комфортнее для восприятия пользователями.
Индивидуальность каждого голоса обеспечивается несколькими факторами. Во-первых, тембр голоса сохраняется при студийной записи диктора, голос которого используется в качестве прототипа. Во-вторых, мы сохраняем интонационные особенности голоса диктора, применяя статистически рассчитанную модель голоса, которая создается именно по студийным фонограммам этого диктора.В итоге, для озвучивания сказок мы отобрали 6 голосов: Владимира, Анну, Юлию, Марию, Викторию и Александра.Выбирая сказки, мы руководствовались, конечно, новогодне-рождественской темой, отсутствием копирайтов, а также личными предпочтениями. Коллекция получилась пестрая: это и известные русские народные сказки («Два Мороза», «Лисичка-сестричка», «Снегурочка»), и европейская классика братьев Гримм и Г.Х. Андерсена. Также мы нашли менее известные у нас, но очаровательные рождественские сказки «Портной из Глостера» и «Мышонок Твикли». И, конечно, не могли обойти стороной замечательную притчу О. Генри «Дары волхвов», которая не совсем сказка, но очень трогательная история о настоящей любви.

Станиславский для робота. Как использовать возможности эмоционального синтеза

Читать полностью »

Искусственный интеллект под Android с открытым API
Только ленивый не знает сегодня о том, что такое голосовой помощник Siri. Когда два года назад этот продукт был показан на презентации нового iPhone 4S, многие посмотрели на развитие IT-индустрии по-новому. Действительно, искусственный интеллект в кармане, понимающий естественную речь, еще не показывал никто.

Многие в то время начали говорить о том, что Apple может уже на следующем WWDC предоставить всем программистам под iOS возможность использовать открытое API ассистента Siri для своих собственных программ. Картина вырисовывалась радужной — любое приложение смогло бы реагировать на пользовательские фразы, исполняя различные команды. Действительно, если в магазине AppStore так много разных полезных приложений, почему бы им не дать возможность управления голосом? Тем более что такой вид коммуникации с пользователем, как речь, быстро стал трендовым после выхода iPhone 4s.

О том, удалось ли это сделать Apple, и что удалось сделать нам, читайте далее.

Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js