Рубрика «речевые технологии» - 3

Денис Филиппов, занимающийся в «Яндексе» речевыми технологиями, рассказал «Медузе» о технологиях распознавания речи, диалогах таксистов с навигатором и о том, почему клавиатуры будут жить вечно.

  • Самая сложная задача сейчас в распознавании речи — отделить основного спикера от фоновых. Эта задача называется «Читать полностью »

«Мегафон» использует технологии распознавания речи «Яндекса» для работы виртуального консультанта, пишут «Ведомости» со ссылкой на представителей компаний. Стоимость сделки не раскрывают, но в «Яндексе» оценивают это как крупнейший в России контракт в этой сфере.

Пока проект реализован для Московского региона, Читать полностью »

Посмотревшие этот сюжет, скорее всего согласятся с тем утверждением, что сенсорные устройства, пожалуй, как никому другому, сегодня нужны именно людям с вышеизложенными проблемами, так как, действительно, сильно облегчают их повседневную жизнь.

Этот видеоролик сегодня делается без особых проблем, связанных с монтажем и бесчисленными дублями. Здесь всё снято именно так, как это происходит в обычной жизни человека, работающего на Android с помощью программы TalkBack, обеспечивающей речевой доступ на всех современных Android-устройствах, начиная с версии 4.1.

Читатели, интересующиеся вопросом истории невизуальной доступности Android могут посетить сайт Tiflocomp. Если же говорить о существующих проблемах, связанных с невизуальной доступностью Android-устройств и программных продуктов, то здесь скорее дело в низкой заинтересованности разработчиков, в то время, как арсенал средств доступности, заложенных в самой операционной системе Android весьма существенен.
Читать полностью »

VoiceFabric: технология синтеза речи из облака - 1

Сегодня поговорим про перспективы и возможности облачного сервиса VoiceFabric для разработчиков и пользователей. Сервис озвучивает любую текстовую информацию синтезированным голосом в режиме реального времени. Под катом мы подробно расскажем о нашем синтезе, сценариях его использования (стандартных и не очень) и как подключить его к своим проектам, а так же о том, чем он уникален.
Читать полностью »

Распознай это! Конкурс «Родная речь» 2014
Всем привет!

В прошлом посте мы анонсировали конкурс разработчиков «Родная речь-2014», участники которого должны будут создать работоспособный алгоритм преобразования распознанной последовательности фонем в текст, соответствующий нормам русского языка.
Регистрация уже началась, и чтобы помочь сомневающимся определиться с решением: принимать ли участие, я попробую объяснить, что же нужно сделать в рамках конкурса.
Читать полностью »

Поздравляем всех с наступающими праздниками! Этот пост будет не столько технический, сколько сказочно-новогодний. По традиции, накануне Нового года мы придумываем подарки для наших партнеров и клиентов. Но также нам хочется сделать что-то приятное для более широкой аудитории. Самый лучший подарок – сделанный своими руками. А дарить подарки приятнее всего детям. Поэтому в этом году мы придумали проект «Робот читает сказки детям». Мы взяли 12 новогодних сказок, озвучили их с помощью синтеза речи и разместили на нашем портале Voice Fabric.

image

Как известно, Центр речевых технологий создал несколько голосов TTS (text-to-speech), которые используются в системах IVR контакт-центров, системах голосового оповещения, мобильных приложениях — «Radio RSS» и «Читатель».

Как подбирались голоса

Всего в команде «голосовых роботов» на данный момент 5 женских и 2 мужских голоса. У каждого голоса свое имя. Преобладание женских голосов объясняется тем, что в информационных системах именно женские голоса комфортнее для восприятия пользователями.
Индивидуальность каждого голоса обеспечивается несколькими факторами. Во-первых, тембр голоса сохраняется при студийной записи диктора, голос которого используется в качестве прототипа. Во-вторых, мы сохраняем интонационные особенности голоса диктора, применяя статистически рассчитанную модель голоса, которая создается именно по студийным фонограммам этого диктора.В итоге, для озвучивания сказок мы отобрали 6 голосов: Владимира, Анну, Юлию, Марию, Викторию и Александра.Выбирая сказки, мы руководствовались, конечно, новогодне-рождественской темой, отсутствием копирайтов, а также личными предпочтениями. Коллекция получилась пестрая: это и известные русские народные сказки («Два Мороза», «Лисичка-сестричка», «Снегурочка»), и европейская классика братьев Гримм и Г.Х. Андерсена. Также мы нашли менее известные у нас, но очаровательные рождественские сказки «Портной из Глостера» и «Мышонок Твикли». И, конечно, не могли обойти стороной замечательную притчу О. Генри «Дары волхвов», которая не совсем сказка, но очень трогательная история о настоящей любви.

Станиславский для робота. Как использовать возможности эмоционального синтеза

Читать полностью »

Всем привет.

По мотивам статьи «Самообслуживание клиентов с помощью google ASR»
Хотел бы вам рассказать, какие есть риски для бизнеса при использовании распознавания речи от Google для своего call-центра.

Я представляю компанию «Центр речевых технологий» (ЦРТ) и мы занимаемся технологиями синтеза и распознавания русской речи и в первую очередь, как раз делаем решения по автоматизации call-центров.
Речевыми технологиями мы занимаемся уже на протяжении 20 лет. Сейчас над этим трудится порядка 70-80 ученых и программистов, плюс нам помогают речевые кафедры ведущих ВУЗов страны, плюс у нас есть собственная кафедра речевых технологий в ИТМО — растим своих молодых ученых.

И в этом посте я проведу параллели между распознаванием речи от ЦРТ и Google, относительно применения его в корпоративном секторе (call — центры).
Читать полностью »

Всем привет.
По роду своей профессиональной деятельности я занимаюсь внедрением проектов на основе речевых технологий. Это синтез и распознавание речи, голосовая биометрия и анализ речи.
Мало кто задумывается, насколько эти технологии уже присутствуют в нашей жизни, хоть и далеко не всегда – явно.
Постараюсь популярно объяснить вам, как это работает и зачем это вообще нужно.
Подробно начну с распознавания речи, т.к. это более близкая к повседневной жизни штука, с которой многие из нас встречались, а некоторые уже постоянно пользуются.
Читать полностью »

Так или иначе наиболее важным ресурсом в сетях передачи данных является пропускная способность каналов связи. Помимо увеличения максимальной пропускной способности каналов связи и их числа очевидно, что имеет смысл оптимизировать использование уже имеющихся. Например, применяя алгоритмы сжатия. Для каждого случая наиболее оптимальный алгоритм (с точки зрения вычислительной сложности, коэффициента сжатия и т.п.) может быть своим.
Особенностью сжатия звука является субъективность её восприятия человеком. Это одновременно даёт возможность исключать незначительную информацию из сигнала, но и усложняет алгоритм сжатия.
Для того, чтобы достичь наибольшего коэффициента сжатия при минимальных потерях субъективного качества необходимо знать законы его восприятия. Этим занимается Психоакустика.
При использовании психоакустических свойств для сжатия традиционные способы оценки качества уже не подходят. Так, например, соотношение сигнал/шум становится практически бесполезным, т.к. сжатие происходит без учёта тех частей, которые человек не воспринимает. Таким образом, оценка качества так же должна учитывать свойства слухового аппарата человека.

Под катом будут рассмотрены некоторые свойства речевых сигналов и особенностей их восприятия человеком, объективные и субъективные способы оценки качества этих сигналов.

P.S. В данной статье использована моя дипломная работа, защищённая в 2011 году в Московском Авиационном Институте на факультете Радиоэлектроники Летательных Аппаратов каф. 402. Ранее работа нигде не публиковалась.
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js