Рубрика «распознавание речи» - 8

Можно смело заявить, что на сегодня CMU Sphinx стал лидером среди свободного софта для распознавания речи. Pocketsphinx поставляется вместе с Ubuntu, многообещающий проект Simon построен с широким его использованием, а структура корпуса Voxforge как бы намекает, что создан он для sphinxtrain.

Несмотря на бурное развитие самого Sphinx'а и методов распознавания речи вообще, каждый, кто пытался использовать его на практике, знает, насколько сложно получить вменяемый результат даже для простых задач. А все потому, что нельзя просто подключить дефолтные модели и ожидать, что система вас поймет. Требуется адаптировать акустику, построить релевантную языковую модель, найти оптимальные параметры и конфигурацию движка — вобщем, потратить недели времени, кропотливо снижая ошибку процент за процентом. Как человек, потративший эти самые недели, могу заверить, что и в этом случае вам ничего не гарантировано. Особенно, если вы хотите распознавать речь, записанную не гарнитурой, а встроенным микрофоном ноутбука, как это часто бывает.
Читать полностью »

Дорогие участники конкурса разработчиков! До открытия доступа к конкурсной базе осталась всего одна неделя!

image

У вас еще семь дней на то, чтобы изучить задачу, пример, задать на форуме все интересующие вопросы и настроиться на творческий лад!
Не забудьте официально зарегистрироваться на портале m2ies.com: подробная инструкция здесь.

Напоминаем вам, что участники конкурса должны будут создать работоспособный алгоритм преобразования распознанной последовательности фонем в текст, соответствующий нормам русского языка. Подробнее о конкурсном задании можно прочитать в нашем предыдущем посте.

Читать полностью »

image
Некоторое время назад я начал большой эксперимент по использованию открытой технологии распознавания речи Pocketsphinx в одном очень интересном проекте под Android. Его целью было создание голосового ассистента-звонилки на русском языке с применением датчиков смартфона в качестве способов активации микрофона.

За короткое время эксперимент перерос в настоящий продукт под названием Zvonimba, которым уже пользуется немалое количество человек. В этой статье я хочу рассказать, как удалось прикрутить Pocketsphinx для распознавания русской речи на смартфоне в оффлайне и какие трудности при этом возникали.

Я не буду подробно рассказывать о теории распознавания речи — об этом много и хорошо написано в интернете (например, на том же сайте Pocketsphinx). В этой статье я покажу, как удалось применить pocketsphinx в реальном приложении под Android.

Читать полностью »

Искусственный интеллект под Android с открытым API
Только ленивый не знает сегодня о том, что такое голосовой помощник Siri. Когда два года назад этот продукт был показан на презентации нового iPhone 4S, многие посмотрели на развитие IT-индустрии по-новому. Действительно, искусственный интеллект в кармане, понимающий естественную речь, еще не показывал никто.

Многие в то время начали говорить о том, что Apple может уже на следующем WWDC предоставить всем программистам под iOS возможность использовать открытое API ассистента Siri для своих собственных программ. Картина вырисовывалась радужной — любое приложение смогло бы реагировать на пользовательские фразы, исполняя различные команды. Действительно, если в магазине AppStore так много разных полезных приложений, почему бы им не дать возможность управления голосом? Тем более что такой вид коммуникации с пользователем, как речь, быстро стал трендовым после выхода iPhone 4s.

О том, удалось ли это сделать Apple, и что удалось сделать нам, читайте далее.

Читать полностью »

Привет. Мы, Боря и Полина, расскажем о нашем проекте Eleven.

Мы разрабатываем Eleven — сервис автоматического перевода речи в текст и плагин для Skype. Сервис связывается со Skype во время звонка, обрабатывает голосовой разговор и возвращает пользователю в текстовом виде в течение 5-7 секунд. Текстовый лог разбит на привычные блоки: ваши слова и слова вашего собеседника. Связь со Skype нужна для определения начала и конца разговора.

image

Идея распознавания речи не нова, и в мире ведётся интенсивная разработка сервисов по голосовому набору с весьма разнообразным функционалом. Наш же продукт предназначен для фрилансеров — разработчиков и дизайнеров — и направлен на повышения удобства в их работе.
Читать полностью »

imageНа Yet another Conference 2013 мы представили разработчикам нашу новую библиотеку Yandex SpeechKit. Это публичный API для распознавания речи, который могут использовать разработчики под Android и iOS. Скачать SpeechKit, а также ознакомиться с документацией, можно здесь.

Yandex SpeechKit позволяет напрямую обращаться к тому бэкэнду, который успешно применяется в мобильных приложениях Яндекса. Мы достаточно долго развивали эту систему и сейчас правильно распознаем 94% слов в Навигаторе и Мобильных Картах, а также 84% слов в Мобильном Браузере. При этом на распознавание уходит чуть больше секунды. Это уже весьма достойное качество, и мы активно работаем над его улучшением.

image

Можно утверждать, что уже в скором времени голосовые интерфейсы практически не будут отличаться по надежности от классических способов ввода. Подробный рассказ о том, как нам удалось добиться таких результатов, и как устроена наша система, под катом.

Читать полностью »

Всем привет.

По мотивам статьи «Самообслуживание клиентов с помощью google ASR»
Хотел бы вам рассказать, какие есть риски для бизнеса при использовании распознавания речи от Google для своего call-центра.

Я представляю компанию «Центр речевых технологий» (ЦРТ) и мы занимаемся технологиями синтеза и распознавания русской речи и в первую очередь, как раз делаем решения по автоматизации call-центров.
Речевыми технологиями мы занимаемся уже на протяжении 20 лет. Сейчас над этим трудится порядка 70-80 ученых и программистов, плюс нам помогают речевые кафедры ведущих ВУЗов страны, плюс у нас есть собственная кафедра речевых технологий в ИТМО — растим своих молодых ученых.

И в этом посте я проведу параллели между распознаванием речи от ЦРТ и Google, относительно применения его в корпоративном секторе (call — центры).
Читать полностью »

На данный момент большой проблемой распознавания речи (и смысла текста) является сложность предугадать смысл, а точнее контекст в котором находится слово. Часть проблемы решается дополнительным анализом соседних слов и предложения, а в тексте также анализируются заголовки документов. Большая проблема состоит в сложности реализации алгоритмов, особенно если речь идет о мобильных приложениях которые имеют ограниченные ресурсы.

Проблема может быть решена если автор приложения сам укажет контекст в котором произнесена фраза или написано сообщение для анализа.
Читать полностью »

Всем привет.
По роду своей профессиональной деятельности я занимаюсь внедрением проектов на основе речевых технологий. Это синтез и распознавание речи, голосовая биометрия и анализ речи.
Мало кто задумывается, насколько эти технологии уже присутствуют в нашей жизни, хоть и далеко не всегда – явно.
Постараюсь популярно объяснить вам, как это работает и зачем это вообще нужно.
Подробно начну с распознавания речи, т.к. это более близкая к повседневной жизни штука, с которой многие из нас встречались, а некоторые уже постоянно пользуются.
Читать полностью »

Управление голосом в приложениях на Android

Началось все с того, что я посмотрел неплохой обзор (сравнение) Siri и Google Now. Кто из них лучше, спорить не буду, однако у меня лично планшет на Андроиде. Я подумал, а что если написать калькулятор полностью на голосовом управлении (удобно ли будет?). Но для начала пришлось немного разобраться с самим голосовым управление, точнее говоря с голосовым вводом (управления еще добиться надо). Кроме того, я только что скачал Android Studio, и мне не терпелось скорей опробовать ее на практике (ну на минипроекте). Что ж, начнем.

Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js