Рубрика «распознавание речи» - 7

Посмотревшие этот сюжет, скорее всего согласятся с тем утверждением, что сенсорные устройства, пожалуй, как никому другому, сегодня нужны именно людям с вышеизложенными проблемами, так как, действительно, сильно облегчают их повседневную жизнь.

Этот видеоролик сегодня делается без особых проблем, связанных с монтажем и бесчисленными дублями. Здесь всё снято именно так, как это происходит в обычной жизни человека, работающего на Android с помощью программы TalkBack, обеспечивающей речевой доступ на всех современных Android-устройствах, начиная с версии 4.1.

Читатели, интересующиеся вопросом истории невизуальной доступности Android могут посетить сайт Tiflocomp. Если же говорить о существующих проблемах, связанных с невизуальной доступностью Android-устройств и программных продуктов, то здесь скорее дело в низкой заинтересованности разработчиков, в то время, как арсенал средств доступности, заложенных в самой операционной системе Android весьма существенен.
Читать полностью »

SpeechMarkup API — превращаем речь в данные
В статье пойдет речь о том, как из любого запроса на естественном языке получить реальные данные, с которыми может работать ваше приложение. А именно, о REST API сервиса SpeechMarkup, который преобразует обычную строчку текста в JSON со всеми найденными смысловыми сущностями с конкретными данными в каждой из них.

Да-да, это та самая технология, которая лежит в основе любого голосового ассистента и используется в поисковиках.
Она позволяет однозначно интерпретировать запрос и «понять», о чем говорит пользователь, а затем вернуть вашему приложению результат в виде обычного набора данных.

В статье я расскажу, для чего можно использовать данный API и приведу небольшой пример работающего приложения.

Читать полностью »


В этой статье я подробно расскажу и покажу, как правильно и быстро прикрутить распознавание русской речи на движке Pocketsphinx (для iOS порт OpenEars) на реальном Hello World примере управления домашней техникой.
Почему именно домашней техникой? Да потому что благодаря такому примеру можно оценить ту скорость и точность, которой можно добиться при использовании полностью локального распознавания речи без серверов типа Google ASR или Яндекс SpeechKit.
К статье я также прилагаю все исходники программы и саму сборку под Android.

Читать полностью »

Привет! Пока любители фруктовых девайсов меряются лопатами и отсутсвующими/запаздывающими фичами, а Siri до сих пор не умеет говорить по-русски, мы можем насладиться прогрессом другой ОС и её сервисов. Под катом можно узнать, что отличает внешне Android L от 4.4.4, каких ресурсов он требует для работы, чего нам ждать от девайсов, которые получат апдейт. Ну и ещё немного расскажу о голосовом поиске, который не так давно получил несколько весомых обновлений, но они прошли как-то мимо Хабра. Все трюки в этом посте выполенны профессиональными смартфонами, повторяйте дома на свой страх и риск.

Android L, Nexus 5, Google Search и все все все

Читать полностью »

По стопам публикаций habrahabr.ru/company/croc/blog/235565/ и habrahabr.ru/company/megafon/blog/228899/, а так же комментариев к ним, я решил рассказать, как мы решаем проблему интерпретации голосового ввода в нашей диалоговой системе.

Для начала позвольте продемонстрировать небольшой видеоролик из нашего интерфейса прототипирования и разработки диалогов, снятый специально для статьи. Снят он по мотивам комментариев к публикации Мегафона (смотреть, по возможности, в разрешении 720+):

Хотелось бы отметить, что система не требует какой-либо предварительной подготовки – из ролика, надеюсь, очевидно, что я создаю и тестирую диалог «на лету».
Читать полностью »

Клиническая обработка сигналов речи и машинное обучение. Часть 1
Из выступления Max Little (основателя PVI) на конференции TED в 2012 году.

Здравствуй, Хабрахабр. Данный цикл статей будет посвящен рассмотрению возможности и построению Open Source универсального анализатора нарушений речи.

В данной статье будет рассказано о проекте Parkinson Voice Initiative, посвященному ранней диагностике Болезни Паркинсона по голосу (успешность распознавания составляет 98,6± 2.1% за 30 секунд по телефонному разговору).
Будет произведено сравнение точности используемых в нем алгоритмов выбора особенностей (ВО) – Feature Selection Algorithm – LASSO, mRMR, RELIEF, LLBFS.

Битва между Random Forest (RF) и Supported Vector Machine (SVM) за звание лучшего анализатора в данного рода приложениях.

Начало

Читая статьи по синтезу и распознаванию речи, нашел упоминание о том, что при болезни изменяется голос. Проверив очевидность факта, что я не первый догадался использовать распознавание речи для диагностики болезней (первые клиницисты определили некоторые features — особенности еще в 40-х годах прошлого века, записывая на магнитофонную ленту, а потом вручную анализируя), пошел по ссылкам Гугла. Одна из первых указывала на проект PVI.

Клиническая обработка сигналов речи и машинное обучение. Часть 1
Читать полностью »

Вместо введения


Покупать исследования по рынку распознавания речи достаточно дорого (от 2-х до 10 тысяч долларов и более). Не каждый себе может позволить, особенно среди разработчиков. Полностью переводить на правах переводчика тоже нельзя, так как есть ограничения на условиях лицензионного соглашения. Но поделиться информацией тоже бы очень хотелось перед заинтересованной публикой — так как фанатов речевых технологий становится все больше и больше. Поэтому я решил опубликовать часть выжимки международного исследования Technavio, которое в свое время мы приобретали — конечно же, в своей вольной гоблинской интерпретации. Надеюсь информация будет полезной. Правда пришлось отказаться от многих цифр, кроме тех, которые уже есть в сети. Наше исследование идет без графиков, таблиц, и к сожалению, SWOT анализов. Тот кому это действительно интересно — всегда имеет возможность приобрести самое свежее исследование здесь.

В представленной работе преимущественно разбирались по частям компании с Северной Америки и Европы. Рынок Азии представлен в исследовании слабо. Но все эти детали пожалуй оставим пока у себя. Однако очень интересно описаны тренды и текущая характеристика отрасли, что само по себе очень интересно — тем более ее можно изложить в различных вариациях не теряя общей сути. Не будем томить — пожалуй начнем описывать самые интересные моменты, куда движется все таки отрасль распознавания речи и что нас ждет в ближайшем будущем (2012 — 2016 гг.) — как уверяют исследователи.
image
Читать полностью »

Вместо введения

Продолжаю вести серию отчетов по исследовательской работе, которую проводил на протяжении нескольких месяцев, обучаясь в университете и в первые месяцы после защиты диплома. За все время работы многие элементы системы, которую разрабатывал, прошли переоценку и вектор работы в целом серьезно изменился. Тем интереснее было взглянуть на свой предыдущий опыт и опубликовать нигде не изданные ранее материалы с новыми замечаниями В данном отчете публикую материалы, почти 2-х летней давности со свежими дополнениями, которые надеюсь еще не потеряли свою актуальность.

Содержание:

1. Поиск и анализ цветового пространства оптимального для построения выделяющихся объектов на заданном классе изображений
2. Определение доминирующих признаков классификации и разработка математической модели изображений мимики"
3. Синтез оптимального алгоритма распознавания мимики
4. Реализация и апробация алгоритма распознавания мимики
5. Создание тестовой базы данных изображений губ пользователей в различных состояниях для увеличения точности работы системы
6. Поиск оптимальной аудио-системы распознавания речи на базе открытого исходного кода
7. Поиск оптимальной системы аудио распознавания речи с закрытым исходным кодом, но имеющими открытые API, для возможности интеграции
8. Эксперимент интеграции видео расширения в систему аудио-распознавания речи с протоколом испытаний

Цели:

На основе накопленного опыта в предыдущих исследовательских работах, осуществить пробную интеграцию видео-расширения в систему аудио-распознавания речи, провести протоколы испытаний, сделать выводы.

Задачи:

Рассмотреть подробно как можно интегрировать видео-расширение с программы распознавания речи, исследовать сам принцип аудио-видео синхронизации, а также осуществить пробную интеграцию разрабатываемого видео расширения в систему аудио распознавания речи, оценить разрабатываемое решение.

Введение

В ходе проведения предыдущих исследовательских работ были сделаны выводы целесообразности использования аудио-систем распознавания речи на базе открытого и закрытого исходного кода под наши цели и задачи. Как было нами определено: реализация своей собственной системы распознавания речи является очень сложной, трудоемкой и ресурсозатратной задачей, которую сложно выполнить в рамках данной работы. Поэтому нами было решено интегрировать представленную технологию видео-идентификации в системы распознавания речи, которые имеют для этого специальные возможности. Так как системы распознавания речи с закрытым исходным кодом реализованы более качественно и точность распознавания речи в них выше за счет более емкого содержания словника, то поэтому интеграция нашей видео-разработки в их работу следует считать более перспективным направлением, по сравнению с аудио системами распознавания речи на базе открытого исходного кода. Однако же необходимо иметь в виду тот факт, что системы распознавания речи с закрытым исходным кодом часто имеют сложную документацию для возможности интеграции сторонних решений в их работу с серьезными ограничениями использования системы на основе лицензионного соглашения или же это направление является платным, то есть необходимо покупать специальную лицензию на использование речевых технологий, представленных лицензиантом.

Для начала в качестве эксперимента было принято решение попробовать улучшить качество распознавания речи системы распознавания речи Google Speech Recognition API за счет работы нашего разрабатываемого видео расширения. Замечу, что на время проведения испытаний у Google Speech API на базе браузера Chrome еще не было функции распознавания непрерывной речи Google, которая в то время уже встраивалась в технологию распознавания непрерывной речи Speech Input на базе ОС Android.

В качестве видео обработки за основу взято наше решение по анализу движения губ пользователя и алгоритмам фиксирования фазы движения точек в объекте интереса совместно с аудио обработкой. С тем, что в конечном итоге получилось можно ознакомиться ниже.
image
Читать полностью »

Елена, «электронная девушка» из службы поддержки

Привет. Сегодня мы хотели бы рассказать об одной замечательной девушке. Точнее, о «девушке». Это виртуальный оператор в колл-центре службы поддержки, и зовут её Елена. Она способна распознавать речевые запросы и отвечать на них.

Для чего это нужно?

Обычно абоненты звонят в службу поддержки, чтобы задать различные вопросы. Во многих случаях эти вопросы однотипны. Когда-то, чтобы не заставлять абонентов ждать ответа оператора, было придумано голосовое меню (IVR). Вы все с ними сталкивались: «… для связи с оператором — нажмите ”ноль“». Однако прогресс не стоит на месте, и теперь появились новые, более удобные технологии. Одной из них является система распознавания речевых запросов, позволяющая сохранить степень автоматизации службы поддержки.

Так мы внедрили виртуального оператора Елену. Или помощника, как вам больше нравится. Пока что Елену нельзя отнести к полноценным системам искусственного интеллекта. На текущий момент она является своеобразной надстройкой над IVR, перенаправляя человека в конкретные разделы меню. Но, в целом, Елена ближе к таким системам, как Siri на iPhone, или к мобильным консультантам на Android. Пока что её возможности куда скромнее, и она не сможет подсказать вам, где находится ближайшая станция метро или как ловить на мотыля. Но Елена уже может распознавать наиболее популярные вопросы и давать на них ответ. И в будущем вообще превратится в замечательного собеседника. Но об этом ниже.
Читать полностью »

Здравствуйте, дорогие пользователи хабрахабр!

Наконец-то наступил тот день, когда я решил написать первый пост для Вас.
Речь пойдет о том, как возникла идея создания проекта, на какой стадии развития мы находимся сегодня и какие планы стоят перед нами в самое ближайшее будущее. Смотри видео:

Идея проекта возникла еще в далеком 2009 году, когда я был еще студентом марийского государственного университета. В свое время я мечтал поступить в главный альма матер страны: московский государственный университет имени Михаила Васильевича Ломоносова. Кто знает, наверняка помнит, что первое время там не принимался единый государственный экзамен и необходимо было сдавать все экзамены лично, используя свои знания и навыки. Для этих целей активно готовился более года. Я разработал программу на год, где разделил методичку абитуриента на временные периоды в течение года по дисциплинам. И по ним активно готовился каждый день. Весь мой день был расписан по минутам. Вставал я в 6 часов 30 минут, ложился в 23 00. Благодаря четкой организованности, мне удалось значительно повысить свой внутренний мир.

Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js