Суперкомпьютер IBM Watson уже успел прославиться тем, что обыграл чемпионов телевикторины Jeopardy. Учитывая, что эта викторина известна в России как «Своя Игра», в каком-то смысле Watson не глупее Анатолия Вассермана. Основное назначение суперкомпьютера — аналитика в финансовой и медицинской сфере. Вице-президент IBM по инновациям Берни Майерсон заявил на прошлой неделе, что в планах корпорации — вывести Watson на потребительский рынок, научив его понимать устную речь и снабдив общеупотребительными знаниями. Таким образом, Watson можно будет использовать с помощью мобильного приложения, так же как и Siri.
Читать полностью »
Метка «распознавание речи» - 3
IBM Watson составит конкуренцию Siri
2012-09-03 в 12:23, admin, рубрики: ibm watson, siri, аналитика, интерфейсы, искусственный интеллект, Поисковые машины и технологии, распознавание речи, метки: ibm watson, siri, аналитика, распознавание речиПростой алгоритм распознавания речи по короткому словарю на основе MFCC
2012-08-31 в 16:20, admin, рубрики: c++, Песочница, Программирование, распознавание речи, метки: c++, Программирование, распознавание речиПриветствую всех читателей habrahabr!
В последнее время наблюдается значительный рост интереса к технологиям, связанным с распознаванием речи. Можно назвать несколько причин этого роста, в частности, значительное рост вычислительных возможностей и обучающего материала. На хабрахаре пользователем domage был опубликован целый цикл статей по основам технологий распознавания речи. Также стоит отметить статью Мел-кепстральные коэффициенты (MFCC) и распознавание речи и выполненную на её основе работу по идентификации человека по голосу: Кто там? — Идентификация человека по голосу.
В данной работе предлагается простой алгоритм (и его реализация на C++) системы распознавания речи по короткому словарю, основанный на анализе статистического распределения мел-кепстральных коэффициентов (Mel-frequency cepstrum coefficients, MFCC).
Читать полностью »
Распознавание голоса на STM32F4-Discovery
2012-06-25 в 15:46, admin, рубрики: diy или сделай сам, STM32F4, Программинг микроконтроллеров, распознавание речи, метки: STM32F4, распознавание речи
В этой статье я хочу рассказать о том, как можно распознавать речь на микроконтроллере, используя отладочную плату STM32F4-Discovery. Поскольку распознавание речи — достаточно сложная задача даже для компьютера, то в данном случае оно проводится при помощи сервиса Google. Распознавание речи таким способом может пригодится в разных задачах, например в одном из устройств «умного дома».
Читать полностью »
Идентификация пользователя по голосу
2012-05-25 в 17:24, admin, рубрики: speech recognition, Алгоритмы, идентификация говорящего, Программирование, Работа со звуком, распознавание речи, метки: speech recognition, идентификация говорящего, распознавание речиПродолжая тему распознавания голоса, хочу поделится своей старой дипломной работой, на которую одно время возлагал надежды по доведению до коммерческого продукта, но потом оставил этот проект, выложив его в сеть на радость другим студентам. Хотя возможно эта тема будет интересна не только в академическом ключе, а и для общего развития.
Тема моей дипломной работы была «Разработка подсистемы САПР защиты от несанкционированного доступа на основе нейросетевого анализа спектральных характеристик голоса». В самом дипломе конечно много воды вроде ТБ, экономики и прочего, но есть и математическая и практическая часть, а также анализ существующих аналогичных решений. В конце выложу программу и сам диплом, возможно еще кому-то пригодится.
Читать полностью »
Кто там? — Идентификация человека по голосу
2012-05-24 в 21:01, admin, рубрики: mfcc, speech recognition, Алгоритмы, идентификация говорящего, Программирование, Работа со звуком, распознавание речи, метки: mfcc, speech recognition, идентификация говорящего, распознавание речи
Здравствуй, дорогой читатель!
Предлагаю твоему вниманию интересную и познавательную статью об отдельно взятом методе распознавания говорящего. Всего каких-то пару месяцев назад я наткнулся на статью о применении мел-кепстральных коэффициентов для распознавании речи. Она не нашла отклика, вероятно, из-за недостаточной структурированости, хотя материал в ней освещен очень интересный. Я возьму на себя ответственность донести этот материал в доступной форме и продолжить тему распознавания речи на Хабре.
Под катом я опишу весь процесс идентификации человека по голосу от записи и обработки звука до непосредственно определения личности говорящего.Читать полностью »
Разработка русскоязычного аналога «Siri»: эпилог
2012-05-13 в 7:45, admin, рубрики: apple, siri, speech recognition, разработка под iOS, распознавание речи, метки: siri, speech recognition, разработка под iOS, распознавание речи Или история, как небольшой эксперимент Just for fun перерос в полноценное приложение с неплохим результатом.
Начало истории тут, продолжение тут.
Если коротко, то с четвертого раза apple одобрил приложение, основательно покромсав функционал и дизайн. Подробности про прохождение ревю, и первые результаты под катом.Читать полностью »
Один день для искусственного интеллекта и естественного языка
2012-04-23 в 11:23, admin, рубрики: natural language processing, siri, watson, диалоговые системы, искусственный интеллект, Компьютерная лингвистика, конференция, обработка текстов, распознавание речи, синтез речи, метки: natural language processing, siri, watson, диалоговые системы, искусственный интеллект, Компьютерная лингвистика, конференция, обработка текстов, распознавание речи, синтез речи 26 мая 2012 в Санкт-Петербурге пройдет первая конференция AINL: Искусственный интеллект и естественный язык. Основные темы и направления: распознавание и синтез речи, искусственный интеллект и диалоговые системы, инженерия знаний и онтологии, извлечение данных и data mining.
Конференция будет длиться один день, официальный язык — русский.
Сейчас мы формируем программу и приглашаем докладчиков.
Искуственный интеллект и естественный язык за один день
2012-04-23 в 11:23, admin, рубрики: natural language processing, siri, watson, диалоговые системы, искусственный интеллект, Компьютерная лингвистика, конференция, обработка текстов, распознавание речи, синтез речи, метки: natural language processing, siri, watson, диалоговые системы, искусственный интеллект, Компьютерная лингвистика, конференция, обработка текстов, распознавание речи, синтез речи 26 мая 2012 в Санкт-Петербурге пройдет первая конференция AINL: Искусственный интеллект и естественный язык. Основные темы и направления: распознавание и синтез речи, искусственный интеллект и диалоговые системы, инженерия знаний и онтологии, извлечение данных и data mining.
Конференция будет длиться один день, официальный язык — русский.
Сейчас мы формируем программу и приглашаем докладчиков.
Google Glasses своими руками
2012-04-11 в 7:42, admin, рубрики: adobe air, diy или сделай сам, Google Glassses, Project Glass, будущее здесь, дополненная реальность, распознавание речи, Электроника для начинающих, метки: adobe air, Google Glassses, Project Glass, дополненная реальность, распознавание речи
Многие видели видеоролик Project Glass, опубликованный на прошлой неделе — элегантный интерфейс дополненной реальности от Google. Когда такие очки появятся в продаже и появятся ли вообще — неизвестно, поэтому некоторые энтузиасты решили взять инициативу в свои руки и сделать всё самостоятельно.
Разработчик систем дополненной реальности из Оксфорда Уилл Пауэлл (Will Powell) за несколько дней сделал самодельную версию Google Glassses и опубликовал видео, как оно работает.
Читать полностью »
Мел-кепстральные коэффициенты (MFCC) и распознавание речи
2012-03-28 в 5:52, admin, рубрики: dsp, dtw, mfcc, Алгоритмы, Программирование, Работа со звуком, распознавание речи, метки: dsp, dtw, mfcc, распознавание речиНедавно я наткнулся на интересную статью, опубликованную rgen3, в которой описан DTW-алгоритм распознавания речи. В общих чертах, это сравнение речевых последовательностей с применением динамического программирования.
Заинтересовавшись темой, я попробовал применить этот алгоритм на практике, но на этом пути меня поджидало некоторое количество граблей. Прежде всего, что именно нужно сравнивать? Непосредственно звуковые сигналы во временной области — долго и не очень эффективно. Спектрограммы — уже быстрее, но не намного эффективнее. Поиски наиболее рационального представления привели меня к MFCC или Мел-частотным кепстральным коэффициентам, которые часто используются в качестве характеристики речевых сигналов. Здесь я попытаюсь объяснить, что они из себя представляют.Читать полностью »