Рубрика «распознавание речи» - 10

Приветствую всех читателей habrahabr!

В последнее время наблюдается значительный рост интереса к технологиям, связанным с распознаванием речи. Можно назвать несколько причин этого роста, в частности, значительное рост вычислительных возможностей и обучающего материала. На хабрахаре пользователем domage был опубликован целый цикл статей по основам технологий распознавания речи. Также стоит отметить статью Мел-кепстральные коэффициенты (MFCC) и распознавание речи и выполненную на её основе работу по идентификации человека по голосу: Кто там? — Идентификация человека по голосу.
В данной работе предлагается простой алгоритм (и его реализация на C++) системы распознавания речи по короткому словарю, основанный на анализе статистического распределения мел-кепстральных коэффициентов (Mel-frequency cepstrum coefficients, MFCC).
Читать полностью »

image
В этой статье я хочу рассказать о том, как можно распознавать речь на микроконтроллере, используя отладочную плату STM32F4-Discovery. Поскольку распознавание речи — достаточно сложная задача даже для компьютера, то в данном случае оно проводится при помощи сервиса Google. Распознавание речи таким способом может пригодится в разных задачах, например в одном из устройств «умного дома».
Читать полностью »

Приветствуем Вас уважаемые!

Чем больше мы размышляем над будущим наших услуг, тем больше хочется мечтать о колонизации космоса и искусственном интеллекте. Все большие шаги делаются в сторону Марса и небольшие шаги, типа интерфейса Siri от Apple делаются в сторону ИИ.

Поэтому, несомненно, вся IT-индустрия будет двигаться именно в данном ключе, хоть и в нашей области хостинга консерватизм и надежность должны быть на первом месте.

Одним словом, будем стараться разбавлять «конкретные» статьи, статьями наполненными капелькой «мечты».

Читать полностью »

Продолжая тему распознавания голоса, хочу поделится своей старой дипломной работой, на которую одно время возлагал надежды по доведению до коммерческого продукта, но потом оставил этот проект, выложив его в сеть на радость другим студентам. Хотя возможно эта тема будет интересна не только в академическом ключе, а и для общего развития.

Тема моей дипломной работы была «Разработка подсистемы САПР защиты от несанкционированного доступа на основе нейросетевого анализа спектральных характеристик голоса». В самом дипломе конечно много воды вроде ТБ, экономики и прочего, но есть и математическая и практическая часть, а также анализ существующих аналогичных решений. В конце выложу программу и сам диплом, возможно еще кому-то пригодится.
Читать полностью »

Кто там? — Идентификация человека по голосу

Здравствуй, дорогой читатель!

Предлагаю твоему вниманию интересную и познавательную статью об отдельно взятом методе распознавания говорящего. Всего каких-то пару месяцев назад я наткнулся на статью о применении мел-кепстральных коэффициентов для распознавании речи. Она не нашла отклика, вероятно, из-за недостаточной структурированости, хотя материал в ней освещен очень интересный. Я возьму на себя ответственность донести этот материал в доступной форме и продолжить тему распознавания речи на Хабре.

Под катом я опишу весь процесс идентификации человека по голосу от записи и обработки звука до непосредственно определения личности говорящего.Читать полностью »

Или история, как небольшой эксперимент Just for fun перерос в полноценное приложение с неплохим результатом.
Начало истории тут, продолжение тут.
Если коротко, то с четвертого раза apple одобрил приложение, основательно покромсав функционал и дизайн. Подробности про прохождение ревю, и первые результаты под катом.Читать полностью »

26 мая 2012 в Санкт-Петербурге пройдет первая конференция AINL: Искусственный интеллект и естественный язык. Основные темы и направления: распознавание и синтез речи, искусственный интеллект и диалоговые системы, инженерия знаний и онтологии, извлечение данных и data mining.
Конференция будет длиться один день, официальный язык — русский.
Сейчас мы формируем программу и приглашаем докладчиков.

image
Читать полностью »

26 мая 2012 в Санкт-Петербурге пройдет первая конференция AINL: Искусственный интеллект и естественный язык. Основные темы и направления: распознавание и синтез речи, искусственный интеллект и диалоговые системы, инженерия знаний и онтологии, извлечение данных и data mining.
Конференция будет длиться один день, официальный язык — русский.
Сейчас мы формируем программу и приглашаем докладчиков.

image
Читать полностью »

Google Glasses своими руками

Многие видели видеоролик Project Glass, опубликованный на прошлой неделе — элегантный интерфейс дополненной реальности от Google. Когда такие очки появятся в продаже и появятся ли вообще — неизвестно, поэтому некоторые энтузиасты решили взять инициативу в свои руки и сделать всё самостоятельно.

Разработчик систем дополненной реальности из Оксфорда Уилл Пауэлл (Will Powell) за несколько дней сделал самодельную версию Google Glassses и опубликовал видео, как оно работает.
Читать полностью »

Недавно я наткнулся на интересную статью, опубликованную rgen3, в которой описан DTW-алгоритм распознавания речи. В общих чертах, это сравнение речевых последовательностей с применением динамического программирования.

Заинтересовавшись темой, я попробовал применить этот алгоритм на практике, но на этом пути меня поджидало некоторое количество граблей. Прежде всего, что именно нужно сравнивать? Непосредственно звуковые сигналы во временной области — долго и не очень эффективно. Спектрограммы — уже быстрее, но не намного эффективнее. Поиски наиболее рационального представления привели меня к MFCC или Мел-частотным кепстральным коэффициентам, которые часто используются в качестве характеристики речевых сигналов. Здесь я попытаюсь объяснить, что они из себя представляют.Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js