В этой статье я хочу рассмотреть основы такой интереснейшей области разработки ПО как Распознавание Речи. Экспертом в данной теме я, естественно, не являюсь, поэтому мой рассказ будет изобиловать неточностями, ошибками и разочарованиями. Тем не менее, главной целью моего «труда», как можно понять из названия, является не профессиональный разбор проблемы, а описание базовых понятий, проблем и их решений. В общем, прошу всех заинтересовавшихся пожаловать под кат!
Метка «mfcc»
Распознавание речи для чайников
2014-06-13 в 6:13, admin, рубрики: DCT, dtw, mfcc, speech recognition, Алгоритмы, Программирование, метки: DCT, dtw, mfcc, speech recognitionКто там? — Идентификация человека по голосу
2012-05-24 в 21:01, admin, рубрики: mfcc, speech recognition, Алгоритмы, идентификация говорящего, Программирование, Работа со звуком, распознавание речи, метки: mfcc, speech recognition, идентификация говорящего, распознавание речи
Здравствуй, дорогой читатель!
Предлагаю твоему вниманию интересную и познавательную статью об отдельно взятом методе распознавания говорящего. Всего каких-то пару месяцев назад я наткнулся на статью о применении мел-кепстральных коэффициентов для распознавании речи. Она не нашла отклика, вероятно, из-за недостаточной структурированости, хотя материал в ней освещен очень интересный. Я возьму на себя ответственность донести этот материал в доступной форме и продолжить тему распознавания речи на Хабре.
Под катом я опишу весь процесс идентификации человека по голосу от записи и обработки звука до непосредственно определения личности говорящего.Читать полностью »
Мел-кепстральные коэффициенты (MFCC) и распознавание речи
2012-03-28 в 5:52, admin, рубрики: dsp, dtw, mfcc, Алгоритмы, Программирование, Работа со звуком, распознавание речи, метки: dsp, dtw, mfcc, распознавание речиНедавно я наткнулся на интересную статью, опубликованную rgen3, в которой описан DTW-алгоритм распознавания речи. В общих чертах, это сравнение речевых последовательностей с применением динамического программирования.
Заинтересовавшись темой, я попробовал применить этот алгоритм на практике, но на этом пути меня поджидало некоторое количество граблей. Прежде всего, что именно нужно сравнивать? Непосредственно звуковые сигналы во временной области — долго и не очень эффективно. Спектрограммы — уже быстрее, но не намного эффективнее. Поиски наиболее рационального представления привели меня к MFCC или Мел-частотным кепстральным коэффициентам, которые часто используются в качестве характеристики речевых сигналов. Здесь я попытаюсь объяснить, что они из себя представляют.Читать полностью »