Почему мне (и, надеюсь, вам) интересно распознавание речи? Во-первых, это направление является одним из самых популярных по сравнению с другими задачами компьютерной лингвистики, поскольку технология распознавания речи сейчас используется почти повсеместно – от распознавания простого «да/нет» в автоматическом колл-центре банка до способности поддерживать «светскую беседу» в «умной колонке» типа «Алисы». Во-вторых, чтобы система распознавания речи была качественным, необходимо найти самые эффективные средства для создания и настройки такой системы (одному из подобных средств и посвящена эта статья). Наконец, несомненным «плюсом» выбора специализации в области распознавания речи лично для меня является то, что для исследований в этой области необходимо владеть как программистскими, так и лингвистическими навыками. Это весьма стимулирует, заставляя приобретать знания в разных дисциплинах.
Читать полностью »
Рубрика «распознавание речи» - 2
Почему Kaldi хорош для распознавания речи?
2019-10-08 в 16:06, admin, рубрики: kaldi, natural language processing, изучение языков, Компьютерная лингвистика, машинное обучение, нейросети, распознавание речиИсследование: если покупатель понимает, что говорит с чат-ботом, то покупка не состоится вовсе
2019-10-02 в 9:08, admin, рубрики: Блог компании Voximplant, искусственный интеллект, машинное обучение, Программирование, распознавание речи, распознавание эмоций, Чат-ботыНет времени объяснять, вот главные постулаты сегодняшнего перевода:
- чат-боты не имеют предельных издержек и продают в 4 раза больше, чем люди;
- вероятность продажи падает на 79%, если люди понимают, что говорят с роботом;
- потребители воспринимают роботов как менее компетентных и эмпатичных.
Под катом – подробности исследования и инсайты от ученых. Приятного чтения!
End2End-подход в задачах Automatic Speech Recognition
2019-09-25 в 9:54, admin, рубрики: asr, end-to-end, nlu, Алгоритмы, Блог компании МТС, звук, ИИ, искусственный интеллект, машинное обучение, МТС, нейросеть, распознавание речиЧто такое End2End-распознавание речи, и зачем же оно нужно? В чем его отличие от классического подхода? И почему для обучения хорошей модели на основе End2End нам потребуется огромное количество данных — в нашем сегодняшнем посте.
Классический подход к распознаванию речи
Прежде чем рассказать про End2End-подход, стоит сначала поговорить про классический подход к распознаванию речи. Что он из себя представляет?
Распознавание эмоций с помощью сверточной нейронной сети
2019-07-26 в 13:34, admin, рубрики: convolutional neural network, speech recognition, Блог компании Voximplant, звук, искусственный интеллект, машинное обучение, Программирование, распознавание речи, сверточные нейронные сетиРаспознавание эмоций всегда было захватывающей задачей для ученых. В последнее время я работаю над экспериментальным SER-проектом (Speech Emotion Recognition), чтобы понять потенциал этой технологии – для этого я отобрал наиболее популярные репозитории на Github и сделал их основой моего проекта.
Прежде чем мы начнем разбираться в проекте, неплохо будет вспомнить, какие узкие места есть у SER.
Читать полностью »
Специалисты МТИ создали нейросеть, которая воссоздает внешность человека по голосу
2019-05-31 в 16:03, admin, рубрики: искусственный интеллект, машинное обучение, распознавание голома, распознавание речи, реконструкция лица
23 мая исследователи Массачусетского технологического института в сотрудничестве с командой Google AI представили итоги работы над нейросетью Speech2Face, которая может по короткой аудиозаписи со звучащей речью реконструировать внешность говорящего. Разработчики не преследовали цели добиться точного сходства – проект носил экспериментальный характер и был призван показать, какой объем информации о человеке можно получить, прослушивая его голос.
Читать полностью »
ИИ Microsoft генерирует реалистичную речь с минимальным обучением
2019-05-27 в 14:58, admin, рубрики: будущее здесь, генерация речи, искусственный интеллект, машинное обучение, распознавание речи, синтезированная речьВ своем новом проекте компании Microsoft удалось значительно усовершенствовать технологии генерации речи. Разработанную нейросеть отличает естественное произношение, практически неотличимая от человеческой, и малый объем размеченной выборки, необходимой для обучения.
Читать полностью »
Как я помогал Алисе не откликаться на другие имена. Стажировка в Яндексе
2019-02-04 в 10:00, admin, рубрики: алиса, Блог компании Яндекс, голосовые помощники, декодер, диалоговые системы, искусственный интеллект, Карьера в IT-индустрии, нейронные сети, Промышленное программирование, разработка мобильных приложений, распознавание речи, речевые технологии, споттинг, стажировка, стажировка в it, стажировка в яндексеПривет. Меня зовут Алексей Рак, я разработчик голосового помощника Алиса в минском офисе Яндекса. Эту позицию я получил, пройдя здесь, в этой же команде, трехмесячную стажировку в прошлом году. О ней я и собираюсь вам рассказать. Если хотите сами попробовать — вот ссылка на стажировку 2019 года.
Взлом Amazon Echo и Google Home для защиты приватности
2019-01-16 в 8:05, admin, рубрики: amazon echo, diy или сделай сам, google home, keras, Project Alias, Raspberry Pi, ReSpeaker, TensorFlow, алиса, Блог компании GlobalSign, Интернет вещей, информационная безопасность, Разработка на Raspberry Pi, распознавание речи
Специалисты по безопасности скептически относятся к понятиям «умный дом» и «интернет вещей». Производители норовят собрать побольше данных о пользователях, что чревато утечками. Недавно Amazon отправила по неверному адресу 1700 разговоров одного пользователя с домашним помощником Alexa.
Это единичный случай, но Amazon сохраняет аудиозаписи на своих серверах, как и Google. Домашний помощник вроде Amazon Echo и Google Home — это полноценный жучок, который пользователь сам устанавливает в доме, добровольно соглашаясь на прослушку. Пока нет доказательств, что такие устройства ведут запись без произнесения слова-триггера, но технически ничто не мешает им это делать.
Project Alias призван изменить положение вещей и вернуть контроль людям.
Читать полностью »
Разработка Adblock Radio
2019-01-11 в 13:39, admin, рубрики: Adblock Radio, cmu sphinx, keras, landmark, shazam, TensorFlow, Алгоритмы, блокировка рекламы, диаризация, звук, звуковые отпечатки, копирайт, машинное обучение, распознавание речи, скрытые марковские модели, Софт
tl;dr: Adblock Radio распознаёт аудиорекламу с помощью машинного обучения и Shazam-подобных техник. Основной движок с открытым исходным кодом: используйте его в своих продуктах! Можно объединить усилия для поддержки большего количества радиостанций и подкастов.
Мало кому нравится слушать рекламу на радио. Я запустил проект AdblockRadio.com, чтобы слушатели могли пропускать рекламу на своём любимом интернет-радио. Алгоритм опубликован с открытым исходным кодом, а в этой статье описывается, как он работает.
Adblock Radio уже протестировали на реальных данных более 60 радиостанций в семи странах. Он также совместим с подкастами и работает довольно хорошо!
Читать полностью »
Тактичный робот: умеет слушать и не перебивает
2018-12-03 в 9:12, admin, рубрики: asr, javascript, TTS, voximplant, Блог компании Voximplant, боты, голосовое взаимодействие, Программирование, Разработка веб-сайтов, разработка мобильных приложений, распознавание речиРаспознавание речи (далее – ASR, Automatic Speech Recognition) используется при создании ботов и/или IVR, а также для автоматизированных опросов. Voximplant использует ASR, предоставляемый «корпорацией добра» – гугловское распознавание работает быстро и с высокой точностью, но… Как всегда, есть один нюанс. Человек может делать паузы даже в коротких предложениях, при этом нам нужна гарантия, что ASR не воспримет паузу как окончание ответа. Если ASR думает, что человек закончил говорить, то после «ответа» сценарий может включить синтез голоса со следующим вопросом – в это же самое время человек продолжит говорить и получит плохой пользовательский опыт: бот/IVR перебивает человека. Сегодня мы расскажем, как с этим бороться, чтобы ваши пользователи не огорчались от общения с железными помощниками.