Улучшенное распознование речи используя категории

в 16:37, , рубрики: data mining, Google API, google app engine, распознавание речи, распознавание текста, метки: ,

На данный момент большой проблемой распознавания речи (и смысла текста) является сложность предугадать смысл, а точнее контекст в котором находится слово. Часть проблемы решается дополнительным анализом соседних слов и предложения, а в тексте также анализируются заголовки документов. Большая проблема состоит в сложности реализации алгоритмов, особенно если речь идет о мобильных приложениях которые имеют ограниченные ресурсы.

Проблема может быть решена если автор приложения сам укажет контекст в котором произнесена фраза или написано сообщение для анализа.

Дисклеймер: Возможна такая система уже существует, но она либо не доступна для публичного пользования, либо о ней слишком мало информации в интернете. Это чисто ознакомительная статья содержащая идею проекта, в ней не будет кода и примеров.

Предположения
  • Вы являетесь разработчиками Google Glass.
  • Вы пытаетесь разработать систему управления голосом для устройства.
  • У вас есть аккаунт Google с доступом к Prediction API.

Подготовка

Prediction API — одна из Google API которая является облачной системой машинного обучения. Её можно использовать в связке с Google App Engine и Google Cloud которые позволят обучить и протестировать систему. Больше информации на странице Prediction API.

Для распознавания необходимо выбрать несколько категорий-контекстов в которых могут происходить события. Для Google Glass это может быть:

  • экран меню,
  • просмотр видео,
  • запись видео,
  • MMORPG.

В каждой из этих категорий любое произнесенное слово или фраза могут иметь свое значение. К счастью список релевантных слов и фраз которые пользователь может произнести пользуясь Google Glass достаточно мал, по этому можно записать все категории и фразы к ним в файл а для результата распознавания предоставить команду, к примеру во время воспроизведения видео фраза «вперед» будет возвращать «short_skip_forward», которую может однозначно расшифровать управляющее приложение Google Glass.

Также нужно подключиться к системе распознавания речи все от того-же Google. Инструкции по ссылке.

Готово!

Теперь, когда все настроено, можно запускать наш Google Glass в продажу.

Автор: xeos

Источник

* - обязательные к заполнению поля


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js