На данный момент большой проблемой распознавания речи (и смысла текста) является сложность предугадать смысл, а точнее контекст в котором находится слово. Часть проблемы решается дополнительным анализом соседних слов и предложения, а в тексте также анализируются заголовки документов. Большая проблема состоит в сложности реализации алгоритмов, особенно если речь идет о мобильных приложениях которые имеют ограниченные ресурсы.
Проблема может быть решена если автор приложения сам укажет контекст в котором произнесена фраза или написано сообщение для анализа.
Дисклеймер: Возможна такая система уже существует, но она либо не доступна для публичного пользования, либо о ней слишком мало информации в интернете. Это чисто ознакомительная статья содержащая идею проекта, в ней не будет кода и примеров.
Предположения
- Вы являетесь разработчиками Google Glass.
- Вы пытаетесь разработать систему управления голосом для устройства.
- У вас есть аккаунт Google с доступом к Prediction API.
Подготовка
Prediction API — одна из Google API которая является облачной системой машинного обучения. Её можно использовать в связке с Google App Engine и Google Cloud которые позволят обучить и протестировать систему. Больше информации на странице Prediction API.
Для распознавания необходимо выбрать несколько категорий-контекстов в которых могут происходить события. Для Google Glass это может быть:
- экран меню,
- просмотр видео,
- запись видео,
- MMORPG.
В каждой из этих категорий любое произнесенное слово или фраза могут иметь свое значение. К счастью список релевантных слов и фраз которые пользователь может произнести пользуясь Google Glass достаточно мал, по этому можно записать все категории и фразы к ним в файл а для результата распознавания предоставить команду, к примеру во время воспроизведения видео фраза «вперед» будет возвращать «short_skip_forward», которую может однозначно расшифровать управляющее приложение Google Glass.
Также нужно подключиться к системе распознавания речи все от того-же Google. Инструкции по ссылке.
Готово!
Теперь, когда все настроено, можно запускать наш Google Glass в продажу.
Автор: xeos