Недавно у меня возникла идея написать виртуального бота для общения. И хотя таковые уже существуют — речь пойдет не о приложении. Для претворения замысла в жизнь нужна была библиотека для распознавания голоса, и я стал искать. О результатах поиска далее.
Поиск убедил меня, что на данный момент наиболее популярными средствами распознавания речи на iOS являются:
- OpenEars
- Undocumented Google API for voice recognition
OpenEars
OpenEars — открытый iOS фрэймворк, для распознавания и синтеза речи. Он позволяет легко реализовать распознавание английской речи и преобразования текста в речь на iPhone и IPad и используется с открытым исходным кодом CMU PocketSphinx, CMU Flite, и CMUCLMTK библиотеки. Является бесплатным для использования в iPhone и IPad приложений. На выбор присутствует 9 голосов. Содержит множество настроек. Не требует подключения к интернету, так как содержит офлайновый словарь. На сайте разработчиков подробно описаны подготовка к использованию и примеры.
Google API
OpenEars хорош во всем кроме словарного запаса. Тогда на выручку приходит не задокументированное Google API для распознавания речи. Используется оно в проекте Clojure. Принцип прост: отправляете в Google запись в формате FLAC и получаете результат. Как это сделать хорошо описано в этой статье.
Надеюсь материал заинтересовал. Делитесь своими мнениями по поводу качества распознавания речи и инструментов для нее.
Автор: SeriiZ