Группа Clarity Lab, находящаяся в университете Мичигана, предлагает решение с открытым исходным кодом для персонального компьютерного помощника. Их программа распознаёт голос и ищет ответы на запросы, точно как делают Siri от Apple, Google Now от Google, и аналогичные решения от Microsoft и Amazon. Проект под названием Sirius умеет даже больше, чем его аналоги – например, ему можно предоставить картинку и задать по ней вопрос.
Проект спонсируют Google, DARPA, американские военные и Национальный научный фонд США. Он распространяется по лицензии BSD, что означает полную открытость и бесплатность для всех желающих. Значит, любые стартапы смогут реализовать такую функциональность в своих проектах и устройствах.
Принцип работы системы
Но для этого им придётся разобраться в довольно сложной системе, из которой состоит проект, выложенный на GitHub. Пока это связка из нескольких отдельных программ – Sphinx, Kaldi, Protobuf, Speeded Up Robust Features (SURF, работает на базе OpenCV). На конференции ASPLOS 2015 разработчики представят как свою научную работу, посвящённую проекту, так и тьюториал по установке и работе с ним.
Среди энтузиастов уже были попытки создать аналог Siri – это, например, JuliusJS, библиотека для распознавания речи. Но пока заметных результатов от этих проектов не видно.
Автор: SLY_G