"Яндекс" разработал и отдал в использование сторонним разработчикам еще несколько речевых технологий:
- голосовая активация - когда приложение начинает слушать пользователя после слов "Слушай, Яндекс", по аналогии с уже знаменитым "Ok, Google"
- голосовое понимание естественного языка - распознавая речь, технология "понимает", что "Юрий Синодов" - это имя и фамилия, "Краснопресненская 1" - это адрес, а "10:00" - это время. Эта же технология умеет распознавать команды пользователя приложению.
- синтез речи - зачитывает текст с естественными интонациями, старается учитывать знаки препинания.
Об этом рассказал руководитель отдела голосовых технологий и продуктов "Яндекса" Денис Филиппов на конференции YaC.
Новые технологии добавлены в бесплатную библиотеку Yandex SpeechKit Mobile SDK для мобильных устройств и коммерческую Yandex SpeechKit Cloud. Мобильные разработчики могут использовать их в своих приложениях бесплатно, если количество запросов не превышает 10 тысяч в сутки. Веб-разработчикам на базе Yandex SpeechKit Cloud технологии обойдутся в зависимости от количества запросов - порядка $5 тысяч за тысячу.
Использоваться технологии будут и в собственных сервисах "Яндекса", но в каких и как именно - пока не уточняется.
Потестировать новые возможности Yandex SpeechKit можно в демоприложении "Диктовка". Оно доступно только в Yandex.Store, который устанавливается на Android-телефоны. Никаких практичных возможностей у приложения нет - можно просто самостоятельно оценить работу технологий - диктуя, редактируя и слушая текст.
По субъективным ощущениям редакции, пока распознавание все же больше похоже на тренировку дикции, чем на удобную функцию. Не получается просто говорить, не пытаясь тщательно выговаривать слова - выходит каша. При попытке редактировать эту кашу голосом выходит еще хуже - в текст добавляются неправильно распознанные команды.
Оригинал:
Технология синтеза речи применяется для задач озвучивания динамически обновляемой информации, например, в телефонии, когда для клиента банка нужно озвучить состояние текущего счета в автоматическом режиме, или в робототехнике, для озвучивания ответа. Синтез речи очень полезен для мобильных приложений, которыми люди пользуются в ситуациях, когда у них заняты руки и нет возможности читать текст с экрана.
Результат:
"Яндекс" говорит, что точность распознавания его технологии - 85% для коротких запросов, 95% для геозапросов, 82% для текстов, а человек распознает на слух - 96-99% информации. С точки зрения пользователя кажется, что точность еще не достаточна для комфортной работы. Хотя в перспективе - это отличное направление и здорово, что "Яндекс" делится такими технологиями с разработчиками.
"Яндекс" запустил бесплатный Yandex SpeechKit Mobile SDK в 2013 году. За это время технологией воспользовались более 500 приложений, по данным поисковика. Ключи для коммерческой веб-версия Yandex SpeechKit Cloud получили уже 600 компаний, при том, что официально запущена она была только в августе 2014 года.