Денис Филиппов, занимающийся в «Яндексе» речевыми технологиями, рассказал «Медузе» о технологиях распознавания речи, диалогах таксистов с навигатором и о том, почему клавиатуры будут жить вечно.
- Самая сложная задача сейчас в распознавании речи — отделить основного спикера от фоновых. Эта задача называется «вечеринка с коктейлем»: когда много народу, все что-то говорят, слышны обрывки фраз, гремит музыка на фоне, и распознаванию речи надо догадаться, кто же здесь основной спикер, чью речь ей нужно распознать.
- Самое важное в голосовой биометрии — решение задач идентификации (узнать человека из многих по голосу) и аутентификации (подтвердить с помощью голоса, что это именно тот человек, за которого он себя выдает). Для решения этих задач технология тренируется на так называемых голосовых слепках. Зная, что в этой записи говорил Денис Филиппов, мы создаем из нее некий уникальный слепок голоса, уникальную последовательность чисел, которые получены из характеристик моего голоса. И дальше, если есть какая-то запись речи человека, то мы голос в ней тоже представляем в виде последовательности чисел по тому же алгоритму, и если эта последовательность определенным образом совпадает с голосовым слепком, мы говорим, что с такой-то вероятностью в этой записи тоже был голос Дениса Филиппова.
- На самом деле система уже сейчас умеет несколько больше, чем человек. Взять тех же таксистов. Иногда я не понимаю, что он говорит, а навигатор понимает. То есть я сижу и просто: «Что это? Почему он его понял? Даже я его не понял».
- Почему клавиатуры не умрут? Из-за приватности. Вы не будете в лифте голосом диктовать приватную смску, даже я в это не верю. Это очевидно. В сценариях, где есть прайваси, всегда останется клавиатура или свайпы по экрану. Но не голос.
- По-хорошему, в ближайшие три-пять лет вы начнете разговаривать со своим автомобилем: «Поехали на работу», «Почитай основные новости и потом поставь что-нибудь послушать поживее», «Сделай похолоднее». Не стандартные сейчас автомобильные интерфейсы — искать там джойстики, крутить, выбирать на дисплее из кучи пунктов меню, искать нужные кнопки на панели. Это все будет голосом, здесь даже сомневаться не нужно. «Завези меня на заправку». Или даже не так. Вам машина будет говорить: «Слушай, мы сейчас заедем на заправку, а то до дома уже не хватит топлива».