Специалистам компании Microsoft установлен мировой рекорд точности распознавания устной речи с помощью компьютера. Нейронная сеть с глубоким обучением, работа которой была ускорена с помощью GPU, допускает ошибку всего в 5,9% случаев. Это лучший результат для компьютеров. Как утверждается, он вполне сопоставим с возможностями человека.
В проекте используется программный инструмент Microsoft Cognitive Toolkit (ране известный как CNTK) с открытым исходным кодом и графические процессоры Nvidia Tesla M40.
Распознавание устной речи является обязательной частью естественного диалога между машиной и человеком. Оно осложняется тем, что речь меняется в зависимости от физического и эмоционального состояния человека. К тому же, для человека свойственно использовать неформальные обороты, делать ошибки в речи и исправлять их, быстро менять темы. Долгосрочной целью разработки является переход от распознавания к пониманию смысла сказанного.
Источник: CDR info