Google слышит лучше, искать проще

в 11:27, , рубрики: android, Google, Блог компании ua-hosting.company, браузеры, ГНС, голосовой поиск, звук, лингвистический анализ, нейронные сети, периодические нейронные сети, ПНС, поиск, фреймы, хостинг, шум

Google объявил о том, что они доработали свою систему голосового поиска для того что бы добиться, улучшенного распознавания речи пользователя в шумных местах.

Google слышит лучше, искать проще - 1

Это всегда была одна из лучших систем распознавания речи, особенно она удобна при поиске с использованием смартфонов. Теперь функция голосового поиска стала еще более развитой чем когда-либо. Блог Google Research описывает в общих чертах улучшения, которые были приняты в обновленной системы.

С 2012 года поисковый гигант отошел от использования Метода Гауссовых Смесей (МГС) тридцатилетней давности в распознавании речи. В новых системах стали применятся глубокие нейронные сети (Deep Neural Networks). ГНС могут лучше распознавать какие звуки произносит пользователь в определенный момент времени, что значительно повысило точность распознавания.

Google слышит лучше, искать проще - 2

Теперь специалисты компании Google объявили, что им удалось создать более совершенную нейронную сеть акустических моделей, которые используют алгоритмы коннекционистской временной классификации и дискриминационного обучения. Эти модели представляют собой особое расширение периодических нейронных сетей, которые являются более точными, особенно в шумном окружении, и невероятно быстрыми!

В традиционном распознавании речи голосовая форма, которую заполнил пользователь, разделялась на последовательные фреймы (отрезки) по 10 миллисекунд. Каждый фрейм проходил частотный анализ и полученный после вектор с характеристиками был пропущен через акустические модели, такие как ГНС, которые выдают вероятности по всем звуковым совпадениям. Скрытая Марковская Модель (СММ) помогает разгадать неизвестные детали на основе уже полученных, это дает возможность ввести своего рода структурирование этой последовательности вероятностных распределений. Эта модель в дальнейшем сочетается с другими источниками знаний, такими как Модель Произношения, которая связывает последовательности звуков с определенными словами, выбранного языка и Языковой Модели, которая в свою очередь выражает насколько данное слово относится к выбранному языку.

Распознаватель далее согласовывает всю эту информацию, дабы определить предложение, которое произносит пользователь. Если пользователь произносит, например, слово «museum» (mju:’zɪəm — фонетическая форма), то может быть сложно определить, когда звук «j» заканчивается и начинается звук «u». Однако, по правде говоря, определителю все равно когда происходит этот переход. Единственное, что его беспокоит, это именно те звуки, которые были произнесены.

Новая улучшеная акустическая модель основана на Периодических Нейронных Сетях (ПНС). В топологии ПНС существуют петли обратной связи, которые позволяют смоделировать временную зависимость. Когда пользователь произносит / U / в предыдущем примере, артикуляционный аппарат человека плавно переходит от звука /J/ до звука /М/ прежде всего. Попробуйте произнести слово «museum», для людей, свободно владеющим английским языком, это не составит труда и слово произнесется легко на одном дыхании, ПНС способна уловить этот момент.

Google слышит лучше, искать проще - 3

Типом периодических нейронных сетей в данной система является длинная кратковременная память, которая с помощью ячеек памяти и сложного механизма стробирования запоминает информацию лучше чем другие ПНС. Стробирование — это метод выделения некоторого временного интервала для увеличения вероятности обнаружения полезных сигналов на фоне помех. Принятие в работу таких моделей уже значительно повысило качество распознавания голоса.

Следующим шагом было обучение акустической модели распознавать фонемы (звуки) в произнесенной речи, не делая прогноз на каждый фрейм. Модели с Ассоциативной Временной Классификацией подготавливают график с последовательностью «шипов", которые отображают последовательность звуков в полученном сигнале. Они могут это делать до тех пор, пока последовательность не будет нарушена.
По сути система распознавания голоса Google теперь может рассмотреть контекст, в котором было произнесено слово, отстраняясь от фоновых звуков.

Google слышит лучше, искать проще - 4

Совсем другой вопрос: как сделать это все доступным и удобным в режиме реального времени? После большого количества итераций, программистам Google удалось создать однопотоковые стриминговые модели, которые обрабатывают входящие сигналы блоками, которые превышают по размеру блоки в стандартных акустических моделях, но при этом совершают меньшее число фактических вычислений. Уменьшение количества вычислительных операций значительно ускоряет процесс распознавания сказанного. Так же в программу обучения системы были добавлены искусственные шумы и реверберации (искусственное уменьшение звуков), что бы сделать систему распознавания более устойчивой к постороннему шуму. На видео ниже вы можете наблюдать, как система изучает предложение.

Тем не менее, оставалось решить еще одну проблему: система производит меньшее число прогнозов, но при этом они задерживаются приблизительно на 300 миллисекунд. Выдавая результат после полного завершения предложения, повышался уровень распознания, но при этом создавались дополнительные задержки для пользователей, что совсем неприемлемо для специалистов Goolge. Что бы решить проблему, система была обучена производить анализ и выдавать результат по каждой фразе до того, как она будет завершена. Это сделало процесс распознавание более синхронизированным с нормальным темпом произношения человека. Пользователю более не требуется ожидать, пока программа выдаст свой вариант произнесенной фразы.

Новые акустические модели уже используются для голосового поиска и команд в приложении Google (на Android и iOS) и для диктовки на устройствах на базе Android. Новые модели стали требовать меньшее количество ресурсов, стали более устойчивы к окружающему шуму и способны выдавать результат гораздо быстрее предшественников. Это делает голосовой поиск более приятным для пользователя

Автор: ua-hosting.company

Источник

* - обязательные к заполнению поля


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js