Hal 9000 прекрасно читал по губам, правда, по-английски
Нейросети сейчас умеют многое, и постепенно их обучают все большему количеству умений. На днях стало известно о том, что объединенная команда исследователей из США и Китая смогла обучить нейросеть распознавать речь по губам с высокой степенью точности.
Добиться этого удалось благодаря дополнительному элементу — алгоритму распознавания речи по аудиозаписям. Далее алгоритм использовался в качестве обучающей системы уже для второго алгоритма, который распознавал речь по видеозаписям.
По мнению ученых, этот метод дает возможность освоить дополнительные приемы чтения по губам, которые нейросеть, обученная традиционными методами, не сможет «выучить». Простая последовательность изображений дает возможность освоить лишь базовые приемы чтения по губам.
Кроме того, разработчики использовали метод обучения нейросетей, который называется «дистилляцией знаний». Он позволяет сохранить небольшой размер модели, которая выполняет сложную задачу. В обычной ситуации нейросеть, которая умеет читать по губам, достигла бы значительных размеров, что затруднило бы ее использование на смартфонах или иных мобильных устройствах.
Но модель, которая называется knowledge distillation, дает возможность убрать эти ограничения. В ходе работы с этой моделью разработчику необходимо использовать базовую нейросеть, которая уже обучена, и на ее основе создает значительно меньшую модель, которая «обучается» на основе первой. Обе сети получают практически аналогичные исходные данные. Но меньшая сеть пытается повторить результаты большей, как на выходном слое, так и на всех промежуточных. Впервые идея была представлена Каруана (Caruana) в 2006 году.
Ученые под руководством Минли Сун (Mingli Song) из Чжэцзянского университета воспользовались «дистилляцией» для обучения нейросети чтению по губам. Как и говорилось выше, учителем здесь является алгоритм распознавания речи по аудиозаписи. Он предоставляет широкие возможности для изучения ряда малозаметных движений губ и паттернов речи.
Итоговая схема является симметричной, с двумя рекуррентными нейросетями, расположенными параллельно друг другу. Одна сверточная нейросеть обрабатывает кадры видео и предоставляет данные для другой. Исследователем осталось только представить дистилляцию знаний в виде нескольких блоков, каждый из которых отвечал за конкретную задачу. Один из них — за кадр, второй — за последовательность данных, третий — за наибольшую общую последовательность.
Конечно, для нормальной работы такая нейросеть требует тщательного обучения на десятках тысячах элементов. Ученые воспользовались датасетом LRS2, который содержит около 50 тысяч отдельных предложений, произнесенных дикторами BBC, а также датасетом CMLR — это самый объемный набор для обучения нейросетей читать по губам на мандаринском языке. В базе последнего содержится около 100 тысяч предложений из эфира телеканала CNTV.
Точность распознавания получившейся в итоге системы примерно на 8% выше, чем у других нейросетей, которые обучали на CMLR, и на 3% лучше, чем у нейросетей, которые обучались на LRS2.
Автор: Ekaterina_T