В своем новом проекте компании Microsoft удалось значительно усовершенствовать технологии генерации речи. Разработанную нейросеть отличает естественное произношение, практически неотличимая от человеческой, и малый объем размеченной выборки, необходимой для обучения.
В основе разработки лежит нейроархитектура под названием Transformers, созданная одной из команд Google в 2017 году. Принцип обработки информации, который она применяет, в общих чертах повторяет механизм работы человеческого
Для обучения нейросети исследователи отобрали из базы LJSpeech 200 коротких записей человеческой речи — в общей сложности около двадцати минут непрерывного звучания — и снабдили каждый из них транскрипцией. Исследователи подчеркнули, что клипы отбирались случайным образом, без сортировки по качеству звука, чтобы проверить также и работу кодировщика. За исключением этого набора больше предварительно обработанных данных системе не предоставлялось. Тем не менее, на стадии тестирования она показала результаты, превосходящие показатели стандартных алгоритмов: сгенерированная речь была различима в 99,84% случаев.
Для сравнения на странице проекта авторы представили несколько записей одинаковых текстов в двух вариантах: первый был создан обычными методами на базе выборки в 200 единиц, второй — с применением новых технологий Google при том же объеме учебного материала. Очевидная разница как во внятности произношения, так и в сходстве с голосом реального человека позволяет судить о преимуществах, которые дает система Transformers.
По мнению авторов, практическая значимость разработки состоит в том, чтобы сделать инструменты распознавания и генерации речи более доступными. Упрощенный процесс обучения на небольшом наборе данных будет стимулировать более широкое их применение в малом бизнесе и даже в индивидуальных проектах. Кроме того, станет значительно проще работать с языками, которые не располагают крупными базами данных с обработанным материалом, не жертвуя при этом качеством результата.
Код проекта в скором времени будет предоставлен в открытый доступ. Послушать и сравнить оба метода можно на странице проекта.
Автор: nanton