Специалисты компании DeepMind, купленной Google в 2014 году за 400 млн долларов и специализирующейся на разработках в области искусственного интеллекта, создали систему WaveNet, которая может подражать голосу человека.
В программах, генерирующих голос, принято два подхода. В одном используется огромное количество готовых фрагментов речи человека, но при этом манипулировать звуками и интонациями сложно. В другом звуки синтезируются. Их легко модифицировать, однако речь имеет характерное «механическое» звучание.
Чтобы научить компьютер подражать речи человека, разработчики обработали записанные образцы с помощью нейронной сети, которая смогла извлечь информацию, отвечающую за сходство с естественной речью, и применить ее к синтезируемым звукам. Интересно, что образцы могут быть не только речью — система с таким же успехом справилась с образцами звука фортепиано, выделив информацию, позволяющую имитировать звучание инструмента.
Источник: DeepMind