Рубрика «синтез речи» - 2

6cc6e0011d4d26aeded6f052080b1890

Мы были очень рады, что наша прошлая статья понравилась Хабру. Мы получили много позитивной и негативной обратной связи. Также в ней мы сделали ряд обещаний по развитию нашего синтеза.

Мы достигли существенного прогресса по этим пунктам, но ультимативный релиз со всеми новыми фичами и спикерами может занять относительно много времени, поэтому не хотелось бы уходить в радиомолчание надолго. В этой статье мы ответим на справедливую и не очень критику и поделимся хорошими новостями про развитие нашего синтеза.

Если коротко:

  • Мы сделали наш вокодер в 4 раза быстрее;
  • Мы сделали пакетирование моделей более удобным;
  • Мы сделали мультиспикерную / мультязычную модель и "заставили" спикеров говорить на "чужих" языках;
  • Мы добавили в наши русские модели возможность автопростановки ударений и буквы ё с некоторыми ограничениями;
  • Теперь мы можем сделать голос с нормальным качеством на 15 минутах — 1 часе (с теплого старта в принципе заводилось даже на 3-7 минутах) или на 5 часах аудио (с холодного старта). Но тут все очень сильно зависит от качества самого аудио и ряда деталей;
  • Мы привлекли коммьюнити к работе, и нам помогли сделать удобный интерфейс для записи. Мы начали работу над голосами на языках народностей СНГ (украинский, татарский, башкирский, узбекский, таджикский). Если вы хотите увидеть свой язык в числе спикеров — пишите нам;
  • Мы продолжаем собирать обратную связь по применимости нашей системы для экранных интерфейсов чтения, и пока кажется, что нужно где-то еще всё ускорить в 5-10 раз, чтобы наши модели закрывали и этот кейс;

Читать полностью »

Всем привет! Меня зовут Олег Петров, я руковожу группой R&D в Центре речевых технологий. Мы давно работаем не только над распознаванием речи, но и умеем синтезировать голоса. Самый простой пример, для чего это нужно бизнесу: чтобы для каждого нового сценария, которому обучают голосовых роботов, не нужно было организовывать новую запись с человеком, который его когда-то озвучил. Ещё мы развиваем продукты на основе голосовой и лицевой биометрии и аналитики по голосовым данным. В общем, работаем над серьёзными и сложными задачами для разного бизнеса.

Как из четырёх минут речи мы воссоздали голос молодого Леонида Куравлёва - 1

Но недавно к нам пришли коллеги из Сбера с предложением поучаствовать в развлекательной истории — «озвучить» героя Леонида Куравлёва в новом ролике. Для него лицо Куравлева было воссоздано по кадрам из фильма «Иван Васильевич меняет профессию» и наложено на лицо другого актера с помощью технологии Deepfake. Чтобы мы смогли не только увидеть, но и услышать в 2020 году Жоржа Милославского, мы решили помочь коллегам. Ведь с годами голос у всех нас меняется и даже если бы Леонид Вячеславович озвучил героя, эффект был бы не тот.

Под катом я расскажу, почему эта, уже во многом привычная задача голосового синтеза, оказалась чуть сложнее, чем мы ожидали, и поясню, почему такие голоса не смогут обмануть качественные системы биометрической авторизации.
Читать полностью »

Как слепой разработчик в одиночку создала синтезатор речи - 1


Мы все, так или иначе, сталкивались с пользователями, имеющими проблемы зрения. Отвечающие за UI, не важно сайта, мобильного приложения или любого другого софта, скорее всего, знают про необходимость учитывать потребности таких людей и поэтому делали режимы повышенной контрастности, увеличенные шрифты и так далее.

А что, если пользователь совсем слепой и все эти режимы никак не упрощают его жизнь? Здесь на арену выходят программы для чтения экрана и синтезаторы звука, без которых им не обойтись. И вот про один из них я бы хотел вам сегодня рассказать.

Называется от RhVoice и упоминался в нескольких публикациях на Хабре. Но знаете-ли вы, что многие считают его лучшим бесплатным синтезатором русской (и не только) речи, а написан он в одиночку полностью слепым разработчиком — Ольгой Яковлевой?

Сегодня восстанавливаем историческую справедливость и немного узнаем про сам синтезатор вообще, и Ольгу в частности.Читать полностью »

В прошлый раз мы рассказали о цифровых синтезаторах речи и вспомнили, как в 1974 году Дональд Шерман (Donald Sherman), страдающий от паралича мышц лица, впервые использовал компьютер с системой Text-to-Speech, чтобы заказать пиццу по телефону. Тогда синтезатор работал на мейнфрейме, установленном в лаборатории Мичиганского государственного университета. Но с развитием технологий и появлением персональных компьютеров, TTS-решения стали мобильнее.

Расскажем о некоторых ранних разработках того времени.

Как синтез речи появился на ПК - 1Читать полностью »

Ранее мы рассказали о том, как появились речевые синтезаторы — поговорили о первых механических и электрических установках. Продолжаем обсуждение тем, что было в эпоху мейнфреймов.

История синтезаторов речи: компьютерная эра - 1Читать полностью »

В прошлый раз мы рассказывали о механических устройствах для синтеза речи — голосовом тракте Кемпелена и «говорящей голове» Иосифа Фабера. На очереди электрические синтезаторы XX века.

История синтеза речи: эпоха электрических решений - 1Читать полностью »

Неодушевлённые объекты, способные говорить, фигурировали еще в легендах древних цивилизаций. В шумерской мифологии бог войны Нинурта имел волшебную булаву, которая делилась тактическими советами в бою. Скандинавы считали, что Один заколдовал отрубленную голову некогда мудрого великана, чтобы она могла говорить. Но несмотря на популярный образ, первые попытки воплощения синтеза речи на технологическом уровне предприняли в XVIII веке. Рассказываем, кто этим занимался.

История синтезаторов речи: первые механические установки - 1Читать полностью »

Хотя нейронные сети стали использоваться для синтеза речи не так давно (например), они уже успели обогнал классические подходы и с каждым годам испытывают на себе всё новые и новый задачи.

Например, пару месяцев назад появилась реализация синтеза речи с голосовым клонированием Real-Time-Voice-Cloning. Давайте попробуем разобраться из чего она состоит и реализуем свою многоязычную (русско-английскую) фонемную модель.

Строение

Многоязычный синтез речи с клонированием - 1

Наша модель будет состоять из четырёх нейронных сетей. Первая будет преобразовывать текст в фонемы (g2p), вторая — преобразовывать речь, которую мы хотим клонировать, в вектор признаков (чисел). Третья — будет на основе выходов первых двух синтезировать Mel спектрограммы. И, наконец, четвертая будет из спектрограмм получать звук.

Читать полностью »

Нейросеть Facebook заговорила голосом Билла Гейтса - 1

Шон Васкез и Майк Льюис из компании Facebook представили синтезатор речи с новым принципом работы весьма эффектным образом: на аккаунте разработчиков на Github появилась коллекция сэмплов, где нейросеть убедительно имитирует речь основателя Microsoft. На записях звучат несколько коротких фраз произвольного содержания, в которых не только точно копируется тембр голоса Гейтса, но и тонко передаются естественные интонации — последнее долгое время оставалось для искусственного интеллекта недосягаемо высокой планкой.
Читать полностью »

Активность мозга человека впервые транслировали в чёткую речь - 1
Схема метода реконструкции речи. Человек прослушивает слова, в результате активируются нейроны его слуховой коры. Данные интерпретируются четырьмя способами: сочетанием двух типов регрессионных моделей и двух типов речевых представлений, затем поступают в систему нейросетей для извлечения признаков, которые впоследствии используются для настройки параметров вокодера

Нейроинженеры Колумбийского университета (США) первыми в мире создали систему, которая переводит мысли человека в понятную, различимую речь, вот звукозапись слов (mp3), синтезированных по мозговой активности.

Наблюдая за активностью в слуховой коре головного мозга, система с беспрецедентной ясностью восстанавливает слова, которые слышит человек. Конечно, это не озвучивание мыслей в прямом смысле слова, но сделан важный шаг в этом направлении. Ведь похожие паттерны мозговой активности возникают в коре головного мозга, когда человек воображает, что слушает речь, или когда мысленно проговаривает слова.
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js