Рубрика «распознавание речи» - 2

Нейросеть научили распознавать речь по губам при помощи алгоритма распознавания записи голоса - 1
Hal 9000 прекрасно читал по губам, правда, по-английски

Нейросети сейчас умеют многое, и постепенно их обучают все большему количеству умений. На днях стало известно о том, что объединенная команда исследователей из США и Китая смогла обучить нейросеть распознавать речь по губам с высокой степенью точности.

Добиться этого удалось благодаря дополнительному элементу — алгоритму распознавания речи по аудиозаписям. Далее алгоритм использовался в качестве обучающей системы уже для второго алгоритма, который распознавал речь по видеозаписям.
Читать полностью »

Бэрримор, что за шум вокруг Voximplant? Внедрили веб-сокеты, сэр - 1


WebSocket — это прогрессивный стандарт полнодуплексной (двусторонней) связи между клиентом и сторонним сервисом в режиме реального времени. Веб-сокеты используются для организации непрерывного обмена данными без разрыва соединения и дополнительных HTTP-запросов.

И мы рады сообщить вам, что все это стало возможным в Voximplant благодаря новому модулю VoxEngine, который называется – сюрприз – WebSocket. Отныне вы сможете передавать текст и аудио, пользуясь преимуществами веб-сокетов в полной мере. Проще говоря, у вас появился еще один инструмент, чтобы прокачать ваше приложение.

Из этой статьи вы узнаете, как создать исходящее WebSocket-соединение, передать через него аудиопоток и преобразовать его в текст с помощью Google Cloud Speech-to-Text API.Читать полностью »

Высококачественная, легковесная и адаптируемая технология Text-to-Speech с использованием LPCNet - 1


Последние достижения в области глубокого обучения привносят существенные улучшения в развитие систем синтеза речи (далее – TTS). Это происходит благодаря применению более эффективных и быстрых методов изучения голоса и стиля говорящих, а также благодаря синтезу более естественной и качественной речи.Читать полностью »

Почему мне (и, надеюсь, вам) интересно распознавание речи? Во-первых, это направление является одним из самых популярных по сравнению с другими задачами компьютерной лингвистики, поскольку технология распознавания речи сейчас используется почти повсеместно – от распознавания простого «да/нет» в автоматическом колл-центре банка до способности поддерживать «светскую беседу» в «умной колонке» типа «Алисы». Во-вторых, чтобы система распознавания речи была качественным, необходимо найти самые эффективные средства для создания и настройки такой системы (одному из подобных средств и посвящена эта статья). Наконец, несомненным «плюсом» выбора специализации в области распознавания речи лично для меня является то, что для исследований в этой области необходимо владеть как программистскими, так и лингвистическими навыками. Это весьма стимулирует, заставляя приобретать знания в разных дисциплинах.
Читать полностью »

Нет времени объяснять, вот главные постулаты сегодняшнего перевода:

  • чат-боты не имеют предельных издержек и продают в 4 раза больше, чем люди;
  • вероятность продажи падает на 79%, если люди понимают, что говорят с роботом;
  • потребители воспринимают роботов как менее компетентных и эмпатичных.

Под катом – подробности исследования и инсайты от ученых. Приятного чтения!

Исследование: если покупатель понимает, что говорит с чат-ботом, то покупка не состоится вовсе - 1

Читать полностью »

Что такое End2End-распознавание речи, и зачем же оно нужно? В чем его отличие от классического подхода? И почему для обучения хорошей модели на основе End2End нам потребуется огромное количество данных — в нашем сегодняшнем посте.

Классический подход к распознаванию речи

Прежде чем рассказать про End2End-подход, стоит сначала поговорить про классический подход к распознаванию речи. Что он из себя представляет?

End2End-подход в задачах Automatic Speech Recognition - 1
Читать полностью »

Распознавание эмоций с помощью сверточной нейронной сети - 1

Распознавание эмоций всегда было захватывающей задачей для ученых. В последнее время я работаю над экспериментальным SER-проектом (Speech Emotion Recognition), чтобы понять потенциал этой технологии – для этого я отобрал наиболее популярные репозитории на Github и сделал их основой моего проекта.

Прежде чем мы начнем разбираться в проекте, неплохо будет вспомнить, какие узкие места есть у SER.
Читать полностью »

Специалисты МТИ создали нейросеть, которая воссоздает внешность человека по голосу - 1

23 мая исследователи Массачусетского технологического института в сотрудничестве с командой Google AI представили итоги работы над нейросетью Speech2Face, которая может по короткой аудиозаписи со звучащей речью реконструировать внешность говорящего. Разработчики не преследовали цели добиться точного сходства – проект носил экспериментальный характер и был призван показать, какой объем информации о человеке можно получить, прослушивая его голос.
Читать полностью »

ИИ Microsoft генерирует реалистичную речь с минимальным обучением - 1

В своем новом проекте компании Microsoft удалось значительно усовершенствовать технологии генерации речи. Разработанную нейросеть отличает естественное произношение, практически неотличимая от человеческой, и малый объем размеченной выборки, необходимой для обучения.
Читать полностью »

Привет. Меня зовут Алексей Рак, я разработчик голосового помощника Алиса в минском офисе Яндекса. Эту позицию я получил, пройдя здесь, в этой же команде, трехмесячную стажировку в прошлом году. О ней я и собираюсь вам рассказать. Если хотите сами попробовать — вот ссылка на стажировку 2019 года.

Как я помогал Алисе не откликаться на другие имена. Стажировка в Яндексе - 1

Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js