Рубрика «распознавание речи» - 4

С тех пор, как на сцену распознавания речи вышло глубинное обучение, количество ошибок в распознавании слов кардинально уменьшилось. Но, несмотря на все те статьи, которые вы могли читать, у нас до сих пор нет распознавания речи человеческого уровня. У распознавателей речи множество причин для отказов. Для прогресса необходимо принять их наличие и предпринять шаги по решению этих проблем. Это единственный способ перейти от распознавания, подходящего для некоторых людей большую часть времени, к распознаванию, работающему для всех людей всё время.

Задача распознавания речи пока не решена - 1

Улучшения в количестве ошибочно распознанных слов. Тестовый голосовой набор был собран на телефонном коммутаторе в 2000 году из 40 случайных разговоров двух человек, чей родной язык – английский

Говорить о том, что мы достигли уровня человека в распознавании речи в разговорах, основываясь лишь на наборе разговоров с телефонного коммутатора, это всё равно, что утверждать, что робомобиль водит не хуже человека, протестировав его в единственном городе в солнечный день без всякого уличного движения. Произошедшие в деле распознавания речи в последнее время сдвиги удивительны. Но заявления по поводу распознавания речи на уровне человека слишком смелы. Вот несколько областей, в которых всё ещё необходимо добиваться улучшений.
Читать полностью »

image

Когда Ганг Сюй, 46-летний житель Пекина, должен связаться со своим канадским арендатором об арендных платежах или счетах за электроэнергию, он открывает приложение под названием iFlytek Input в своём смартфоне и нажимает значок, похожий на микрофон, а затем начинает говорить. Программное обеспечение превращает его китайские слова в текстовые сообщения на английском языке и отправляет их канадскому арендатору. Оно также переводит английские текстовые сообщения арендатора на китайские, позволяя прозрачное общение.
Читать полностью »

Работа большинства специалистов по речевым технологиям состоит не в том, чтобы придумывать концептуально новые алгоритмы. Компании в основном фокусируются на существующих подходах. Машинный интеллект уже умеет распознавать и синтезировать голос, но не всегда в реальном времени, не всегда локально и не всегда «избирательно» — когда нужно реагировать только на ключевые фразы, робот может ошибаться. Подобными проблемами как раз и заняты разработчики. Муаммар Аль-Шедиват @Laytlas рассказывает об этих и других вопросах, которые пока не удаётся решить даже большим компаниям.

Читать полностью »

Голосовые интерфейсы в наши дни вездесущи. Во-первых — всё больше пользователей мобильных телефонов используют голосовых помощников, таких как Siri и Cortana. Во-вторых — устройства, вроде Amazon Echo и Google Home, становятся привычным элементом интерьера. Эти системы построены на базе программного обеспечения для распознавания речи, которое позволяет пользователям общаться с машинами с помощью голосовых команд. Теперь же эстафета, в обличье Web Speech API, переходит к браузерам.

image

Читать полностью »

image

 

Оды автоматизации на основе технологий перевода речи в текст и обратно не утихают. Кто только не хвалится тем, как оптимизировал бизнес и сократил издержки. Да взять хотя бы нас самих: не только автоматизируем собственные процессы, а еще и другим помогаем. Но важно понимать, что автоматизация не только полезна, но и вредна. Под катом пара примеров второго вида (без имен, разумеется) плюс чек-лист, с помощью которого удастся не превратить первое во второе.

Читать полностью »

image

 

В ручном режиме контролировать все коммуникации — задача трудоемкая и, кроме того, малоэффективная. И мы решили ее автоматизировать. Для этого пришлось обучить нашу Виртуальную АТС новым трюкам. Технологию Text-to-speech мы внедрили давно, теперь же взялись за обратный процесс.

Читать полностью »

Google AIY: мейкерский набор для создания гаджетов с голосовым управлением - 1

Компания Google запустила инициативу AIY Projects, чтобы совместить AI с DYI, то есть совместить программные приложения ИИ с наборами для сборки гаджетов. В результате, считает Google, мейкеры смогут изготовлять полезные устройства, которые помогут «решать реальные проблемы» в жизни. Эти гаджеты будут по-настоящему взаимодействовать с человеком. Например, распознавать речь, отвечать на вопросы и выполнять голосовые команды.

Первым проектом стал Voice Kit — демонстрационная система распознавания речи с подключением к Google Assistant (или без подключения). Как сказано в описании, в дополнении ко всем обычным функциям Google Assistant, тут вы сможете ещё добавлять в гаджет собственные пары вопросов и ответов. Приборчик выполнен в виде маленького картонного кубика с Rasberry Pi 3 внутри. Сборка набора из 12 деталей займёт примерно 1,5 часа.
Читать полностью »

Новый рекорд в распознавании речи: уровень ошибок алгоритма снижен до 5,5% - 1
IBM 100: Истоки работы над распознаванием речи

Обычный человек, в среднем, пропускает мимо внимания или неправильно распознает 1-2 слова из 20, произнесенных собеседником. В ходе пятиминутной беседы количество не расслышанных или неправильно распознанных человеком слов может достичь 80. Довольно много, правда? А что по поводу компьютеров — какой процент ошибок у них?

В прошлом году корпорация IBM заявила о новом рекорде в разработке технологий распознавания речи. Количество ошибок, допущенных сервисом, снизилось до 6,9%. С тех пор компания многое улучшила, что в 2017 году позволило добиться нового рекорда в 5,5%.
Читать полностью »

Распознавание речи с аппаратным ускорением. Специализированный ASIC потребляет менее 8 мВт - 1
Технические характеристики специализированной микросхемы ASIC для распознавания речи

Голосовые команды — самый естественный и удобный интерфейс для управления электроникой. Можно представить, что в будущем понимать команды хозяина будут практически все электронные приборы: от лампочек в квартире до холодильника, микроволновой печи и чайника на кухне. Соединённые в общую сеть Интернета вещей эти приборы будут не только понимать хозяина, но и согласовывать свои действия друг с другом.

В последние годы технологии распознавания речи достигли высокого уровня и созрели для различных коммерческих приложений: управление автомобильным компьютером, здравоохранение (ведение документации в цифровом виде по распознаванию речи врачей) и применение в армии. Например, в итальянском учебно-тренировочном самолёте M-346 и в американском истребителе-бомбардировщике F-35 точность систем распознавания речи достигает 98%. Но чтобы выполнять распознавание речи на бытовых приборах и носимой электронике, нужно кардинально снизить энергопотребление этого интерфейса.
Читать полностью »

Простейшее управление компьютером при помощи голоса - 1"
Если вас интересует, как помочь обездвиженному человеку управлять компьютером для общения с внешним миром – вам сюда. Если вам интересно, какое отношение к этому имеют мел-частотные кепстральные коэффициенты и нейронные сети – вам тоже сюда.
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js