Рубрика «распознавание речи» - 5

Нейросеть LipNet читает по губам с точностью 93,4% - 1
Командир Дэйв Боумен и второй пилот Фрэнк Пул, не доверяя компьютеру, решили отключить его от управления кораблём. Для этого они совещаются в звукоизолированной комнате, но HAL 9000 читает их разговор по губам. Кадр из фильма «Космическая одиссея 2001 года»

Чтение по губам играет важную роль в общении. Ещё эксперименты 1976 года показали, что люди «слышат» совершенно другие фонемы, если наложить неправильный звук на движение губ (см. "Hearing lips and seeing voices", Nature 264, 746-748, 23 December 1976, doi: 10.1038/264746a0).

С практической точки зрения чтение по губам — важный и полезный навык. Можно понимать собеседника не выключая музыку в наушниках, читать разговоры всех людей в поле зрения (например, всех пассажиров в зале ожидания), прослушивать людей в бинокль или подзорную трубу. Область применения навыка очень широка. Освоивший его профессионал без труда найдёт высокооплачиваемую работу. Например, в сфере безопасности или конкурентной разведке.
Читать полностью »

Пойми меня, если сможешь - 1
На прошлой неделе мы получили письмо от одного кандидата, не прошедшего собеседование на английском. Оказалось, что наши коллеги стали участниками технического эксперимента, проходившего параллельно с интервью. Приводим письмо с минимальными правками и благодарим автора за интересную идею и смелость в ее реализации.

«Полагаю, я вам не подхожу, так как «завалил» тест английского языка, к сожалению. Да, я не имею хорошей практики разговорного английского, но это мне не мешает читать data sheet’ы и общаться с зарубежной поддержкой по почте. Собственно сейчас не об этом, зная заранее, что я не пройду тест на знание языка, я не мог не воспользоваться шансом применить технический подход к данной проблеме. Хотя у меня не было возможности вживую проверить свой метод заранее, тем более в общении с человеком, хорошо владеющим английским и чувствующим особенности произношения, я решил попробовать.

Должен принести извинения за эксперимент сотруднику, проводившему тест, и за не не очень хорошее качество звука, связанное с техническими особенностями «моего» комплекса.Читать полностью »

imageДоводилось ли вам сталкиваться с системами искусственного интеллекта? Полагаем, ответ большинства хабравчан будет положительным. Ведь ИИ уже перестал быть «чем-то за гранью фантастики». Системы распознавания речи Siri, IBM Watson, ViaVoice, виртуальные игроки Deep Blue, AlphaGo и даже такие ранние системы, как MYCIN, разработанная в 1970-х годах в Стэнфордском университете и предназначенная для диагностирования бактерий, вызывающих тяжелые инфекции, а также для рекомендации необходимого количества антибиотиков — все это вариации на тему ИИ. Но, несмотря на то, что технологии стремительно набирают ход, современные системы все еще весьма «угловаты», и главная проблема, с которой сталкиваются исследователи, — это языковое обучение. Заставить систему говорить не сложно, но объяснить ей «физику» окружающего мира — то, что человек понимает на интуитивном уровне — пока не удавалось никому.

Тема языковой проблемы искусственного интеллекта широко раскрывается в статье Уилла Найта, главного редактора AI MIT Technology Review, которую специалисты PayOnline, системы автоматизации приема онлайн-платежей, старательно перевели для пользователей Хабрахабра. Ниже представляем сам перевод.

Примерно в середине крайне напряженной игры в Го, проходившей в южнокорейском Сеуле, участниками которой были один из лучших игроков всех времен Ли Седоль и созданный Google искусственный интеллект под названием AlphaGo, программа сделала загадочный шаг, продемонстрировавший пугающее преимущество над своим человеческим оппонентом.
Читать полностью »

imageВ рамках ежегодной конференции LSA 16 представитель компании-разработчика интеллектуальных интерфейсов MindMeld Тимоти Татл заявил о том, что лишь за последний год использование голосового поиска в общей доле веб-поиска возросло с 0 до 10%.

По данным Kleiner Perkins Caufield & Byers, более 25% поисковых сессий пользователей в панели Windows 10 осуществлялось при помощи голосового взаимодействия с интерфейсом.

Изображение с сайта bbc.com

Столь ощутимый рост популярности голосового поиска можно объяснить заметным улучшением функционала персональных ассистентов и быстрым развитием технологий.

Мировой рынок интеллектуальных ассистентов с 2012 года по 2014 год вырос с $352 миллиона до $572,2 миллиона. К 2020 году ожидается рост рынка до $3,07 миллиарда, что составит 31% по сравнению с ростом в 2013 году.Читать полностью »

image

Apple показала на WWDC 2016 новые iOS 10 и macOS Sierra, и я не упустил возможность сразу же обновить свои устройста.

Одно из ключевых обновлений — появление SiriKit для разработчиков, теперь у нас с вами есть возможность использовать Siri в собственных приложениях. И мы сегодня сделаем наше первое приложение с поддержкой Siri (исходники проекта в конце статьи)
Читать полностью »

«Отец» Сири показал более умную девушку-помощника по имени Вив - 1
Текущий каталог знаний Вив о вине: это маленькая часть смыслового графа программы

Вчера на конференции TechCrunch Disrupt состоялась презентация Дага Киттлауса (Dag Kittlaus) — создателя и в прошлом ведущего разработчика программы Siri.

Киттлаус рассказал о прогрессе в разработке нового интеллектуального чатбота — девушки Вив, которая сильно превосходит старую Сири по умственным возможностям. Разработчик продемонстрировал, на какие сложные вопросы отвечает Вив, как она плотно работает со сторонними приложениями и API, насколько лучше у неё память по сравнению с забывчивой и легкомысленной Сири.
Читать полностью »

Определено новое универсальное выражение лица, понятное всем людям на Земле - 1
Визуальные маркеры, соответствующие негативной моральной оценке: гнев (A), отвращение (B), презрение (С), а также комбинация маркеров этих трёх эмоций (D) — выражение "Not Face" («Не-а»)

Мимика играет важную роль в человеческой коммуникации, без слов передавая собеседнику информацию о конкретных эмоциях: радость, удивление, презрение и т.д.

Многие выражения лиц понятны всем людям на Земле, независимо от культуры и расы: улыбка есть улыбка в любом уголке Земли. Теперь же американские учёные из университета штата Огайо впервые экспериментально доказали существование выражения лица, которое заменяет конкретную словесную фразу из любого языка на планете. Выражение "Not Face" сочетает визуальные маркеры трёх известных эмоций: гнев, отвращение и презрение. Это сведённые брови (код AU 4 в лицевой морфологии), поднятый подбородок (AU 17), сжатые губы (AU 24) и напряжение одного или двух уголков губ за счёт щёчной мышцы (AU 14). В совокупности такое универсальное выражение заменяет фразу «Нет, я не согласен» или, кратко, междометие «Не-а» (Nope).
Читать полностью »

Google открывает API для распознавания речи на 80 языках - 1Компания Google сделала подарок сторонним разработчикам — и открыла доступ к программным интерфейсам Cloud Speech API. В первое время доступ предоставляется на бесплатной основе, тарифы объявят позже.

Распознавание речи работает для 80 языков. Возможно распознавание речи в прямом эфире через микрофон или аудиозаписей из файлов (вероятно, до 2 минут). Поддерживаются многочисленные форматы, в том числе FLAC, AMR и PCMU.

Теперь для любой программы можно встроить, например, голосовое управление через Cloud Speech API. Система выдаёт распознанный текст мгновенно в процессе работы.
Читать полностью »

«Мегафон» использует технологии распознавания речи «Яндекса» для работы виртуального консультанта, пишут «Ведомости» со ссылкой на представителей компаний. Стоимость сделки не раскрывают, но в «Яндексе» оценивают это как крупнейший в России контракт в этой сфере.

Пока проект реализован для Московского региона, Читать полностью »

Microsoft выложила на Github инструментарий CNTK для глубинного обучения - 1

Microsoft выложила в открытый доступ исходный код инструментов, которые используются в компании для ускорения разработок в области искусственного интеллекта: набор Computational Network Toolkit опубликован на Github.
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js