За последние два месяца сфера технологий в России претерпела множество изменений. Крупные корпорации, да и в целом бизнес IT выходит из страны так стремительно, что порой кажется, что это невозможно, ведь уходят даже такие столпы, которые инвестировали в нашу страну больше, чем во все остальные вместе взятые. И вот одной из немногих в этом списке стоит корпорация добра -- Google. Сразу отмечу, что статья будет ориентирована на технологии и эту часть, политическую сторону вопроса обсуждать не будем. Все данные и предположения являются точкой зрения автора и направлены на обсуждение картины, которую пока никто описывать не хочет.
Рубрика «голосовые интерфейсы» - 2
Уход Google из России — контрольный выстрел в голову технологий страны?
2022-04-10 в 19:57, admin, рубрики: apple, Google, googlepay, mirpay, pixel, wearos, Yandex, будущее здесь, гаджеты, голосовые интерфейсы, платежные системы, Россия, санкции, смартфоны, технологииЧто такое компьютерная лингвистика и как технологии на её основе помогают людям с ограниченными возможностями здоровья
2022-03-19 в 16:19, admin, рубрики: data engineering, natural language processing, nlp, nlp (natural language processing), Блог компании Нетология, голосовые интерфейсы, искусственный интеллект, Компьютерная лингвистика, лингвистика, лингвистическое поМногие из нас ежедневно пользуются поисковыми системами, голосовыми помощниками и переводчиками текстов. Появление этих технологий стало возможным благодаря компьютерной лингвистике — области искусственного интеллекта, которая занимается описанием естественных языков при помощи математических моделей. Рассказываем, что такое компьютерная лингвистика и обработка естественного языка, какие задачи они решают и как помогают расширять возможности людей с инвалидностью.
Благодарим Елену Герасимову, руководителя отдела дополнительного профессионального образования в Нетологии, ранее руководившую направлением «Читать полностью »
Наши сервисы для бесплатного распознавания речи стали лучше и удобнее
2022-03-03 в 10:46, admin, рубрики: asr, natural language processing, silero, speech-to-text, голосовые интерфейсы, звук, машинное обучение, Развитие стартапа, распознавание речи
Сейчас для всех желающих доступны два наших сервиса для распознавания речи:
- Бот в телеграме для коротких и не очень длинных аудио (мы не стали обходить ограничения телеграма, основная задача бота — распознавать голосовые сообщения);
- Сервис audio-v-text.silero.ai для более длинных аудио, в котором можно скачать отчет в виде эксельки.
Сервис написан нашими собственными силами, работает на нашем собственном движке распознавания речи, без проксирования во внешние сервисы и с минимально возможным количеством зависимостей. В случае нарушения связности возможен оперативный перевод хостинга в другие регионы.
Мы провели и продолжаем работу над ошибками и внесли ряд улучшений для пользователей, о которых мы бы хотели рассказать.
Ирина — опенсорс русский голосовой помощник. Offline-ready
2022-02-07 в 11:58, admin, рубрики: offline, open source, python, голосовой помощник, голосовые интерфейсы-- Ирина, таймер...
-- Ставлю таймер на пять минут.
Вполне себе обыденная история из моего быта. Я таки сделал собственного автономного голосового помощника.
TL;DR> Ирина вполне неплохо работает дома 24x7.
Потребуется установить Python 3.5+ и зависимости через pip (немного знаний Python).
Скиллы "из коробки": таймер, погода, контроль медиа (громче/тише/дальше), контроль плеера MPC-HC, запуск медиа из папки, расписание ближайших электричек, "подбрось кубик/монетку".
Плагинами добавляются: другие скиллы, Text-to-Speech и Speech-to-Text движки.
Мотивация
Шёпот и эмоции в Алисе: история развития голосового синтеза Яндекса
2021-12-08 в 8:06, admin, рубрики: алиса, Блог компании Яндекс, голосовые интерфейсы, голосовые помощники, искусственный интеллект, история звука, команда алисы, машинное обучение, Научно-популярное, шепотЧетыре года назад мы запустили Алису. С самого начала она обладала собственным, узнаваемым голосом. Хотя проблемы тоже были: интонации хромали, эмоции скакали от слова к слову, а омонимы и вовсе ставили синтез в тупик. Алиса звучала пусть и не как робот, но ещё и не как человек.
Исследования показывают, что желание общаться с голосовым помощником напрямую зависит от того, насколько точно он имитируют речь людей. Поэтому мы постоянно работаем над «очеловечениванием» голоса Алисы. С тех пор сменилось несколько поколений нашего голосового синтеза. Мы научились расставлять интонации, отличать «замОк» от «зАмка» и многое другое.
Сейчас мы переходим на следующий уровень: учим Алису управлять эмоциями и стилем своей речи, распознавать шёпот и отвечать на него шёпотом. Казалось бы, что в этом сложного и почему всё это было невозможно ещё несколько лет назад? Вот об этом я и расскажу сегодня сообществу Хабра.
Читать полностью »
Telegram-бот Silero бесплатно переводит речь в текст
2021-11-25 в 12:40, admin, рубрики: silero, speech recognition, telegram, голосовые интерфейсы, искусственный интеллект, машинное обучение, мессенджеры, Развитие стартапа, распознавание речи, телеграм-бот
Мы сделали бесплатного телеграм-бота, который переводит аудио в текст. В отличие от нашего бесплатного публичного решения для транскрибации длинных аудио, этот бот скорее настроен для удобства работы с короткими голосовыми сообщениями, заметками и аудио средней длины (несколько минут).
Боту можно послать аудио как напрямую, так и добавить в группу. В группе бот будет реагировать на все аудиофайлы (но сообщения об ошибках выводиться не будут). Более подробно об ограничениях и особенностях работы можно узнать в методах /help
и /faq
.
Основная UX фишка работы бота — проработанный и удобный формат чтения и навигации по распознанным сообщениям и заметкам (а не стена текста).
Мы сделали наш публичный синтез речи еще лучше
2021-06-18 в 10:40, admin, рубрики: natural language processing, text-to-speech, TTS, голосовые интерфейсы, звук, машинное обучение, синтез речи
Мы были очень рады, что наша прошлая статья понравилась Хабру. Мы получили много позитивной и негативной обратной связи. Также в ней мы сделали ряд обещаний по развитию нашего синтеза.
Мы достигли существенного прогресса по этим пунктам, но ультимативный релиз со всеми новыми фичами и спикерами может занять относительно много времени, поэтому не хотелось бы уходить в радиомолчание надолго. В этой статье мы ответим на справедливую и не очень критику и поделимся хорошими новостями про развитие нашего синтеза.
Если коротко:
- Мы сделали наш вокодер в 4 раза быстрее;
- Мы сделали пакетирование моделей более удобным;
- Мы сделали мультиспикерную / мультязычную модель и "заставили" спикеров говорить на "чужих" языках;
- Мы добавили в наши русские модели возможность автопростановки ударений и буквы ё с некоторыми ограничениями;
- Теперь мы можем сделать голос с нормальным качеством на 15 минутах — 1 часе (с теплого старта в принципе заводилось даже на 3-7 минутах) или на 5 часах аудио (с холодного старта). Но тут все очень сильно зависит от качества самого аудио и ряда деталей;
- Мы привлекли коммьюнити к работе, и нам помогли сделать удобный интерфейс для записи. Мы начали работу над голосами на языках народностей СНГ (украинский, татарский, башкирский, узбекский, таджикский). Если вы хотите увидеть свой язык в числе спикеров — пишите нам;
- Мы продолжаем собирать обратную связь по применимости нашей системы для экранных интерфейсов чтения, и пока кажется, что нужно где-то еще всё ускорить в 5-10 раз, чтобы наши модели закрывали и этот кейс;
Как из четырёх минут речи мы воссоздали голос молодого Леонида Куравлёва
2020-12-02 в 9:03, admin, рубрики: natural language processing, nlp (natural language processing), Блог компании Сбер, голосовые интерфейсы, голосовые технологии, машинное обучение, синтез речи, центр речевых технологийВсем привет! Меня зовут Олег Петров, я руковожу группой R&D в Центре речевых технологий. Мы давно работаем не только над распознаванием речи, но и умеем синтезировать голоса. Самый простой пример, для чего это нужно бизнесу: чтобы для каждого нового сценария, которому обучают голосовых роботов, не нужно было организовывать новую запись с человеком, который его когда-то озвучил. Ещё мы развиваем продукты на основе голосовой и лицевой биометрии и аналитики по голосовым данным. В общем, работаем над серьёзными и сложными задачами для разного бизнеса.
Но недавно к нам пришли коллеги из Сбера с предложением поучаствовать в развлекательной истории — «озвучить» героя Леонида Куравлёва в новом ролике. Для него лицо Куравлева было воссоздано по кадрам из фильма «Иван Васильевич меняет профессию» и наложено на лицо другого актера с помощью технологии Deepfake. Чтобы мы смогли не только увидеть, но и услышать в 2020 году Жоржа Милославского, мы решили помочь коллегам. Ведь с годами голос у всех нас меняется и даже если бы Леонид Вячеславович озвучил героя, эффект был бы не тот.
Под катом я расскажу, почему эта, уже во многом привычная задача голосового синтеза, оказалась чуть сложнее, чем мы ожидали, и поясню, почему такие голоса не смогут обмануть качественные системы биометрической авторизации.
Читать полностью »
Современное SEO: качество страниц
2020-10-02 в 22:40, admin, рубрики: amp, Google Web Toolkit, seo, веб-дизайн, голосовые интерфейсы, оптимизация, оптимизация сайта, поисковая оптимизация, поисковые системы, Разработка веб-сайтовВ конце мая с. г. в Google сообщили, что теперь они намерены в алгоритм ранжирования сайтов ввести понятие "качества страницы" (page experienceЧитать полностью »
Помощник или инспектор: по ком звонит робот?
2020-05-14 в 7:16, admin, рубрики: Infobot, Блог компании КРОК, голосовой помощник, голосовые интерфейсы, КРОК, Развитие стартапа, удаленная работа, удаленное управление, управление персоналом
Привет! Я тимлид группы продуктовых инноваций в КРОК. Технарём меня назвать можно с большой натяжкой, но зато я много общаюсь с разработчиками, техническими менеджерами, продажниками. И надеюсь, мы друг друга неплохо понимаем. Мы много работаем со стартапами, помогаем им с масштабированием продаж, в том числе через акселератор. Но сейчас не об этом. Неожиданно случилось так, что нам и многим нашим клиентам пришлось быстро менять свои планы и искать новые формы сотрудничества. Да-да, всё из-за вируса. Расскажу вам, какой инструмент мы придумали, чтобы сделать переход на удалёнку безболезненным и эффективным.
Весна 2020. Офлайн под запретом, люди сидят по домам, а работать всё равно нужно. А также – проверять, стимулировать и подбадривать сотрудников. Но даже если ваш босс Многорукий Шива, вряд ли ему хватит конечностей, чтобы держать их на пульсе каждого. Невозможно быть одновременно начальником, помощником, а иногда и психологом для большого коллектива. А почему бы и нет, – решили мы с Infobot и сделали робота-секретаря, робота-мотиватора, робота-трекера! В общем, называйте, как хотите, но это правда всё о нём.Читать полностью »