Зачем писать дневник, если можно его надиктовывать? Казалось бы, здравая мысль, но как потом с ним работать? И нужен ли он вообще в таком виде? Сейчас есть довольно большое количество программ, которые сразу сделают speech‑to‑text, и проблемы не будет. А что, если такая идея возникла «‑дцать» лет назад, когда деревья были большими, а в телефонах только‑только появилась функция «диктофон»? За многие годы в нашей домашней аудиотеке накопилось более 30,000 таких записей. Пришла пора разложить всё по полкам, конечно же, с «преферансом и куртизанками».
Рубрика «speech-to-text»
30k аудиозаписей: наводим порядок
2024-11-14 в 6:37, admin, рубрики: audio processing, notion, notionapi, open source, speech-to-text, utilities, блек-джек и плюшкиСравнение систем распознавания русского языка 2024
2024-10-17 в 4:00, admin, рубрики: asr, silero, speech-to-text, STT, tinkoff, Voice Kit, Yandex, распознавание речи, речевые технологииПосле значительной паузы, опять пришло время обновить наше исследование (прошлое, позапрошлое) качества систем распознавания русского языка. Опять же, мы не думали, что добежим до этого момента и были удивлены результатами.
В этот раз ситуация такая:
Vosk vs Whisper — сравнение на raspberry pi 4b
2024-09-27 в 10:04, admin, рубрики: Raspberry Pi, speech-to-textВ статье предлагается рассмотреть работу младших моделей преобразования речи в текст на edge устройстве — raspberry pi 4b. Фраза будет непростая, хоть и короткая — в ней будут элементы и русской, и английской речи. В соревновательный состав войдут представители семейства whisper: whisper, whisper-cpp, whisper-jax и vosk. Будет проведена оценка скорости и точности работы. Также, в качестве бонуса, будет предпринята попытка перевести фразу с таджикского языка на русский с помощью vosk.
Читать полностью »
Наши сервисы для бесплатного распознавания речи стали лучше и удобнее
2022-03-03 в 10:46, admin, рубрики: asr, natural language processing, silero, speech-to-text, голосовые интерфейсы, звук, машинное обучение, Развитие стартапа, распознавание речи
Сейчас для всех желающих доступны два наших сервиса для распознавания речи:
- Бот в телеграме для коротких и не очень длинных аудио (мы не стали обходить ограничения телеграма, основная задача бота — распознавать голосовые сообщения);
- Сервис audio-v-text.silero.ai для более длинных аудио, в котором можно скачать отчет в виде эксельки.
Сервис написан нашими собственными силами, работает на нашем собственном движке распознавания речи, без проксирования во внешние сервисы и с минимально возможным количеством зависимостей. В случае нарушения связности возможен оперативный перевод хостинга в другие регионы.
Мы провели и продолжаем работу над ошибками и внесли ряд улучшений для пользователей, о которых мы бы хотели рассказать.
Мы опубликовали современные STT модели сравнимые по качеству с Google
2020-09-17 в 16:48, admin, рубрики: big data, speech-to-text, STT, звук, машинное обучение, Развитие стартапа
Мы наконец опубликовали наш набор высококачественных пре-тренированных моделей для распознавания речи (т.е. сравнимых по качеству с премиум-моделями Google) для следующих языков:
- Английский;
- Немецкий;
- Испанский;
Вы можете найти наши модели в нашем репозитории вместе с примерами и метриками качества и скорости. Мы также постарались сделать начало работы с нашими моделями как можно более простым — выложили примеры на Collab и чекпойнты для PyTorch, ONNX и TensorFlow. Модели также можно загружать через TorchHub.
Чем грозит преждевременная автоматизация
2017-06-28 в 12:29, admin, рубрики: speech-to-text, text-to-speech, автоматизация, Блог компании UIS, виртуальная АТС, обработка звонков, распознавание речи, сценарии использования, телефония, Управление продажами, управление проектами
Оды автоматизации на основе технологий перевода речи в текст и обратно не утихают. Кто только не хвалится тем, как оптимизировал бизнес и сократил издержки. Да взять хотя бы нас самих: не только автоматизируем собственные процессы, а еще и другим помогаем. Но важно понимать, что автоматизация не только полезна, но и вредна. Под катом пара примеров второго вида (без имен, разумеется) плюс чек-лист, с помощью которого удастся не превратить первое во второе.
Учим робота слушать разговоры
2017-05-25 в 10:19, admin, рубрики: speech-to-text, Блог компании UIS, виртуальная АТС, запись разговоров, контроль качества, машинное обучение, обработка звонков, Разработка систем связи, распознавание речи, Семантика, сценарии использования, телефония
В ручном режиме контролировать все коммуникации — задача трудоемкая и, кроме того, малоэффективная. И мы решили ее автоматизировать. Для этого пришлось обучить нашу Виртуальную АТС новым трюкам. Технологию Text-to-speech мы внедрили давно, теперь же взялись за обратный процесс.