Рубрика «speech-to-text»

Станет ли ИИ катастрофой для сквозного шифрования?

2025-01-22 в 13:01, admin, рубрики: ruvds_перевод, speech-to-text, правоохранительные органы, сквозное шифрование, слежка за гражданами, тайна переписки, шифрование данных

Недавно я обнаружил потрясающую новую статью How to think about end-to-end encryption and AI, написанную группой исследователей из Нью-Йоркского и Корнеллского университетов. Я очень рад прочтению этой статьи, потому что, хоть не согласен со всеми её выводами, она стала первой попыткой ответа на невероятно важные вопросы.

С одной стороны, максимума мой интерес к этой теме достиг, когда были разработаны системы ИИ-помощников наподобие защиты от мошеннических звонков Google и Apple Intelligence. Обе эти системы нацелены на то, чтобы ИИ был задействован практически во всех частях телефона, даже в личных сообщениях. С другой стороны, я размышлял о негативном влиянии ИИ на конфиденциальность из-за недавних европейских обсуждений законов об обязательном сканировании контента, благодаря которым системы машинного обучения смогут сканировать все отправляемые личные сообщения.

Несмотря на различия этих двух аспектов, я пришёл к мнению, что в конечном итоге они сведутся к одному. А поскольку меня больше десятка лет волнует шифрование и обсуждения «криптовойн», я был вынужден начать задавать неприятные вопросы о будущем сквозного шифрования. Возможно, даже вопросы о том, есть ли у него будущее.

Но давайте начнём с чего-то попроще.Читать полностью »

30k аудиозаписей: наводим порядок

2024-11-14 в 6:37, admin, рубрики: audio processing, notion, notionapi, open source, speech-to-text, utilities, блек-джек и плюшки

Зачем писать дневник, если можно его надиктовывать? Казалось бы, здравая мысль, но как потом с ним работать? И нужен ли он вообще в таком виде? Сейчас есть довольно большое количество программ, которые сразу сделают speech‑to‑text, и проблемы не будет. А что, если такая идея возникла «‑дцать» лет назад, когда деревья были большими, а в телефонах только‑только появилась функция «диктофон»? За многие годы в нашей домашней аудиотеке накопилось более 30,000 таких записей. Пришла пора разложить всё по полкам, конечно же, с «преферансом и куртизанками».

Читать полностью »

Сравнение систем распознавания русского языка 2024

2024-10-17 в 4:00, admin, рубрики: asr, silero, speech-to-text, STT, tinkoff, Voice Kit, Yandex, распознавание речи, речевые технологии

После значительной паузы, опять пришло время обновить наше исследование (прошлое, позапрошлое) качества систем распознавания русского языка. Опять же, мы не думали, что добежим до этого момента и были удивлены результатами.

В этот раз ситуация такая:

Читать полностью »

Vosk vs Whisper — сравнение на raspberry pi 4b

2024-09-27 в 10:04, admin, рубрики: Raspberry Pi, speech-to-text

В статье предлагается рассмотреть работу младших моделей преобразования речи в текст на edge устройстве — raspberry pi 4b. Фраза будет непростая, хоть и короткая — в ней будут элементы и русской, и английской речи. В соревновательный состав войдут представители семейства whisper: whisper, whisper-cpp, whisper-jax и vosk. Будет проведена оценка скорости и точности работы. Также, в качестве бонуса, будет предпринята попытка перевести фразу с таджикского языка на русский с помощью vosk.
Читать полностью »

Наши сервисы для бесплатного распознавания речи стали лучше и удобнее

2022-03-03 в 10:46, admin, рубрики: asr, natural language processing, silero, speech-to-text, голосовые интерфейсы, звук, машинное обучение, Развитие стартапа, распознавание речи

Сейчас для всех желающих доступны два наших сервиса для распознавания речи:

Бот в телеграме для коротких и не очень длинных аудио (мы не стали обходить ограничения телеграма, основная задача бота — распознавать голосовые сообщения);
Сервис audio-v-text.silero.ai для более длинных аудио, в котором можно скачать отчет в виде эксельки.

Сервис написан нашими собственными силами, работает на нашем собственном движке распознавания речи, без проксирования во внешние сервисы и с минимально возможным количеством зависимостей. В случае нарушения связности возможен оперативный перевод хостинга в другие регионы.

Мы провели и продолжаем работу над ошибками и внесли ряд улучшений для пользователей, о которых мы бы хотели рассказать.

Читать полностью »

Мы опубликовали современные STT модели сравнимые по качеству с Google

2020-09-17 в 16:48, admin, рубрики: big data, speech-to-text, STT, звук, машинное обучение, Развитие стартапа

Мы опубликовали современные STT модели сравнимые по качеству с Google - 1

Мы наконец опубликовали наш набор высококачественных пре-тренированных моделей для распознавания речи (т.е. сравнимых по качеству с премиум-моделями Google) для следующих языков:

Английский;
Немецкий;
Испанский;

Вы можете найти наши модели в нашем репозитории вместе с примерами и метриками качества и скорости. Мы также постарались сделать начало работы с нашими моделями как можно более простым — выложили примеры на Collab и чекпойнты для PyTorch, ONNX и TensorFlow. Модели также можно загружать через TorchHub.

	PyTorch	ONNX	TensorFlow	Качество
Английский (en_v1)	✓	✓	✓	ссылка
Немецкий (de_v1)	✓	✓	✓	ссылка
Испанский (es_v1)	✓	✓	✓	ссылка

Читать полностью »

Чем грозит преждевременная автоматизация

2017-06-28 в 12:29, admin, рубрики: speech-to-text, text-to-speech, автоматизация, Блог компании UIS, виртуальная АТС, обработка звонков, распознавание речи, сценарии использования, телефония, Управление продажами, управление проектами

Оды автоматизации на основе технологий перевода речи в текст и обратно не утихают. Кто только не хвалится тем, как оптимизировал бизнес и сократил издержки. Да взять хотя бы нас самих: не только автоматизируем собственные процессы, а еще и другим помогаем. Но важно понимать, что автоматизация не только полезна, но и вредна. Под катом пара примеров второго вида (без имен, разумеется) плюс чек-лист, с помощью которого удастся не превратить первое во второе.

Читать полностью »

Учим робота слушать разговоры

2017-05-25 в 10:19, admin, рубрики: speech-to-text, Блог компании UIS, виртуальная АТС, запись разговоров, контроль качества, машинное обучение, обработка звонков, Разработка систем связи, распознавание речи, Семантика, сценарии использования, телефония

В ручном режиме контролировать все коммуникации — задача трудоемкая и, кроме того, малоэффективная. И мы решили ее автоматизировать. Для этого пришлось обучить нашу Виртуальную АТС новым трюкам. Технологию Text-to-speech мы внедрили давно, теперь же взялись за обратный процесс.

Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «speech-to-text»

Станет ли ИИ катастрофой для сквозного шифрования?

30k аудиозаписей: наводим порядок

Сравнение систем распознавания русского языка 2024

Vosk vs Whisper — сравнение на raspberry pi 4b

Наши сервисы для бесплатного распознавания речи стали лучше и удобнее

Мы опубликовали современные STT модели сравнимые по качеству с Google

Чем грозит преждевременная автоматизация

Учим робота слушать разговоры

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «speech-to-text»

Новости

Актуальные темы

Архив