Рубрика «asr»
Трансформация рабочих процессов с помощью нейросетей
2025-09-22 в 8:10, admin, рубрики: asr, llm, nlp, ИИ, ии-ассистентПривет!
Ранее в блоге компании АСКОН я уже делился подборкой инструментов, которые использую в своей повседневной работе. Сегодня хочу продолжить эту тему и рассказать, как нейросети поменяли мой рабочий процесс, какие задачи они помогают решать, и почему вам не обязательно быть ML-инженером, чтобы эффективно использовать ИИ на практике. А кроме того расскажу, как с помощью нейросетей добавляют полезный функционал в инженерное программное обеспечение.
Qwen3-ASR-Toolkit: бесплатный инструмент для транскрипции аудио любой длительности
2025-09-21 в 15:18, admin, рубрики: api, asr, cli, ffmpeg, python, qwen3, speech-to-text, распознавание речи, транскрибирование
Команда Alibaba Cloud выпустила Qwen3-ASR-Toolkit — открытый инструмент для транскрипции аудио- и видеофайлов любой длительности. Решение построено на базе модели Qwen3-ASRЧитать полностью »
Бенчмарк качества распознавания речи (ASR) в телефонии: как мы сравниваемся с Whisper, GigaAM и T-One
2025-08-19 в 6:13, admin, рубрики: asr, llm, speech recognition, бенчмарки, звонки, распознавание речи, распознавание русской речи, телефония, языковые моделиПривет! Распознаванием речи (ASR) уже никого не удивишь, но качественное распознавание на разговорном русском языке, а особенно в телефонии — очень сложная штука: люди редко говорят как профессиональные дикторы, часто бывает плохое качество звука с постоянными шумами на фоне и в целом есть миллиарды прочих нюансов. Наша компания занимается голосом больше 8 лет, есть собственные классные модели синтеза, распознавания и продукты на их основе, поэтому экспериментов мы проводим очень много и за появлением новых голосовых моделей следим очень внимательно.
T-one — открытая русскоязычная потоковая модель для телефонии
2025-07-22 в 10:52, admin, рубрики: asr, speech, streaming, STT, telephony, распознавание речи
Всем привет! Я Андрей, ML-разработчик из команды распознавания речи в Т-Банке. Мы занимаемся полным циклом разработки: сбором и разметкой данных, проведением экспериментов по обучению моделей, интеграцией в продакшен.
Сравнение систем распознавания русского языка 2024
2024-10-17 в 4:00, admin, рубрики: asr, silero, speech-to-text, STT, tinkoff, Voice Kit, Yandex, распознавание речи, речевые технологии
После значительной паузы, опять пришло время обновить наше исследование (прошлое, позапрошлое) качества систем распознавания русского языка. Опять же, мы не думали, что добежим до этого момента и были удивлены результатами.
В этот раз ситуация такая:
Moshi: GPT4-O voice mode дома (обзор)
2024-09-24 в 14:33, admin, рубрики: AI, asr, Audio, large language model, llm, ml, nlu, sound, TTSIntro
Прежде чем приступать к самому обзору, хотелось бы обозначить отличительные черты подхода, относительно большинства диалоговых систем:
Текущие системы работают в каскадной манере: сначала «активационное» слово, затем аудио переводится в текст (ASR), текст обрабатывается и анализируется, и, наконец, ответ генерируется через TTS. Однако это медленно, теряет эмоции и «живость» разговора, и, что самое важное, все взаимодействие происходит через жесткое чередование говорящих — сначала ты, потом я, и так далее.
-
Moshi не опирается на сложные каскадные пайплайны (ASR, NLU, TTS), а объединяет все эти функции Читать полностью »
ARM представила апскейлер ASR, который превосходит даже FSR от AMD
2024-08-22 в 7:45, admin, рубрики: amd, asr, fsr, xcom-shop, апскейлинг
В мире графических технологий произошло значимое событие: компания ARM анонсировала свой собственный апскейлер под названием Arm Accuracy Super Resolution (ASR)Читать полностью »
AI доступный каждому разработчику
2023-08-01 в 11:14, admin, рубрики: AI, asr, chatgpt, TTS, искусственный интеллект, машинное обучение, ПрограммированиеДолгое время я прекрасно обходился без использования технологий искусственного интеллекта. Одни задачи можно было реализовать без всякого ИИ, а для других или готовых моделей не было или это были какие-то коммерческие облачные API.
В последнее время всё сильно изменилось и волна популярности искусственного интеллекта принесла множество крутейших моделей, позволяющих реализовать новые идеи или переосмыслить старые.
Казалось бы, есть и локально запускаемые аналоги ChatGPT или сервисов генерации изображений. Есть библиотеки типа Читать полностью »
Наши сервисы для бесплатного распознавания речи стали лучше и удобнее
2022-03-03 в 10:46, admin, рубрики: asr, natural language processing, silero, speech-to-text, голосовые интерфейсы, звук, машинное обучение, Развитие стартапа, распознавание речи
Сейчас для всех желающих доступны два наших сервиса для распознавания речи:
- Бот в телеграме для коротких и не очень длинных аудио (мы не стали обходить ограничения телеграма, основная задача бота — распознавать голосовые сообщения);
- Сервис audio-v-text.silero.ai для более длинных аудио, в котором можно скачать отчет в виде эксельки.
Сервис написан нашими собственными силами, работает на нашем собственном движке распознавания речи, без проксирования во внешние сервисы и с минимально возможным количеством зависимостей. В случае нарушения связности возможен оперативный перевод хостинга в другие регионы.
Мы провели и продолжаем работу над ошибками и внесли ряд улучшений для пользователей, о которых мы бы хотели рассказать.
