Рубрика «asr»

Разработка автономного речевого тренажёра для обучения иностранным языкам на основе больших языковых моделей

2025-10-25 в 13:15, admin, рубрики: asr, cloud, llm-модели, speech recognition, speech-to-text, TTS, Yandex.Cloud

Читать полностью »

Трансформация рабочих процессов с помощью нейросетей

2025-09-22 в 8:10, admin, рубрики: asr, llm, nlp, ИИ, ии-ассистент

Привет!

Ранее в блоге компании АСКОН я уже делился подборкой инструментов, которые использую в своей повседневной работе. Сегодня хочу продолжить эту тему и рассказать, как нейросети поменяли мой рабочий процесс, какие задачи они помогают решать, и почему вам не обязательно быть ML-инженером, чтобы эффективно использовать ИИ на практике. А кроме того расскажу, как с помощью нейросетей добавляют полезный функционал в инженерное программное обеспечение.

Читать полностью »

Qwen3-ASR-Toolkit: бесплатный инструмент для транскрипции аудио любой длительности

2025-09-21 в 15:18, admin, рубрики: api, asr, cli, ffmpeg, python, qwen3, speech-to-text, распознавание речи, транскрибирование

Команда Alibaba Cloud выпустила Qwen3-ASR-Toolkit — открытый инструмент для транскрипции аудио- и видеофайлов любой длительности. Решение построено на базе модели Qwen3-ASRЧитать полностью »

Бенчмарк качества распознавания речи (ASR) в телефонии: как мы сравниваемся с Whisper, GigaAM и T-One

2025-08-19 в 6:13, admin, рубрики: asr, llm, speech recognition, бенчмарки, звонки, распознавание речи, распознавание русской речи, телефония, языковые модели

Привет! Распознаванием речи (ASR) уже никого не удивишь, но качественное распознавание на разговорном русском языке, а особенно в телефонии — очень сложная штука: люди редко говорят как профессиональные дикторы, часто бывает плохое качество звука с постоянными шумами на фоне и в целом есть миллиарды прочих нюансов. Наша компания занимается голосом больше 8 лет, есть собственные классные модели синтеза, распознавания и продукты на их основе, поэтому экспериментов мы проводим очень много и за появлением новых голосовых моделей следим очень внимательно.

Читать полностью »

T-one — открытая русскоязычная потоковая модель для телефонии

2025-07-22 в 10:52, admin, рубрики: asr, speech, streaming, STT, telephony, распознавание речи

Всем привет! Я Андрей, ML-разработчик из команды распознавания речи в Т-Банке. Мы занимаемся полным циклом разработки: сбором и разметкой данных, проведением экспериментов по обучению моделей, интеграцией в продакшен.

Читать полностью »

Сравнение систем распознавания русского языка 2024

2024-10-17 в 4:00, admin, рубрики: asr, silero, speech-to-text, STT, tinkoff, Voice Kit, Yandex, распознавание речи, речевые технологии

После значительной паузы, опять пришло время обновить наше исследование (прошлое, позапрошлое) качества систем распознавания русского языка. Опять же, мы не думали, что добежим до этого момента и были удивлены результатами.

В этот раз ситуация такая:

Читать полностью »

Moshi: GPT4-O voice mode дома (обзор)

2024-09-24 в 14:33, admin, рубрики: AI, asr, Audio, large language model, llm, ml, nlu, sound, TTS

Intro

Прежде чем приступать к самому обзору, хотелось бы обозначить отличительные черты подхода, относительно большинства диалоговых систем:

Текущие системы работают в каскадной манере: сначала «активационное» слово, затем аудио переводится в текст (ASR), текст обрабатывается и анализируется, и, наконец, ответ генерируется через TTS. Однако это медленно, теряет эмоции и «живость» разговора, и, что самое важное, все взаимодействие происходит через жесткое чередование говорящих — сначала ты, потом я, и так далее.

Moshi не опирается на сложные каскадные пайплайны (ASR, NLU, TTS), а объединяет все эти функции Читать полностью »

ARM представила апскейлер ASR, который превосходит даже FSR от AMD

2024-08-22 в 7:45, admin, рубрики: amd, asr, fsr, xcom-shop, апскейлинг

ASR хоть и ориентирована сугубо на мобильные платформы, ведет он себя абсолютно по-взрослому

В мире графических технологий произошло значимое событие: компания ARM анонсировала свой собственный апскейлер под названием Arm Accuracy Super Resolution (ASR)Читать полностью »

AI доступный каждому разработчику

2023-08-01 в 11:14, admin, рубрики: AI, asr, chatgpt, TTS, искусственный интеллект, машинное обучение, Программирование

Долгое время я прекрасно обходился без использования технологий искусственного интеллекта. Одни задачи можно было реализовать без всякого ИИ, а для других или готовых моделей не было или это были какие-то коммерческие облачные API.

В последнее время всё сильно изменилось и волна популярности искусственного интеллекта принесла множество крутейших моделей, позволяющих реализовать новые идеи или переосмыслить старые.

Казалось бы, есть и локально запускаемые аналоги ChatGPT или сервисов генерации изображений. Есть библиотеки типа Читать полностью »

Наши сервисы для бесплатного распознавания речи стали лучше и удобнее

2022-03-03 в 10:46, admin, рубрики: asr, natural language processing, silero, speech-to-text, голосовые интерфейсы, звук, машинное обучение, Развитие стартапа, распознавание речи

Сейчас для всех желающих доступны два наших сервиса для распознавания речи:

Бот в телеграме для коротких и не очень длинных аудио (мы не стали обходить ограничения телеграма, основная задача бота — распознавать голосовые сообщения);
Сервис audio-v-text.silero.ai для более длинных аудио, в котором можно скачать отчет в виде эксельки.

Сервис написан нашими собственными силами, работает на нашем собственном движке распознавания речи, без проксирования во внешние сервисы и с минимально возможным количеством зависимостей. В случае нарушения связности возможен оперативный перевод хостинга в другие регионы.

Мы провели и продолжаем работу над ошибками и внесли ряд улучшений для пользователей, о которых мы бы хотели рассказать.

Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «asr»

Разработка автономного речевого тренажёра для обучения иностранным языкам на основе больших языковых моделей

Трансформация рабочих процессов с помощью нейросетей

Qwen3-ASR-Toolkit: бесплатный инструмент для транскрипции аудио любой длительности

Бенчмарк качества распознавания речи (ASR) в телефонии: как мы сравниваемся с Whisper, GigaAM и T-One

T-one — открытая русскоязычная потоковая модель для телефонии

Сравнение систем распознавания русского языка 2024

Moshi: GPT4-O voice mode дома (обзор)

Intro

ARM представила апскейлер ASR, который превосходит даже FSR от AMD

AI доступный каждому разработчику

Наши сервисы для бесплатного распознавания речи стали лучше и удобнее