Рубрика «speaker diarization»

Спецификация формата RTTM: полное техническое описание

2025-04-15 в 9:16, admin, рубрики: ASR разметка, RTTM, RTTM формат, speaker diarization, speech-to-text разметка, аннотация аудио, речевая разметка, речевые технологии, структура RTTM файла, формат NIST RTTM

Если бы у аудио был паспорт — он был бы в формате RTTM.

Предисловие

Совсем недавно, при подготовке данных для обучения модели диаризации я впервые всерьёз столкнулся с форматом RTTM, о котором прежде знал лишь поверхностно. Казалось бы, очередной текстовый формат, но именно он лежит в основе точной и структурированной разметки аудио: кто говорит, когда и как долго.

Именно тогда я понял, насколько ключевую роль играет RTTM в задачах автоматического анализа речи. Однако, попытавшись разобраться в его устройстве, я с удивлением обнаружил, что Читать полностью »

Диаризация на основе модели GMM-UBM и алгоритма MAP adaptation

2018-09-14 в 6:34, admin, рубрики: data science, gmm-ubm, map adaptation, python, speaker diarization, звук, машинное обучение

Привет. Я бы хотел рассказать об одном из подходов в решении задачи диаризации дикторов и показать, как этот метод можно реализовать на языке python. Чтобы не отпугивать читателя, я не буду приводить сложные математические формулы (отчасти потому что я и сам «не настоящий сварщик»), а постараюсь изложить всё простым языком и рассказать всё так, чтобы понял разработчик, никогда прежде не сталкивавшийся с машинным обучением.
Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «speaker diarization»

Спецификация формата RTTM: полное техническое описание

Предисловие

Диаризация на основе модели GMM-UBM и алгоритма MAP adaptation

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «speaker diarization»

Спецификация формата RTTM: полное техническое описание

Предисловие

Диаризация на основе модели GMM-UBM и алгоритма MAP adaptation

Новости

Актуальные темы

Архив