Если бы у аудио был паспорт — он был бы в формате RTTM.
Предисловие
Совсем недавно, при подготовке данных для обучения модели диаризации я впервые всерьёз столкнулся с форматом RTTM, о котором прежде знал лишь поверхностно. Казалось бы, очередной текстовый формат, но именно он лежит в основе точной и структурированной разметки аудио: кто говорит, когда и как долго.
Именно тогда я понял, насколько ключевую роль играет RTTM в задачах автоматического анализа речи. Однако, попытавшись разобраться в его устройстве, я с удивлением обнаружил, что Читать полностью »