Один STT-сервис дал 60-70% точности на специфической лексике (топонимы, названия улиц, профессиональные термины). Два сервиса параллельно + взвешенное голосование + AI-fusion для спорных случаев дали 95%+ точности. Время обработки 5-8 секунд, стоимость $70-130/месяц при 1000 сообщений в день. В статье — полный разбор архитектуры, алгоритмы scoring, примеры кода и расчёт экономики.
Содержание
-
Почему один STT оказалось недостаточно
-
Эволюция решения: от 60% к 95%
-
Архитектура Multi-API Ensemble
-
Взвешенное голосование: математика выбора
-
AI-fusion: когда голосования недостаточно


