Команды разработки сервисов GigaChat и SaluteSpeech в SberDevices представили GigaAM (Giga Acoustic Model) — семейство акустических моделей для русского языка, которые позволяют корректно распознавать речь и эмоции.
GigaAM — Audio Foundation Model, предобученная на разнообразной русской речи. Она подходит для адаптации под различные задачи работы со звуком, включая распознавание речи и эмоций, определение диктора и другие.
GigaAM-CTC — открытая модель для распознавания русскоязычных запросов. Как показала оценка качества на 7 срезах данных (от запросов в умные колонки до записей из телефонного канала), модель допускает в коротких запросах на 20–35% меньше ошибок в словах по сравнению с такими популярными решениями, как NeMo-Conformer-RNNT и Whisper-Large-v3.
GigaAM-Emo — акустическая модель для определения эмоций. Она продемонстрировала лучший результат на крупнейшем датасете Dusha среди известных моделей. Все модели размещены в открытом доступе с некоммерческой лицензией и могут быть использованы для подготовки дипломных работ и научных статей.