Компания Google сделала подарок сторонним разработчикам — и открыла доступ к программным интерфейсам Cloud Speech API. В первое время доступ предоставляется на бесплатной основе, тарифы объявят позже.
Распознавание речи работает для 80 языков. Возможно распознавание речи в прямом эфире через микрофон или аудиозаписей из файлов (вероятно, до 2 минут). Поддерживаются многочисленные форматы, в том числе FLAC, AMR и PCMU.
Теперь для любой программы можно встроить, например, голосовое управление через Cloud Speech API. Система выдаёт распознанный текст мгновенно в процессе работы.
Google утверждает, что Speech API достаточно точно работает даже с зашумлённым фоном, так что материал не требуется предварительно очищать, обрабатывая фильтрами или используя дорогое оборудование и микрофоны для шумоподавления.
Для некоторых языков поддерживается автоматическая фильтрация нежелательного контента.
Слухи об открытии интерфейсов ходили в последнее несколько недель. Эксперты выражали мнение, что Google собирается выйти на рынок, где сейчас работает Nuance и некоторые другие компании, специализирующиеся на распознавании речи. Теперь тягаться с Google им будет тяжело, в её системе используются последние разработки в области самообучаемых нейросетей — тот же движок, что и в голосовом поиске Google и голосовом наборе с клавиатуры Google. С каждым месяцем Cloud Speech API будет распознавать текст всё точнее.
Новость о Cloud Speech API компания объявила вчера на конференции NEXT. Кроме распознавания речи, теперь разработчикам открыт доступ к платформе машинного обучения Cloud Machine Learning.
Открытие Google API для распознавания речи ударит не только по специализированным компаниям, но и по Apple, у которой голосовой помощник Siri значительно уступает нейросети Google по точности распознавания и функциональности.
Автор: alizar