Рубрика «Whisper»
Multi-API Ensemble: 95% точности транскрипции региональных топонимов
2025-12-09 в 14:30, admin, рубрики: asyncio, Ensemble, gemini, python, salutespeech, speech-to-text, Whisper, распознавание речи, сезон ии в разработке, транскрипцияОдин STT-сервис дал 60-70% точности на специфической лексике (топонимы, названия улиц, профессиональные термины). Два сервиса параллельно + взвешенное голосование + AI-fusion для спорных случаев дали 95%+ точности. Время обработки 5-8 секунд, стоимость $70-130/месяц при 1000 сообщений в день. В статье — полный разбор архитектуры, алгоритмы scoring, примеры кода и расчёт экономики.
Содержание
-
Почему один STT оказалось недостаточно
-
Эволюция решения: от 60% к 95%
-
Архитектура Multi-API Ensemble
-
Взвешенное голосование: математика выбора
-
AI-fusion: когда голосования недостаточно
Self-hosted AI-платформа: полный стек для локального ИИ на Docker
2025-12-04 в 21:15, admin, рубрики: docker-compose, n8n, Ollama, open source, openwebui, postgresql, python3, redis, supabase, WhisperSelf-hosted AI-платформа: полный стек для локального ИИ на Docker
Введение
При внедрении ИИ-решений для бизнеса постоянно сталкивался с проблемой: компании хотят использовать LLM, но не могут отправлять конфиденциальные данные в публичные облачные сервисы. 152-ФЗ, NDA, корпоративные политики безопасности — причины разные, суть одна: нужна локальная инфраструктура.
Пример организации работы над проектом с помощью VS Code и его расширений
2025-11-05 в 15:22, admin, рубрики: cline, n8n, vscode, WhisperИ снова привет!
В современной разработке все большую роль играют инструменты, которые позволяют эффективно комбинировать человеческий креатив с возможностями искусственного интеллекта. В этой статье я поделюсь информацией об ещё одном способе организации работы над проектами и приведу пример из своей практики.
В статье речь пойдёт об использовании редактора кода VS Code и его расширений для работы над текстом и кодом в проектах.
Переход в VS Code
Когда я только начинал работать над своими проектами, я перепробовал массу инструментов — от простых текстовых редакторов до полноценных IDEЧитать полностью »
Ловим «взрослые» сцены на видео: как ИИ помогает редакторам
2025-10-28 в 13:10, admin, рубрики: streamlit, Whisper, yolo, аудиоанализ, возрастной рейтинг, гибридная модерация, Компьютерное зрение, машинное обучение, модерация контента, обработка естественного языка
Поводом для написания этой заметки стало обсуждение на недавнем отраслевом мероприятии задач Читать полностью »
Sber SaluteSpeech в Python без боли и сертификатов
2025-09-09 в 22:03, admin, рубрики: salutespeech, speechkit, WhisperНельзя просто так взять и транскрибировать аудио-файл
Как всё началось
В 23м году я поступил на онлайн-магистратуру ВШЭ "Управление организациями и проектами". Онлайн-магистратура - это лекции онлайн и записи для тех, кто не может присутствовать. Мой опыт говорил о том, что не только многие вещи требуют повторного изучения, но и видео - не мой любимый формат потребления информации.
Поэтому было принято решение транскрибировать записи лекций и делать очищенный текст с помощью LLM.
Пайплайн выглядел примерно так:
-
транскрибировать текст лекции
-
очистить от технических моментов

Протестировали нейросети и показали, в чём разница между разными моделями видеокарт — не только AI/ML-инженеры должны понимать, что скрывается за TFLOPS, и в чём их разница.
Как сравнить?
Экологичное расставание с Алисой: строим полностью локальный и приватный голосовой ассистент
2025-07-29 в 0:26, admin, рубрики: Rhasspy, Whisper, алиса, космотекст, яндексИдея отказаться от использования Яндекс Алисы в системе умного дома возникла у меня после новости о принятии Госдумой законопроекта, касающегося штрафов за поиск и доступ к экстремистским материалам в интернете. Казалось бы, при чём тут голосовой помощник? Однако Яндекс входит в реестр организаторов распространения информации, что означает определённые юридические и технические обязательства по хранению и передаче данных.
ТОП-5 нейросетей для транскрибации аудио в текст (часть 2)
2025-05-21 в 13:24, admin, рубрики: speech-to-text, Whisper, нейросети, расшифровка аудио, транскрибация
В первой части мы проверили три сервиса: AssemblyAI, Riverside и Teamlogs. Все они обещали точную и быструю транскрибацию, но на деле…


