Рубрика «Whisper»

Один STT-сервис дал 60-70% точности на специфической лексике (топонимы, названия улиц, профессиональные термины). Два сервиса параллельно + взвешенное голосование + AI-fusion для спорных случаев дали 95%+ точности. Время обработки 5-8 секунд, стоимость $70-130/месяц при 1000 сообщений в день. В статье — полный разбор архитектуры, алгоритмы scoring, примеры кода и расчёт экономики.

Содержание

  1. Почему один STT оказалось недостаточно

  2. Эволюция решения: от 60% к 95%

  3. Архитектура Multi-API Ensemble

  4. Взвешенное голосование: математика выбора

  5. AI-fusion: когда голосования недостаточно

  6. Читать полностью »

Self-hosted AI-платформа: полный стек для локального ИИ на Docker

Введение

При внедрении ИИ-решений для бизнеса постоянно сталкивался с проблемой: компании хотят использовать LLM, но не могут отправлять конфиденциальные данные в публичные облачные сервисы. 152-ФЗ, NDA, корпоративные политики безопасности — причины разные, суть одна: нужна локальная инфраструктура.

Читать полностью »

И снова привет!

В современной разработке все большую роль играют инструменты, которые позволяют эффективно комбинировать человеческий креатив с возможностями искусственного интеллекта. В этой статье я поделюсь информацией об ещё одном способе организации работы над проектами и приведу пример из своей практики.

В статье речь пойдёт об использовании редактора кода VS Code и его расширений для работы над текстом и кодом в проектах.

Переход в VS Code

Когда я только начинал работать над своими проектами, я перепробовал массу инструментов — от простых текстовых редакторов до полноценных IDEЧитать полностью »

Ловим «взрослые» сцены на видео: как ИИ помогает редакторам - 1

Поводом для написания этой заметки стало обсуждение на недавнем отраслевом мероприятии задач Читать полностью »

Нельзя просто так взять и транскрибировать аудио-файл

Как всё началось

В 23м году я поступил на онлайн-магистратуру ВШЭ "Управление организациями и проектами". Онлайн-магистратура - это лекции онлайн и записи для тех, кто не может присутствовать. Мой опыт говорил о том, что не только многие вещи требуют повторного изучения, но и видео - не мой любимый формат потребления информации.

Поэтому было принято решение транскрибировать записи лекций и делать очищенный текст с помощью LLM.

Пайплайн выглядел примерно так:

  1. транскрибировать текст лекции

  2. очистить от технических моментов

    Читать полностью »

Нейросети, видеокарты и здравый смысл - 1

Протестировали нейросети и показали, в чём разница между разными моделями видеокарт — не только AI/ML-инженеры должны понимать, что скрывается за TFLOPS, и в чём их разница.

Как сравнить?

Читать полностью »

Идея отказаться от использования Яндекс Алисы в системе умного дома возникла у меня после новости о принятии Госдумой законопроекта, касающегося штрафов за поиск и доступ к экстремистским материалам в интернете. Казалось бы, при чём тут голосовой помощник? Однако Яндекс входит в реестр организаторов распространения информации, что означает определённые юридические и технические обязательства по хранению и передаче данных.

Читать полностью »

ТОП-5 нейросетей для транскрибации аудио в текст (часть 2) - 1

В первой части мы проверили три сервиса: AssemblyAI, Riverside и Teamlogs. Все они обещали точную и быструю транскрибацию, но на деле…

Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js