Рубрика «синтетические данные»

Проект реализуется командой: Константин Кожин — руководитель проекта; Павел Шерстнев — ML-инженер; Антон Михалев — ML-инженер; Анна Пятаева — научный руководитель проекта; Владислава Жуковская — специалист по разметке данных; Алина Нуриманова — специалист по разметке данных. Работа ведётся при поддержке гранта (Фонд содействия инновациям, конкурс «Код-ИИ», VII очередь, декабрь 2024 – декабрь 2025).

Manuscript OCR — это open-source проект, опубликованный на GitHub и GitVerse.

Читать полностью »

Если нужно сгенерировать синтетические данные — подборка открытых решений - 1

Про снижение расходов на работу с данными расскажемЧитать полностью »

1. Вступление: синтетика выходит из-подполья

Десять лет назад мы говорили о «данных–нефть». В 2025-м метафора смещается: нефть закончилась, а нужен устойчивый источник энергии. Синтетические наборы — эта самая «зелёная электростанция» для AI-экономики.

Почему это не очередная хайповая игрушка?

  • Дефицит реальных выборок. Регуляторы закрутили гайки (GDPR, HIPAA, китайский PIPL). В финтехе и медицине доступных датасетов меньше, чем стартапов, желающих их тренировать.

  • Приватность без компромиссов.Читать полностью »

Где взять пару миллионов документов с разметкой для обучения модели ИИ? Сгенерировать синтетически! Меня зовут Никита, я работаю в ИСП РАН и веду блог по ИИ. Выложил в открытый доступ проект, который поможет дата-саентистам самостоятельно создавать датасеты сканированных документов с разметкой, используя только CPU. Подойдет для предобучения мультимодальных трансформеров, OCR и проч.

Кратко:

  1. Генератор создает синтетические PNG-картинки сканированных документов с разметкой. Ссылка на гитхаб

  2. Язык текста: можно выбрать.

  3. Читать полностью »

В 2016 году я наткнулся на руководство по стратегиям сбора данных для AI-стартапов, многие идеи из которого были визионерскими для своего времени. Автором этого текста был Мориц Мюллер-Фрайтаг, сооснователь компании Twenty Billion Neurons (TwentyBN).

Как собирать данные: руководство для ИИ-стартапов - 1

Читать полностью »

В мире анализа данных и машинного обучения качественные табулированные данные играют ключевую роль. Однако далеко не всегда у специалистов есть доступ к реальным данным из-за конфиденциальности, отсутствия информации или необходимости тестирования алгоритмов перед их применением в реальных сценариях. В таких случаях на помощь приходят языковые модели, способные генерировать структурированные таблицы с синтетическими данными.

Читать полностью »

GAN и диффузионные модели: как научить нейросеть рисовать - 1

Привет! Сегодня хочу поговорить о двух очень горячих темах в области искусственного интеллекта — генеративно‑состязательные сети (GAN) и диффузионные модели (типа Stable Diffusion). Я сама как‑то подсела на все эти AI‑картинки и поняла, что нужно срочно поделиться тем что накопала. Поехали!:‑)

GAN: Генератор vs. Дискриминатор

Читать полностью »

Законы масштабирования – архитектура O1 Pro -- Инфраструктура синтетических данных, RLAIF, токеномика вычислений - 1

С каждым днем растут страхи и сомнения относительно законов масштабирования ИИ. Большинство предсказателей отрасли ИИЧитать полностью »

Дилеммы, с которыми вы столкнетесь при разработке биометрических датасетов - 1

Если вы хотите научить модель машинного зрения разбираться в сортах кукурузы или, скажем, отличать пешеходов от автомобилейЧитать полностью »

Обсуждаем мнения ИТ-сообщества и экспертов индустрии. Также рассмотрим пару проектов, в рамках которых разрабатывают инструменты для генерации «искусственных» данных. Один из них представили выходцы из Агентства национальной безопасности США и Google.

Почему в машинном обучении используют «синтетические» данные - 1Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js