Одни из самых перспективных решений среди генеративных моделей принадлежат к классу LDM (latent diffusion models): Stable Diffusion, Wan, Flux и многие другие. Превращение шума в изображение происходит в два этапа: сперва диффузионная модель создаёт латент, который затем декодируется в изображение намного большего размера. За декодирование и формирование латентного пространства в большинстве моделей этого класса отвечает токенизатор изображений. Таким образом, качество этой модели напрямую влияет на результаты генерации.
Рубрика «VAE»
K-VAE токенизатор от Сбера
2025-11-14 в 13:27, admin, рубрики: diffusion, VAE, генеративные модели, сжатие видео, сжатие изображенийЧасть 3: Diffusion Transformer (DiT) — Stable Diffusion 3 как она есть
2025-07-02 в 16:11, admin, рубрики: diffusion, stable diffusion, transformer, VAEОбо мне
Привет, меня зовут Василий Техин. В первой статье мы разобрали ResNet, во второй — ViT. Теперь погрузимся в мир генерации изображений с Diffusion Transformer (DiT) — сердцем Stable Diffusion 3.
Пролог: От распознавания к созданию
Представьте нейросеть как художника. Раньше она только анализировала картины ("Это Ван Гог!"). Теперь она создаёт шедевры в стиле Ван Гога и не только!
Шерудим под капотом Stable Diffusion
2022-09-14 в 14:11, admin, рубрики: CLIP, dalle, dalle-2, huggingface, natural language processing, OpenAI, stable diffusion, stablediffusion, unet, VAE, искусственный интеллект, машинное обучение, обработка изображенийВероятно вы уже слышали про успехи нейросетей в генерации картинок по текстовому описанию.
Я решил разобраться, и заодно сделать небольшой туториал, по архитектуре Stable Diffusion. Сегодня мы не будем глубоко погружаться в математику и процесс тренировки. Вместо этого сфокусируемся на применении и устройстве основных компонент: UNet, VAE, CLIP.
Вариационные автокодировщики: теория и рабочий код
2018-11-09 в 10:42, admin, рубрики: python, sgd, VAE, вариационный автокодировщик, генерация рукописных цифр, машинное обучение, нейросеть прямого распространения, обработка изображений
Вариационный автокодировщик (автоэнкодер) — это генеративная модель, которая учится отображать объекты в заданное скрытое пространство.
Когда-нибудь задавались вопросом, как работает модель вариационного автокодировщика (VAE)? Хотите знать, как VAE генерирует новые примеры, подобные набору данных, на котором он обучался? Прочитав эту статью, вы получите теоретическое представление о внутренней работе VAE, а также сможете реализовать его самостоятельно. Затем я покажу рабочий код VAE, обученный на наборе рукописных цифр, и мы немного повеселимся, генерируя новые цифры!
Читать полностью »

