Обзор на разнообразные интерфейсы Stable Diffusion. Automatic1111 — не одинок

2024-12-27 в 9:01, admin, рубрики: krita, open source, photoshop, ruvds_статьи, stability ai, stable diffusion, альтернативы, бесплатно, генерация изображений, ИИ, интерфейсы, текстурирование

Для многих пользователей, занимающихся генерацией изображений с помощью ИИ у себя дома, интерфейс Automatic1111 стал стандартным. Однако мир ИИ-технологий не стоит на месте, и появляются новые инструменты и интерфейсы, которые могут предложить ещё больше возможностей и удобства. В этой статье я рассмотрю, какие альтернативы существуют для Automatic1111 и ComfyUI и почему вам стоит обратить на них внимание.

Вы ведь наверняка не слышали о такой штуке, как программа, позволяющая использовать Stable Diffusion для создания и редактирования текстур 3D-моделей с полной UV-разверткой? Или о полноценной бесплатной замене ИИ-инструментария Photoshop, которая доступна совершенно бесплатно и без всяких «но»? Однако статья — не просто подборка случайных программ. Сначала мы изучим основы и немного историю, а затем перейдём к самому интересному.

О разнообразии интерфейсов Stable Diffusion

В мире технологий редко можно встретить устройство, которое не имеет аналогов. Инновации приводят к созданию не только новых решений, но и множества способов работы с ними. Это особенно заметно в области искусственного интеллекта, где каждый новый прорыв быстро сопровождается появлением дополнительных платформ и интерфейсов. В середине августа 2022 года компания Stability AI представила свою первую полностью бесплатную модель нейросети для генерации изображений по тексту (промту). Новинка сразу привлекла многих разработчиков, и всевозможные интерфейсы начали появляться как грибы после дождя, сразу как только стали понятны основные принципы взаимодействия с ней.

Обзор на разнообразные интерфейсы Stable Diffusion. Automatic1111 — не одинок - 2

Мона Лиза от мира ИИ, фотография астронавта верхом на лошади. Stable Diffusion 1.0

Разные подходы к решению одной задачи не только создают конкуренцию, но и дают пользователям возможность выбрать платформу, которая лучше всего подходит их потребностям. От простых и понятных решений для новичков до мощных платформ для профессионалов — современный технологический рынок предлагает варианты для всех.

Начало начал — Automatic1111(A1111)

Обзор на разнообразные интерфейсы Stable Diffusion. Automatic1111 — не одинок - 3 Automatic1111 — это очень популярный веб-интерфейс для работы с нейросетевой моделью генерации изображений Stable Diffusion. Первый релиз состоялся 22 августа 2022 года, и он быстро завоевал популярность благодаря удобству использования и широким возможностям настройки. Сейчас с ним знаком почти каждый.

Обзор на разнообразные интерфейсы Stable Diffusion. Automatic1111 — не одинок - 4

Поддерживает не только Stable Diffusion, но и другие модели, такие как Flux, Pony и многие другие. За последние полгода значительно расширил аппаратную поддержку различных устройств, включая GPU от AMD и Intel, а также NPU. Несмотря на расширенную поддержку, имеет некоторые проблемы по сравнению с другими интерфейсами. Веб-интерфейс обладает огромным количеством пользовательских настроек и возможностей кастомизации. Я довольно долго им пользовался, и единственная особенность, которая мне нравится в нём больше, чем в остальных интерфейсах, — это галерея. Лучшей компоновки метаданных я не встречал в других подобных платформах.

▍ NMKD

Обзор на разнообразные интерфейсы Stable Diffusion. Automatic1111 — не одинок - 5 NMKD Stable Diffusion GUI — это графический интерфейс для работы с моделью Stable Diffusion, разработанный пользователем с ником NMKD. Релиз состоялся сразу после A1111, 30 августа 2022 года. Основная цель — облегчить использование мощной модели генерации изображений на основе текста для широкой аудитории, даже без навыков программирования или глубокого понимания работы нейронных сетей. Программа представлена в виде .exe файла, но также доступен открытый исходный код на GitHub. Техническая реализация интерфейса выполнена с помощью C# и .NET, а взаимодействие с библиотеками, необходимыми для запуска, реализовано посредством вызовов в библиотеку Python.NET — довольно-таки необычное решение. Однако это не помешало программе выполнять свою роль, и она пользовалась спросом долгое время.

Обзор на разнообразные интерфейсы Stable Diffusion. Automatic1111 — не одинок - 6

Относительно недавно разработка прекратила активное развитие. Скомпилированных обновлений версий нет уже год, поэтому использовать его я бы не рекомендовал. Интерфейс вполне стандартный, хотя лично мне дизайн не очень нравится, однако для первопроходца в этой области он вполне приемлем.

▍ ComfyUI

Обзор на разнообразные интерфейсы Stable Diffusion. Automatic1111 — не одинок - 7 ComfyUI — это уже заезженный и популярный графический интерфейс на основе связок (chain). Представляет собой графическую оболочку для работы с нейросетевыми моделями, специализирующуюся на генерации изображений с использованием методов диффузии, аналогичных тем, что применяются в таких моделях, как Stable Diffusion. Первый релиз состоялся 13 марта 2023 года, опередив даже A1111, который стартовал в виде бинарника 24 июня 2023 года. Техническая часть полностью реализована на Python. Нельзя сказать, что интерфейс 2023 года сильно отличался от того, что есть сейчас.

Обзор на разнообразные интерфейсы Stable Diffusion. Automatic1111 — не одинок - 8

Скриншот старого интерфейса

Однако по функциональности это, несомненно, два разных мира. За период чуть больше года ComfyUI обзавелся тремя сайтами сообщества, обширной базой модификаций для узлов и рабочих процессов. Помимо множества оптимизаций, добавления поддержки различных моделей и прочих улучшений, он значительно расширил свои возможности. Интересно также то, что в отличие от A1111, в случае с AMD ROCm вручную подбирать параметры для запуска практически не приходится, а сбои случаются значительно реже. Для стабильной работы достаточно только параметров --force-fp32 --novram. Это делает его более доступным и удобным для пользователей с различными конфигурациями оборудования.

▍ SD.Next

Обзор на разнообразные интерфейсы Stable Diffusion. Automatic1111 — не одинок - 9 Ответвление от A1111, появился в конце 2022 года, 24 декабря. Является чем-то вроде экспериментальной площадки или dev-версии обычного A1111 в упрощённом понимании. В сравнении с ним, лучше работает на AMD и TensorRT. То есть доп. настройки не нужны в случае с ROCm или DirectML, чем грешат практически все интерфейсы для работы с нейросетями для рисования.

Обзор на разнообразные интерфейсы Stable Diffusion. Automatic1111 — не одинок - 10

Значительно отличается в дизайне от A1111, мне он кажется более удобным. Развитие идёт постоянно, в то время как A1111 часто становится на паузу на месяц-другой. Даже сам разработчик A1111 часто делает commits для него.

▍ Stable Projectorz (Windows)

Обзор на разнообразные интерфейсы Stable Diffusion. Automatic1111 — не одинок - 11 Представитель нестандартного, узкоспециализированного использования Stable Diffusion. Stable Projectorz — это продвинутая программа на базе ИИ, созданная для генерации качественных текстур для 3D-моделей. Разработана как инструмент для художников и разработчиков, позволяющий значительно упростить и ускорить процесс создания текстур. Использует Stable Diffusion и ControlNet, что позволяет проецировать 2D-изображения на 3D-модели с сохранением UV-развёртки. Бесплатна для использования в коммерческих и некоммерческих проектах, при этом требуется указание авторства.

Обзор на разнообразные интерфейсы Stable Diffusion. Automatic1111 — не одинок - 12

Техническая реализация программы не до конца ясна, но на официальном сайте указано «Powered by Automatic1111, ComfyUI, StabilityAI, Forge webui». Несмотря на кажущуюся несовместимость этих компонентов, успешно функционирует. Интересно отметить, что эта технология могла бы стать отличным инструментом для создания различных модификаций игр. Например, можно было бы извлечь текстуры модели одежды Лары Крофт из оригинальной игры и переработать их в один клик, создав уникальный новый дизайн одежды для персонажа.

На самом деле перечислять все подобные программы можно ещё очень долго, так что остановимся на этом примере как на ярком представителе применений технологии Stable Diffusion в узкоспециализированной среде.

Имплементации Stable Diffusion в другие программы

▍ Krita AI Diffusion

Обзор на разнообразные интерфейсы Stable Diffusion. Automatic1111 — не одинок - 13 Плагин AI Diffusion для Krita расширяет функциональные возможности этого программного обеспечения для цифрового рисования. Krita уже известна своим разнообразием инструментов, а добавление генеративного наполнения позволяет художникам экспериментировать с новыми подходами. Среди доступных функций — генерация цвета, расширение изображения с добавлением новых элементов, удаление и добавление объектов, а также замена заднего фона. Модель Flux, использующаяся в этом плагине, предлагает альтернативу Adobe Firefly с таким же простым и удобным интерфейсом.

Обзор на разнообразные интерфейсы Stable Diffusion. Automatic1111 — не одинок - 14

Я применил заливку, поскольку Flux не имеет модели Inpaint, но при кадрировании этот метод работает практически так же эффективно, что я и продемонстрировал

Запуск возможен как через облако interstice, так и локально, при наличии необходимых мощностей. Конечно, если мы говорим о Flux, там нужно хотя бы 8 ГБ VRAM и относительно живой чип GPU, и даже в этом случае процесс может быть довольно медленным. Однако есть ещё модели Stable Diffusion XL и 1.5, с которыми обычно не возникает проблем. Мне удалось запустить даже на RX 6600 с ROCm, хотя для локального запуска потребовались значительные усилия. Работа плагина реализована посредством бэкенда ComfyUI.

Обзор на разнообразные интерфейсы Stable Diffusion. Automatic1111 — не одинок - 15

Локальный запуск с SD 1.5

▍ ChaiNNer

Обзор на разнообразные интерфейсы Stable Diffusion. Automatic1111 — не одинок - 16 ChaiNNer — это мощный инструмент для обработки изображений с использованием графического интерфейса на основе узлов. Полностью открытый исходный код. Изначально разработан для увеличения разрешения изображений с помощью нейросетей, но со временем его возможности значительно расширились.

Обзор на разнообразные интерфейсы Stable Diffusion. Automatic1111 — не одинок - 17

Появились узлы для подключения к внешнему API A1111. То есть вы совершаете локальный запуск A1111 на своем компьютере, а затем подключаетесь к нему. С помощью этого можно собрать интересные конструкции, например, генерация изображения с помощью Stable Diffusion XL в 1024x1024, а затем апскейл с помощью апскейлера на архитектуре DAT, что даст изображение крайне высокого качества. Также есть и другие инструменты, такие как расширение кадра, инпейнт и image2image. Учитывая, насколько много инструментов в себе имеет ChaiNNer, это позволяет создать действительно удобные конвейеры для работы, и это будет значительно проще, чем ComfyUI. Однако ChaiNNer не может быть полноценной заменой, так как не обладает таким же количеством разнообразных узлов от сообщества, а скорее является более удобным для работы с обычным инструментарием при обработке изображений.

Заключение

Разнообразие интерфейсов для работы со Stable Diffusion демонстрирует, насколько быстро развивается область генеративного ИИ. От универсальных решений вроде Automatic1111 и ComfyUI до специализированных инструментов наподобие Stable Projectorz — каждый находит свою нишу и аудиторию. Эти платформы не только упрощают взаимодействие с нейросетями, но и расширяют возможности их применения в различных сферах — от создания цифрового искусства до разработки игр. При этом ключевую роль играет сообщество разработчиков, которое постоянно совершенствует эти платформы.

Обзор на разнообразные интерфейсы Stable Diffusion. Automatic1111 — не одинок - 18

Выбор конкретного интерфейса зависит от задач пользователя, его технической подготовки и доступного оборудования. Некоторые решения, как SD.Next, отличаются лучшей поддержкой определенных видов GPU, другие, как ComfyUI, позволяют создавать сложные конвейеры обработки изображений. Важно отметить, что развитие этих инструментов идет параллельно с совершенствованием самих моделей генерации изображений. Это приводит к постоянному появлению новых возможностей и улучшений в пользовательских интерфейсах, делая работу с генеративным ИИ более продуктивной и интересной для широкого круга людей.

Автор: Realife

Источник