Генератор картинок от разработчиков DeepSeek. Тест-драйв новой нейросети

в 8:04, , рубрики: chatgpt, deepseek, janus, selectel, будущее здесь, нейросети
Генератор картинок от разработчиков DeepSeek. Тест-драйв новой нейросети - 1

Всего месяц назад команда DeepSeek выпустила в открытый доступ новую мультимодальную модель для генерации картинок — Janus-Pro-7B. Разработчики заверяют, что она умеет генерировать изображения, почти неотличимые от настоящих, отлично работает в локальном режиме, бесплатна и превосходит западных конкурентов в ряде задач.

Но действительно ли Janus-Pro-7B так хорош? Под катом разворачиваем модель в облаке, тестируем ее в деле и сравниваем результаты с другими генераторами изображений.

Генератор картинок от разработчиков DeepSeek. Тест-драйв новой нейросети - 2Скоро выпустим новый комикс о путешествиях ИБ-специалиста! Регистрируйтесь, чтобы узнать о публикации первыми. Бонусом сможете выиграть один из 15 комплектов призов.

Что нового в Janus-Pro


Janus-Pro — это усовершенствованная версия Janus, в которой:

  • оптимизирована стратегия обучения,
  • расширен датасет,
  • увеличен размер модели.

Генератор картинок от разработчиков DeepSeek. Тест-драйв новой нейросети - 3

Сравнение Janus и Janus-Pro-7B в генерации изображений. Источник.

Благодаря этим улучшениям Janus-Pro достигает значительных успехов в мультимодальном понимании и лучше преобразует текст в изображение. Но это только по заверениям разработчиков. Перейдем к тестам.

Генератор картинок от разработчиков DeepSeek. Тест-драйв новой нейросети - 4

Развертывание модели на облачном сервере


Перейдем к развертыванию модели в облаке. Далее — сравним ее результаты с другими нейросетями.

1. Перейдем в раздел Продукты → Облачные серверы.

Генератор картинок от разработчиков DeepSeek. Тест-драйв новой нейросети - 5

2. Нажмем Создать сервер.

Генератор картинок от разработчиков DeepSeek. Тест-драйв новой нейросети - 6

3. В качестве источника использую загруженный образ Ubuntu 20.04 6 LTS.

Генератор картинок от разработчиков DeepSeek. Тест-драйв новой нейросети - 7

4. Выбираем Регион «Москва» и Пул — ru-7b. Для работы воспользуемся фиксированной конфигурацией с видеокартой A5000, но вы можете подобрать произвольную сборку под свои задачи.

Генератор картинок от разработчиков DeepSeek. Тест-драйв новой нейросети - 8

5. Указываем тип диска и публичную подсеть, чтобы сервер был доступен из интернета.

Генератор картинок от разработчиков DeepSeek. Тест-драйв новой нейросети - 9

6. После ознакомления с конфигурацией и стоимостью сборки нажимаем Создать сервер.

Генератор картинок от разработчиков DeepSeek. Тест-драйв новой нейросети - 10

7. Перейдем к развертыванию модели.

# Обновляем список пакетов
apt update  

# Устанавливаем pip
apt install -y pip  

# Обновляем pip
python3 -m pip install --upgrade pip  

# Устанавливаем git
apt install -y git  

# Клонируем репозиторий с моделью
git clone https://github.com/deepseek-ai/Janus.git  

# Переходим в папку с репозиторием
cd Janus  

# Устанавливаем пакет в режиме редактируемого режима
pip install -e .  

# Ставим дополнительные зависимости для Gradio
pip install -e .[gradio]  

# Запускаем сервер
python3 demo/app_januspro.py  
Генератор картинок от разработчиков DeepSeek. Тест-драйв новой нейросети - 11

Развертывание заняло около 20 минут, где большую часть времени я ждал загрузки модели.

Для доступа к нейросети переходим по ссылке:

Скорее всего, разворачивать собственный сервер — это не самый выгодный вариант с точки зрения затрат. Модели, такие как Janus Pro 7B, требуют значительных ресурсов (например, GPU) и времени на настройку, что может быть дорого и нецелесообразно.

Если ваша цель — получить быстрые результаты без значительных затрат, лучше использовать веб-версии. Они работают быстрее, не требуют от вас ресурсов и, что немаловажно, бесплатны в базовом использовании. Рассматривать запуск собственного сервера можно как пет-проект для экспериментов или для глубокого анализа модели, но вряд ли как основной рабочий инструмент.

Проверка качества генерации


Важный момент при использовании Janus-Pro-7B — это возможность работы с мультимодальным пониманием и генерацией текста в картинку. Нас интересует второй вариант.

Генератор картинок от разработчиков DeepSeek. Тест-драйв новой нейросети - 12

Генерация картинок на разных языках

Попробовал задать промт на русском:

Белый медведь играет в теннис на марсе с дельфином и слоном.

Результат: нейросеть отрисовала пять картинок. Отобрал для вас наиболее адекватные.

Генератор картинок от разработчиков DeepSeek. Тест-драйв новой нейросети - 13

Генерация для русскоязычного промта.

Зададим тот же промт, но на английском:

A polar bear plays tennis on Mars with a dolphin and an elephant.

Результат: точность выше, композиция ближе к ожидаемой.

Генератор картинок от разработчиков DeepSeek. Тест-драйв новой нейросети - 14

Генерация для английского промта.

Финальный босс — традиционный китайский:

北極熊與海豚、大像在火星打網球

Результат: из пяти картинок удалось выбрать лишь одну, но и к ней достаточно вопросов. Псевдокитайский (или японский), традиционный дом, лес и облака. Все как просили (нет).

Генератор картинок от разработчиков DeepSeek. Тест-драйв новой нейросети - 15

Генерация для китайского промта.

Подробный промт

Попробуем задать подробно описанный промт:

A highly realistic and cinematic scene featuring Jean-Claude Van Damme, the legendary martial artist and actor, sitting in a perfect split position between two massive semi-trucks on a Texas highway. The composition is dynamic and visually striking, with extreme attention to detail. The trucks are modern, shiny, and reflect the bright sunlight, creating realistic lighting effects. The road stretches into the distance, surrounded by the iconic Texan landscape—rolling golden plains, distant mesquite trees, and a vast blue sky with scattered clouds. The time of day is late afternoon, with warm, golden-hour lighting casting long shadows and enhancing the textures of the environment. Jean-Claude Van Damme is dressed in a classic 90s action-hero outfit: tight black tank top, camouflage pants, and combat boots, showcasing his muscular physique. His expression is calm but confident, exuding strength and focus. Ultra-high detail, photorealistic rendering, 8k resolution, cinematic lighting, volumetric rays, depth of field, realistic skin texture, intricate clothing details, lifelike reflections on the trucks, and an epic widescreen aspect ratio (21:9). Art style inspired by high-end movie posters and hyperrealistic photography.

Результат: детализация осталась та же, качество изображения по-прежнему оставляет желать лучшего.

Генератор картинок от разработчиков DeepSeek. Тест-драйв новой нейросети - 16

Итог

Основная часть обучающих данных, которые используют нейросети, представлена на английском языке — именно на него модели ориентируются в первую очередь. Для других языков качественных данные сильно меньше, что может влиять на точность генерации.

Для наилучших результатов рекомендуется формулировать запросы на английском. Это значительно повысит эффективность работы нейросети. Если вам не хочется разворачивать модель локально, проще воспользоваться веб-версией на Hugging Face. Результат будет практически таким же, но без необходимости тратить время на настройку:

Генератор картинок от разработчиков DeepSeek. Тест-драйв новой нейросети - 17

Сравнение с другими моделями


Сравним качество генерации Janus-Pro с другими онлайн-нейросетями. Не будем рассматривать слишком популярные варианты, чтобы сравнение было чуть справедливее.

Deep Dream Generator

Начнем с сайта deepdreamgenerator.com. Ключевые особенности:

  • генерация и улучшения изображений;
  • генерация видео;
  • лимит «энергии» — при регистрации у вас 100 единиц, каждая генерация стоит от 4 до 30. При этом 80 начисляют единоразово, а 20 регулярно пополняется со временем;
  • можно протестировать нейросеть без авторизации.

А еще никто не запрещает использовать мультиаккаунты. 😉

Генератор картинок от разработчиков DeepSeek. Тест-драйв новой нейросети - 18

Выберем нужную модель. Площадка позволяет выбрать три pro-модели в день, при этом использовать обычные можно без ограничений.

Советую задавать запросы на английском, так как запросы по промтам на иных языках будут очень абстрактными. Протестируем тот же промт.

A polar bear plays tennis on Mars with a dolphin and an elephant.

Результат: за четыре единицы энергии получилось неплохо, но дельфина забыли.

Генератор картинок от разработчиков DeepSeek. Тест-драйв новой нейросети - 19

Попробуем тот же промт, но с моделью AIVision. За 30 единиц «энергии» она соблюла ТЗ, но от себя добавила какую-то человекоподобную черепаху.

Генератор картинок от разработчиков DeepSeek. Тест-драйв новой нейросети - 20

Проверим генерацию на более подробном промте, который ранее тестировали с Janus.

Промт

A highly realistic and cinematic scene featuring Jean-Claude Van Damme, the legendary martial artist and actor, sitting in a perfect split position between two massive semi-trucks on a Texas highway. The composition is dynamic and visually striking, with extreme attention to detail. The trucks are modern, shiny, and reflect the bright sunlight, creating realistic lighting effects. The road stretches into the distance, surrounded by the iconic Texan landscape—rolling golden plains, distant mesquite trees, and a vast blue sky with scattered clouds. The time of day is late afternoon, with warm, golden-hour lighting casting long shadows and enhancing the textures of the environment. Jean-Claude Van Damme is dressed in a classic 90s action-hero outfit: tight black tank top, camouflage pants, and combat boots, showcasing his muscular physique. His expression is calm but confident, exuding strength and focus. Ultra-high detail, photorealistic rendering, 8k resolution, cinematic lighting, volumetric rays, depth of field, realistic skin texture, intricate clothing details, lifelike reflections on the trucks, and an epic widescreen aspect ratio (21:9). Art style inspired by high-end movie posters and hyperrealistic photography.

Результат: нейросеть справилась с поставленной задачей.

Генератор картинок от разработчиков DeepSeek. Тест-драйв новой нейросети - 21

DeepAI

Следующий сервис для сравнения — deepai.org. Это универсальная платформа с множеством инструментов: от стандартного чат-бота и генератора изображений до аудиочата и «хуманизатора» ИИ-текстов. Использовать можно без регистрации.

Для генерации картинок нужно:

  • задать промт,
  • выбрать качество генерации,
  • определить приоритет (скорость или качество),
  • подобрать стиль из более чем ста вариантов.

Генератор картинок от разработчиков DeepSeek. Тест-драйв новой нейросети - 22

Создадим изображение с игрой в теннис на Марсе. Промт прежний.

A polar bear plays tennis on Mars with a dolphin and an elephant.

Генератор картинок от разработчиков DeepSeek. Тест-драйв новой нейросети - 23

Можно поэкспериментировать со стилями, чтобы получить более интересные генерации. Все в ваших руках! Результаты неплохие, но не идеальные. Однако ключевые плюсы платформы — бесплатное использование и отсутствие ограничений по количеству генераций. Можно дорабатывать промт и получать более точные картинки без лишних затрат.

Генератор картинок от разработчиков DeepSeek. Тест-драйв новой нейросети - 24

Далее выберем подходящий неоновый стиль и зададим подробный промт.

Промт

A highly realistic and cinematic scene featuring Jean-Claude Van Damme, the legendary martial artist and actor, sitting in a perfect split position between two massive semi-trucks on a Texas highway. The composition is dynamic and visually striking, with extreme attention to detail. The trucks are modern, shiny, and reflect the bright sunlight, creating realistic lighting effects. The road stretches into the distance, surrounded by the iconic Texan landscape—rolling golden plains, distant mesquite trees, and a vast blue sky with scattered clouds. The time of day is late afternoon, with warm, golden-hour lighting casting long shadows and enhancing the textures of the environment. Jean-Claude Van Damme is dressed in a classic 90s action-hero outfit: tight black tank top, camouflage pants, and combat boots, showcasing his muscular physique. His expression is calm but confident, exuding strength and focus. Ultra-high detail, photorealistic rendering, 8k resolution, cinematic lighting, volumetric rays, depth of field, realistic skin texture, intricate clothing details, lifelike reflections on the trucks, and an epic widescreen aspect ratio (21:9). Art style inspired by high-end movie posters and hyperrealistic photography.

Результат: получилось качественное изображение с прорисованным «Жаном», грузовиками, и даже тенью.

Генератор картинок от разработчиков DeepSeek. Тест-драйв новой нейросети - 25

Chatbot Arena

Последний сервис в нашем сравнении — lmarena.ai. Особенности платформы:

  • возможность получать ответы от двух разных моделей одновременно;
  • сравнение полученных результатов (генерация текста, чат, помощь с GitHub-репозиториями);
  • голосование за лучший результат.

Генератор картинок от разработчиков DeepSeek. Тест-драйв новой нейросети - 26

Прописываем промт и получаем два результата. Чтобы узнать, где какая нейросеть, нужно проголосовать.

Генератор картинок от разработчиков DeepSeek. Тест-драйв новой нейросети - 27
Генератор картинок от разработчиков DeepSeek. Тест-драйв новой нейросети - 28

Chabot Area — интересный инструмент для сравнения различных нейросетей на основе результата их работы. Пользователи участвуют в оценке генераций моделей, формируя объективный рейтинг.

Заключение


Развернуть модель Janus-Pro-7B локально или в облаке будет полезно, если вам нужно неограниченное количество генераций, а также полный контроль над процессом. Однако стоит помнить, что это требует затрат и времени на настройку. Онлайн-версия модели при этом работает быстро, бесплатна и не требует от вас ресурсов, но накладывает ограничения на количество использований.

Пока Janus Pro 7B уступает по качеству генерации бесплатным онлайн-нейросетям, которых на просторах интернета сейчас очень много. Но списывать модель со счетов не стоит. Конкуренция между OpenAI и DeepSeek только растет, а с увеличением финансирования модели будут развиваться.

Какими инструментами для генерации картинок пользуетесь вы? Популярными сервисами вроде Dall-E и Midjourney или чем-то менее известным? Делитесь своими находками в комментариях, буду рад обсудить и рассмотреть новые сервисы!

Автор: Flampanzer

Источник

* - обязательные к заполнению поля


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js