Компания Google объявила о широком доступе к своей последней версии модели преобразования текста в изображение — Imagen 3. Эта модель была представлена в мае на конференции Google I/O и теперь доступна для широкой публики.
Imagen 3 является продвинутым генератором искусственного интеллекта от Google, который может составить конкуренцию другим моделям, таким как Midjourney, DALL-E 3 и Grok-2 от X. Однако, в отличие от Grok-2, который стал известен созданием изображений, защищённых авторским правом, и дипфейков публичных личностей, Google заявляет, что использовала обширную фильтрацию и маркировку данных, чтобы минимизировать вредоносный контент в наборах данных и снизить вероятность вредоносных выходных данных.
Кроме того, изображения, созданные Imagen 3, имеют цифровой водяной знак SynthID от Google, который позволяет определить происхождение изображения. Это важный шаг в направлении безопасности и прозрачности в области искусственного интеллекта.
По словам Google, Imagen 3 обладает большей универсальностью и пониманием подсказок, более высоким качеством изображений и лучшей визуализацией текста, который является постоянной проблемой для всех моделей изображений на основе ИИ. Пользователи уже тестируют Imagen 3 в реальных условиях и получают впечатляющие результаты.
Новая модель также отличается большей гибкостью и способностью понимать более сложные подсказки, что позволяет создавать более детализированные и реалистичные изображения. Кроме того, Imagen 3 использует улучшенные алгоритмы для минимизации искажений и шума в изображениях.
Некоторые пользователи Reddit раскритиковали эту модель за то, что она слишком ограничивает набор изображений, которые ей разрешено генерировать.
Imagen 3 уже доступен через ImageFX и VertexAI. В скором времени генератор станет доступен во всех функциях Google AI в Workspace и Gemini в веб-браузере и на мобильных устройствах.