Использование AI в digital-маркетинге. Часть 4: Сравнение MidJourney и Dall-E.
На сегодня Dall-E и MidJourney — две самые популярные нейронные сети, используемые для генерации изображений на основе пользовательских запросов. Несмотря на то, что обе технологии выполняют одну и ту же задачу, между ними есть определенные различия.
Для начала Mobio рассмотрит особенности самих сетей.
Midjourney
2. Каждому новому пользователю доступны бесплатные 25 минут работы графического процессора, что в теории может быть равно 25 изображениям.
Если генерировать изображения с увеличенной детализацией или HD форматом (например, использовать команды --hd или --wallpaper), то на генерацию изображений будет использоваться больше времени.
3. На каждый запрос нейросеть рисует четыре изображения, которые можно улучшить или сгенерировать для на их основе дополнительные варианты.
4. С помощью специальных команд можно устанавливать размеры генерируемых изображений.
- Базовый — за 10$ в месяц вы получаете 200 минут работы fast GPU.
- Стандарт стоит 30$ в месяц и вам будет доступно 15 часов работы fast GPU и неограниченное время relax GPU.
- Корпоративный — за 600$ в год доступно 30 часов работы fast GPU и неограниченное время relax GPU. Также, этот тарифный план позволяет использовать скрытый режим, который не позволяет другим просматривать ваши изображения.
В режиме relax GPU запрос помещается в очередь для обработки по мере освобождения графических процессоров. Изображение может быть сгенерировано как через пару минут, так и спустя несколько часов.
При подключении любого тарифного плана вы получаете права на использование сгенерированных вами изображений.
DALL-E
2. Пользователи из России могут подключиться только через VPN. А для регистрации понадобится иностранный номер телефона.
3. Есть встроенная опция модификатора. Это позволяет легко корректировать отдельные элементы изображения.
4. Для каждого изображения можно сгенерировать дополнительные варианты.
Существенным минусом DALL-E является отсутствие возможности устанавливать размеры изображений. Нейросеть генерирует только изображения формата 1:1.
Пользователь обладает полными правами на все сгенерированные им изображения.
Практическое сравнение с примерами
Первой задачей было создать крупную цифру 5% в нежных пастельных тонах из атрибутов весны для рекламного баннера.
С этой задачей однозначно лучше справился Midjourney. Правда, знак процентов не поддался ни одной сети.
Запрос:
number 5 assembled from flowers and butterflies, spring pastel colors
Midjourney
DALL-E
Вторая задача заключалась в создании узнаваемых мемных изображений но без 100% их копирования, чтобы избежать юридических последствий использования. Для теста мы попытались получить изображения Дуэйна Скалы Джонсона и известного мема с улыбающимся котом.
С этим заданием обе сети справились довольно хорошо, но получить нужный результат от DALL-E оказалось намного проще благодаря инструменту генерации похожих на исходное изображение вариантов.
Дуэйн Джонсон Midjourney
Запрос:
https://s.mj.run/YcIg_hysdcI dwayne the rock johnson smile, looking at camera, poster, reflections, dynamic pose, Cinematic, Color Grading, Depth of Field, hyper-detailed, insane details, intricate details, beautifully color graded, Unreal Engine, Editorial Photography, Depth of Field, DOF, White Balance, 32k, Super-Resolution, Megapixel, ProPhoto RGB, VR, Massive, Halfrear Lighting, Backlight, Natural Lighting, Incandescent, Optical Fiber, Moody Lighting, Cinematic Lighting, Studio Lighting, Soft Lighting, Volumetric, Contre-Jour, Beautiful Lighting, Accent Lighting, Global Illumination, Screen Space Global Illumination, Ray Tracing Global Illumination, Optics, Scattering, Glowing, Shadows, Rough, Ray Tracing Reflections, Lumen Reflections, Screen Space Reflections, GB Displacement, Scan Lines, Ray Traced, Ray Tracing Ambient Occlusion, Anti-Aliasing, FKAA, TXAA, RTX, SSAO, Shaders, OpenGL-Shaders, GLSL-Shaders, Post Processing, Post-Production, Cel Shading, Tone Mapping, CGI, VFX, SFX, insanely detailed and intricate, hypermaximalist, elegant, hyper realistic, super detailed, dynamic pose
Дуэйн Джонсон DALL-E
Мем с котиком. Оригинал:
Midjourney
Запрос:
https://s.mj.run/pe-FYjlI8q4 white cat, ears back, look at camera, close , cute face, scottish lop-eared, looking at camera, poster, reflections, dynamic pose, Cinematic, Color Grading, Depth of Field, hyper-detailed, insane details, intricate details, beautifully color graded, Unreal Engine, Editorial Photography, Depth of Field, DOF, White Balance, 32k, Super-Resolution, Megapixel, ProPhoto RGB, VR, Massive, Halfrear Lighting, Backlight, Natural Lighting, Incandescent, Optical Fiber, Moody Lighting, Cinematic Lighting, Studio Lighting, Soft Lighting, Volumetric, Contre-Jour, Beautiful Lighting, Accent Lighting, Global Illumination, Screen Space Global Illumination, Ray Tracing Global Illumination, Optics, Scattering, Glowing, Shadows, Rough, Ray Tracing Reflections, Lumen Reflections, Screen Space Reflections, GB Displacement, Scan Lines, Ray Traced, Ray Tracing Ambient Occlusion, Anti-Aliasing, FKAA, TXAA, RTX, SSAO, Shaders, OpenGL-Shaders, GLSL-Shaders, Post Processing, Post-Production, Cel Shading, Tone Mapping, CGI, VFX, SFX, insanely detailed and intricate, hypermaximalist, elegant, hyper realistic, super detailed, dynamic pose
DALL-E
Мы пробовали как генерацию по различным текстовым запросам, так и генерацию на основе базовой фотографии, но по итогу множества попыток получить изображение с нужной нам сценой так и не удалось.
Midjourney
Запрос:This photo shows a middle-aged woman sitting alone in her kitchen on a cold and rainy evening. She is sad and looks downcast, her eyes fixed on the cup of coffee in her hands. The room is dimly lit, with only a small lamp providing the only light. The woman is wearing a simple grey dress and her hair is tied back in a low ponytail, her face expressionless. She looks lost in thought, her mind miles away from the gloomy kitchen. It is a poignant image, one that speaks to the loneliness and isolation that many of us feel in our daily lives.
Запрос:
This photo depicts a middle-aged woman sitting in a dimly-lit kitchen and biting into a cookie. She looks sad and downcast, with her eyes cast downward and her shoulders slumped. Her expression suggests she is in a state of deep contemplation and her posture suggests she is feeling isolated and alone. The kitchen is sparsely decorated and has a somewhat gloomy atmosphere. The woman is wearing casual clothing and her hair is tied back in a low ponytail. The cookie she is holding in her left hand is still whole, but her right hand is already starting to break it into small pieces. The scene conveys a sense of sorrow and loneliness.
DALL-E
Запрос:"This photo shows a tired woman in her 40s sitting in her kitchen in the twilight, taking a bite from a cookie. She looks exhausted and overwhelmed, but still manages to take a break for a snack."
Запрос:
"The picture shows a tired woman in her 40s, sitting at her kitchen table in half-darkness. She is taking a bite out of a cookie, a look of exhaustion evident on her face. She is wearing a comfortable t-shirt and sweatpants, her hair is slightly disheveled and her eyes are downcast. The room is illuminated only by the soft yellow light of a single lamp, the rest of the room being shrouded in shadow"
Оценка результатов и выводы Mobio
Midjourney
Слабые стороны:
- Работа в дискорде и отсутствие API для удобства интеграции в бизнес-инструменты очень сильно осложняет ее использование в повседневной жизни агентства.
- Достаточно медленная работа движка, даже по сравнению с DALL-E, но при этом и цена в пять раз ниже “за попытку”.
DALL-E
Как “генератор шедевров” относительно Midjourney средненький. Хотя, возможно, его надо изучить получше, прежде чем делать окончательные выводы. Может для DALL-E нужно строить запросы как-то иначе.
Эти два инструмента отлично могут работать в паре: Midjourney генерировать арты, а DALL-E их редактировать.