Технологии

Битва нейросетей: Midjourney, DALL-E, Kandinsky и «Шедеврум»

Кто победит?

24-04-2023

Сложно отрицать, что генеративные нейросети захватили интернет. Их создатели генерируют инфоповоды каждый день. Сначала сторонники Дональда Трампа всполошились из-за ареста политика после появления реалистичных снимков с места события — оказалось, их сделали в MidJourney.

Затем некоторые СМИ в сфере моды начали неиронично обсуждать модный пуховик Папы Римского Франциска — тоже, кстати, ненастоящий. Из недавнего: созданная при помощи DALL-E картинка победила на крупнейшем конкурсе фотографии Sony Photography Awards.

И это лишь часть связанных с ИИ заголовков последних недель.

Прежде, чем бежать генерировать картинки для себя, своих друзей и друзей друзей, стоит разобраться, какой из популярных инструментов лучше. Препарируем DALL-E, Midjourney и их аналоги из России: Kandinsky от Сбера и «Шедеврум» от «Яндекса».

Удобство использования

Пожалуй, начать стоит с главного — насколько удобно пользоваться представленными нейросетями. Сегодня для того, чтобы взаимодействовать с искусственным интеллектом, навыки программирования не нужны. Тем не менее, каждый из участников сегодняшнего сравнения имеет разный интерфейс, и это стоит отметить.

Взаимодействие с Midjourney осуществляется через бота в Discord. Это удобно, но для доступа к нейросети необходимо иметь аккаунт в сервисе. Также с недавних пор разработчики закрыли возможность бесплатно генерировать картинки, оставив только платные тарифы ($10/$30/$60 в зависимости от количества доступных генераций).
Более удобным кажется Kandinsky, бесплатно принимающий запросы в Telegram-боте. Разработчики DALL-E выделили под генерацию картинок отдельный сайт, на котором можно создавать до 15 бесплатных картинок в месяц (подписка стоит $15).
Недавно запустившийся «Шедеврум» от Яндекса распространяется в виде минималистичного приложения на смартфон. Удобно, но только до тех пор, пока не потребуется сгенерировать картинку с компьютера.

Простые запросы

Опытные промтеры (эксперты в создании запросов для нейросетей) рекомендуют придумывать максимально подробные описания нужных картинок для лучшего результата. Тем не менее, об этом знают не все. Поэтому в качестве первого теста мы выбрали простейший запрос «синий куб на эпичном фоне», чтобы проверить креативность нейросетей.

На наш взгляд, хуже всех с задачей справился DALL-E, выдавший скучную картинку с минимумом деталей. Чуть лучше ситуация у «Шедеврума»: — фон действительно подходит под описание «эпичный», однако исполнение слишком зернистое. Результаты Kandinsky и Midjourney, в свою очередь, эталонны как в понимании задачи, так и в качестве исполнения.

Связь с реальностью

Так как нейросети нередко используются для генерации картинок под актуальные события, важно проверить, насколько хорошо они знакомы с реальным миром. Для этого участникам сравнения был задан одинаковый запрос: «желтый Tesla Cybertruck».

Результаты этого теста оказались противоречивыми. С одной стороны, наиболее близкий к настоящему Tesla Cybertruck результат получился у «Шедеврум»а, с другой — картинка от Midjourney не рябит и выглядит в сумме более привлекательно.

Kandinsky слишком сильно отошел от форм Cybertruck, и немного прогадал с формой колес, сделав их шестиугольными. DALL-E и вовсе взял концепт грузовика Tesla за основу изображения — мимо.

Еще один запрос из той же области — «брендированные штаб-квартиры Сбербанка и Яндекса в центре Красной площади». Здесь сложно сказать, кто лучше справился с задачей, так как каждая из картинок далека от идеала.

Во-первых, с буквами нейросети пока не научились работать, а во-вторых, каждый из участников сравнения рисует лишь одно здание — судя по цветам, Сбербанка. Особенно отличился «Шедеврум», полностью проигнорировавший запрос со штаб-квартирами.

Анатомия

Частая проблема генеративных нейросетей — анатомия. ИИ неплохо рисует человека в общих чертах, но часто не справляется с деталями. Для демонстрации достижений в этой области был выбран простейший запрос: «рука с пятью пальцами делает жест “Окей”».

Начнем с плохого: — «Шедеврум», может, и пытался нарисовать пять пальцев, но получилось у него все равно шесть с половиной. Выглядит сюрреалистично. Примерно то же самое у Midjourney, да еще и стиль стимпанк откуда-то взялся.

Kandinsky справился с задачей лучше (пальцев тут действительно пять), но на руку человека это мало похоже. А вот DALL-E серьезно удивляет — картинку не отличить от настоящего снимка с фотостока.

Сложные запросы

Переходим к хардкору: — мыши с головами тигров водят хоровод вокруг фигурки лего-человечка. Сразу стоит оговориться, этот запрос был придуман лишь для тестирования лимитов нейросетей, а не для получения серьезных результатов. И, тем не менее, вот что вышло.

Точно замысел не ухватил ни один из участников: мыши на каждой из картинок имеют неправильные головы, а фигурка лего везде превратилась в тигра. Тем не менее, изображения от DALL-E и «Шедеврум»а явно проигрывают Kandinsky и Midjourney в целостности.

Между двумя фаворитами выбирать сложнее, но победителем все же выходит Midjourney, как нейросеть, сгенерировшая картинку с наименьшим количеством артефактов.

Дополнительные фишки

Сравнив основной функционал — генерацию картинок — можно обратить внимание на дополнительные фишки. Midjourney и Kandinsky, в частности, умеют смешивать два изображения в одно.

При попытке объединить Джеффа Безоса и Илона Маска в одного гига-бизнесмена Kandinsky показывает менее качественный результат. Видно, что задачу нейросеть поняла, но с техническим исполнением есть определенные проблемы — это особенно заметно в области глаз.

Чуть лучше, но все еще не на хорошем уровне Midjourney обстоит ситуация с неодушевленными объектами. При попытке сделать паттерн из бутылок Kandinsky не учел их положение в пространстве, но все равно проделал неплохую работу.

Еще одна интересная возможность Midjourney — обратный промт. Если загрузить в нейросеть картинку, она выдаст описание, которое позволит сгенерировать близкий к изображению результат. Удобная фишка, которая позволяет лучше понимать ИИ.

Заключение

Победителем в сравнении становится Midjourney. Результаты работы этой нейросети впечатляют своей креативностью, а итоговые картинки почти всегда пригодны для использования

Второе место занимает Kandinsky. Учитывая, что это лишь вторая версия нейросети, хочется похвалить разработчиков за проделанную работу. Важно понимать, что проект находится на ранней стадии: — тот же Midjourney уже получил пять крупных обновлений.

Третье место отдается DALL-E. Нейросети удается неплохо работать с анатомией, но в остальном она не очень дружелюбна к начинающим промтерам. Если посвятить проработке запроса несколько часов и создать детальный запрос, с DALL-E можно достичь впечатляющих результатов. Тем не менее, в этой статье нейросети рассматривались со стороны среднестатистического пользователя, который не готов тратить столько времени на работу с сервисом.

Четвертое место — «Шедеврум» от «Яндекса». Он показывает наиболее сырые результаты среди всех участников, но это можно объяснить тем, что приложение только представили. Разработчикам нужно время для исправления ошибок и оттачивания возможностей.

Фото на обложке сгенерировано при помощи нейросетей Midjourney, DALL-E, Kandinsky и «Шедеврум»

Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter.

Давайте знакомиться

Ничего не понимаете в этих терминах?
Мы создали краткое введение
в индустрию, чтобы вам было проще разобраться в непростом мире Web3-экономики

Вы хотите сами размещать материалы для обсуждения?

Добро пожаловать в наше
Web3-комьюнити авторов.

Не только деньги: альтернативные применения блокчейна

Криптовалюты станут мейнстримом через два года

$35,9 млрд инвестиций в DeFi, NFT и Web3 за первую половину 2022 года: обзор отчета Messari и Dove Metrics

Ethereum переходит на инновационный протокол