Постоянно вижу красивые картинки, созданные нейросетями. Как бы научиться делать такие же? Объясняем и показываем на примере новой версии Midjourney
1.
Что случилось?
2.
Давайте начнем с азов: что за «генеративный искусственный интеллект»?
3.
Так, а что такое Midjourney?
4.
Окей, а как попробовать последнюю версию Midjourney?
5.
Какой еще Discord? И как там зарегистрироваться?
6.
Я впервые на Discord. Глаза разбегаются, что нажимать?
7.
Midjourney выдала четыре изображения вместо одного. Почему?
8.
Бот заявляет, что я больше не могу создавать картинки. А что, был лимит?
9.
Какие еще бывают настройки у Midjourney?
10.
Это все?
11.
Как правильно описать картинку, которую хочется получить?
12.
А можно загрузить собственную картинку, чтобы Midjourney нарисовала похожую?
13.
Получится ли загрузить картинку и как-то «достать» ее описание-промт?
14.
Есть ли в нейросетях какие-то ограничения?
15.
А готовые промты где-то можно найти? Чтобы поэкспериментировать с ними
16.
Это все хорошо, но я пока не могу воспользоваться новой версией Midjourney. Там правда все так впечатляюще?
17.
Так, а что там с пальцами?
18.
А что с копирайтом? Могу ли я взять картинку из Midjourney и использовать в другом месте?
19.
И куда мир катится? Скоро вокруг не останется человеческих изображений?
Что случилось?
Интернет заполнили изображения, созданные с помощью нейросетей, которые генерируют картинки по текстовому запросу. Все чаще в соцсетях массово принимают фейковые изображения (например, с Дональдом Трампом и папой римским) за настоящие — и это неудивительно, ведь в такие снимки чрезвычайно легко поверить из-за невиданной реалистичности.
Раньше качественные генераторы изображений были доступны лишь узкому кругу профессионалов и энтузиастов. Но в последний год в сфере генеративного искусственного интеллекта произошел бум — и такими сервисами могут пользоваться практически все желающие.
Более того, это не сиюминутный тренд, а то, что уже меняет рынок труда, по крайней мере в сфере креативной экономики: ИИ-генераторами картинок вовсю пользуются во всех творческих отраслях.
Но как именно «выжать» из таких нейросетей все возможное? Рассказываем на примере одного из самых популярных и впечатляющих сервисов — Midjourney.
Давайте начнем с азов: что за «генеративный искусственный интеллект»?
Так в целом называют системы, которые могут генерировать текст, картинки и другой контент по запросам пользователей. В основе лежат нейросетевые модели, которые обучаются создавать контент с учетом доступного им предыдущего контекста.
Иногда, говоря о генеративных нейросетях, имеют в виду более узкий термин — генеративно-состязательные сети. Это алгоритмы машинного обучения, построенные на комбинации из двух нейронных сетей: одна генерирует образцы, а другая работает «фильтром» — оценивает результаты, классифицирует и сопоставляет с известными ей категориями (отсюда «состязательность»).
Так, а что такое Midjourney?
Это одна из самых популярных в мире визуальных нейросетей, наряду с DALL-E и Stable Diffusion.
Творчество Midjourney и ее конкурентов чаще всего фигурирует в дискуссиях о будущем художников, дизайнеров и представителей других творческих профессий. К примеру, картина, созданная именно с помощью Midjourney, победила на художественном конкурсе в США, что вызвало много споров: судьи не знали, что перед ними нейросетевое искусство.
Фотографии с Трампом и папой римским сделаны с помощью пятой версии Midjourney, представленной в середине марта. Сервис стал еще более чутко относиться к текстовым запросам пользователей, выдавать куда более реалистичные изображения в высочайшем разрешении, с огромным количеством деталей и нестандартным соотношением сторон (например, 16:9). А еще у Midjourney теперь намного лучше по сравнению с предыдущими версиями получаются кисти рук и пальцы — а это один из самых проблемных моментов для искусственного интеллекта.
Midjourney находится в стадии открытого бета-тестирования с 12 июля 2022 года. Изначально пользователям была доступна вторая версия нейросети, анонсированная в апреле 2022 года (о первой стало известно в марте 2022-го). 25 июля 2022 года запустилась третья версия, в начале ноября — четвертая. Были и промежуточные обновления. А еще 15 марта уже этого года появился ежемесячный журнал Midjourney Magazine, который печатается на бумаге и показывает результаты работы нейросети.
Все это время создатели активно общались с пользователями на discord-сервере, просили о помощи, рассказывали о новинках и объясняли, как сориентироваться на сайте. По состоянию на конец марта 2023 года сервер Midjourney — самый популярный на Discord. В нем больше 13 миллионов участников. (На втором месте — сообщество компании OpenAI, объединившее больше трех миллионов человек.)
Окей, а как попробовать последнюю версию Midjourney?
Только одним способом — нужно зарегистрироваться на discord-сервере (россиянам он доступен без VPN).
Бесплатно воспользоваться новой версией Midjourney нельзя — платный аккаунт обязателен. При этом российские карты для оплаты не принимаются.
Есть три варианта подписки на Midjourney — за 10, 30 и 60 долларов ежемесячно. Пакеты отличаются количеством серверного времени, доступного клиентам (и соответственно, количеством изображений, которые можно сгенерировать), наличием персональной поддержки и другими, менее значимыми услугами. При оплате сразу на год вперед цены ниже — 8, 24 и 48 долларов в месяц.
Четвертую и более ранние версии Midjourney теперь тоже нельзя попробовать бесплатно. В конце марта глава компании Дэвид Хольц объявил, что нейросеть будет доступна только платным подписчикам, и объяснил изменения большим спросом и обилием злоупотреблений.
У меня уже есть Midjourney — как узнать, какая именно версия?
Узнать о той версией Midjourney, которой вы пользуетесь, можно с помощью команды /settings («настройки») в любом канале официального discord-сервера компании. Эта команда выводит на экран соответствующее меню.
Более ранние версии можно использовать, например, чтобы оценить прогресс в работе нейросети.
Какой еще Discord? И как там зарегистрироваться?
Discord — это мессенджер, особенно популярный среди геймеров и студентов. Есть и мобильное приложение, и клиент для операционных систем, и онлайн-версия.
Зарегистрироваться на Discord можно так же, как и на любом другом сервисе. Затем нужно присоединиться к официальному серверу Midjourney и принять стандартное пользовательское соглашение — и можно исследовать возможности нейросети.
После этого владельцы платной подписки получают доступ ко всем возможностям нейросети.
Я впервые на Discord. Глаза разбегаются, что нажимать?
Интерфейс Discord похож на интерфейс других мессенджеров, но в нем больше функций. Мы опишем работу с веб-клиентом, так как его не нужно устанавливать: достаточно открыть в отдельной вкладке браузера.
После того как пользователь попадает на сервер Midjourney, в левой части интерфейса он видит список доступных каналов. Среди них особенно важны чаты (или комнаты) под названием #newbies («новички»). Можно выбрать любой из них и войти. Вы увидите ленту с картинками других пользователей, а внизу — поле для ввода сообщений. Дальше вам предстоит взаимодействовать с ботом, понимающим команды. Достаточно напечатать слеш (/), и появится их список. Можно выбирать команды из списка, можно печатать с клавиатуры.
Главная команда называется /imagine («вообрази»): после нее появляется поле «prompt» («промт»), где и следует вбивать текстовое описание картинки, которую вы хотите получить. Лучше всего писать запросы на английском языке, на котором и обучалась нейросеть.
После отправки команды бот начнет генерацию изображения. В среднем на это уходит около 30 секунд, но время зависит от загруженности сервера. При этом лента чата продолжит обновляться, и ваше сообщение скоро уйдет вверх. Чтобы его не потерять, можно пользоваться кнопкой «Почта» в правом верхнем углу экрана, где в разделе «Упоминания» находятся все ваши сообщения (на нашем слайде «Почта» уже открыта и выглядит как дополнительная лента справа).
Вот что Midjourney «вообразила» по запросу «Медузы», который переводится примерно как «фотореалистичный кентавр с велосипедным низом и женским верхом»:
Помимо /imagine, есть и другие полезные команды. По команде /faq появятся ответы на самые частые вопросы, по команде /docs — ссылки на различные руководства, правила и полезные ресурсы. Документацию нейросети и описание всех ее возможностей по-английски можно найти на сайте компании (там есть простые шаги для новичков).
На сервере также работает канал с официальными объявлениями разработчиков, чаты для обсуждений и галереи удачных изображений. Все это находится там же, где и каналы #newbies.
Midjourney выдала четыре изображения вместо одного. Почему?
Так происходит всегда. На каждый запрос нейросеть предлагает четыре варианта изображения, каждый размером 512 × 512 пикселей (если нет дополнительных параметров). Под ними появляется небольшое меню, которое выглядит вот так:
Буквой U здесь обозначена команда upscale («апскейл» — «увеличить масштаб»), V — variations («вериэйшнс» — «вариации»), цифра указывает на одну из четырех сгенерированных картинок. Круговые стрелки — это команда «повторить генерацию» по тому же промту. Все эти команды можно применять и к чужим картинкам, которые появляются в ленте.
Например, выберем изображение велокентавра в левом нижнем углу: теперь можно получить либо его детализированную версию (U3), либо четыре дополнительных варианта, развивающих идею в избранном направлении (V3).
Предположим, мы выберем третьего из наших велокентавров и захотим получить его «апскейл» с помощью команды U3. Бот Midjourney снова примется за работу и скоро выдаст результат размером 1024 × 1024:
Под этим изображением появятся дополнительные опции:
Здесь пользователю предлагается оценить результат с помощью смайликов, снова заказать четыре вариации той же картинки (make variations) или воспользоваться различными опциями перерисовки. Вот несколько из них (две появляются сразу, две — при дальнейшей работе):
- light upscale redo — перерисовка в разрешении 1536 × 1536;
- beta upscale redo — более серьезная переработка изображения с разрешением 2048 × 2048;
- detailed upscale redo — то же разрешение, что в light upscale, но с дополнительной детализацией;
- remaster — переработка изображения в фотореалистичном стиле.
Будьте готовы: перерисованные изображения не всегда получаются более удачными. После выбора опции detailed upscale redo Midjourney выдал нам нечто довольно жуткое в стиле программы DeepDream:
Бот заявляет, что я больше не могу создавать картинки. А что, был лимит?
Да. Предположим, вы приобрели базовую подписку Midjourney. В этом случае вам доступно чуть больше трех часов серверного времени в быстром режиме (fast mode). Этого должно хватить примерно на 200 операций. Когда лимит исчерпан, пользователю приходит уведомление.
Чтобы узнать свой статус и оставшееся время, можно воспользоваться командой /info. Она выводит окошко со статистикой:
Подписку можно продлевать с помощью почасовой оплаты — один дополнительный час обойдется в четыре доллара.
Какие еще бывают настройки у Midjourney?
В настройках можно изменить, например, качество изображений (более низкое позволяет меньше ждать результата) и уровень «стиля» (чем он выше, тем более «художественными» выходят картинки и тем дальше удаляются от промта).
Есть функции, которые влияют на время ожидания результата. По умолчанию используется fast mode (в среднем до минуты), тогда как relax mode позволяет не исчерпывать лимит операций — но придется дольше ждать. Stealth mode («стелс-режим») скрывает ваши работы, если вы не хотите, чтобы они были видны в галерее на сайте Midjourney (на discord-сервере они все равно останутся).
Remix mode (режим «ремикса») позволяет «смешивать» изображения и работать с версиями, которые выдаст нейросеть. Если при включенном remix mode попытаться сделать вариацию картинки, появится дополнительное меню, где вам предложат ввести новое текстовое описание:
Есть еще три разновидности нейросети — Niji Mode, MJ Test, MJ Test Photo. С версией Niji (от японского слова со значением «радуга») получаются картинки в стиле аниме. Например, такие:
Что конкретно делает MJ Test, создатели не объясняют, но в примерах на официальном сайте изображения получаются более творческими и разнообразными. MJ Test Photo усиливает фотореалистичность.
Это все?
Нет.
Все упомянутые выше настройки (и некоторые другие) можно менять, добавляя после промтов специальные символы. Например, --v 3 активирует третью версию Midjourney, --aspect или --ar изменяет соотношение сторон (например, --ar 4:3). Всего доступно около двух десятков параметров, их можно совмещать друг с другом. Вот несколько любопытных вариантов:
- --chaos: если поставить этот параметр на максимум («--chaos 100»), нейросеть уйдет далеко в сторону от вашего промта, если на минимум («--chaos 0») — выдаст изображение, максимально соответствующее запросу;
- --video: можно сохранить видео того, как происходила генерация вашего изображения;
- --tile: создает мозаику, узор или орнамент из повторяющихся элементов (не работает с четвертой версией Midjourney);
- --no: указывает, каких объектов не должно быть на картинке (например, --no elephants, то есть «без слонов»);
- --stop: позволяет остановить генерацию на полпути (после параметра нужно указать число от 10 до 100 — проценты выполнения задания), получив странные размытые изображения.
Как правильно описать картинку, которую хочется получить?
Создание промтов (запросов, подсказок) для визуальных нейросетей — это целое искусство. За последний год появилось множество руководств и сайтов, помогающих сформировать наилучшее текстовое описание.
В официальном руководстве Midjourney предлагается список уточнений, которые помогут создать хороший промт, в их числе:
- медиум: фото, картина, иллюстрация, скульптура, скетч (photo, painting, illustration, sculpture, doodle);
- среда: внутри, снаружи, на Луне, в Нарнии, под водой, в Изумрудном городе (indoors, outdoors, on the moon, in Narnia, underwater, the Emerald City);
- цвет: яркий, приглушенный, монохром, красочный, черно-белый, пастельный (vibrant, muted, bright, monochromatic, colorful, black and white, pastel);
- настроение: уравновешенное, спокойное, грубое, энергичное (sedate, calm, raucous, energetic);
- композиция: портрет, хедшот, крупный план, взгляд с высоты птичьего полета (portrait, headshot, closeup, birds-eye view).
Есть и более подробное руководство от разработчиков, где они показывают всевозможные эффекты, тренируясь на кошках — буквально.
Плохая новость — русскоязычные промты Midjourney понимает не очень хорошо. Когда мы попросили ее показать нам «руины футуристического города» (русским языком попросили!), генерация получилась такой.
Так что лучше вводить описания по-английски. В целом конструкция промта зависит от того эффекта, которого вы хотите добиться. Более интересные картинки, как правило, получаются из самых подробных промтов. Основные части запроса лучше отделять запятыми.
Помимо «содержания» (того, что вы хотели бы увидеть), следует обозначить стилистические особенности. Это могут быть направления живописи, имена художников, которым следует подражать, предпочитаемые цвета, эффекты освещения и так далее. Можно задавать несколько объектов на одном изображении, отделив их знаком «:».
В качестве примера того, как связаны промт и результат, можно привести такую работу AI-художницы Дженн Мишра. Она использовала для генерации промт «illuminated manuscript baroque rococo hot air balloon:handwritten annotations:parchment:insanely detailed:da Vinci» («иллюминированный манускрипт барокко рококо воздушный шар:рукописные примечания:пергамент:сумасшедшая детализация:да Винчи»).
А можно загрузить собственную картинку, чтобы Midjourney нарисовала похожую?
Да, Midjourney умеет «имитировать» другие изображения.
Для создания таких запросов необходимо разместить графические файлы в интернете и указать URL-адрес после команды /imagine (файлы также можно загрузить на discord-сервер).
Есть несколько вариантов использования этой функции.
Самый простой: загрузить картинку и дополнить ее текстовым описанием (оно может содержать инструкции, никак не связанные с вашим изображением).
Тут пригодится параметр --iw, который указывает «вес изображения» (image weight), то есть его влияние на результат в сравнении с текстом. По умолчанию установлено значение --iw 0.25: чем коэффициент больше, тем ближе итоговое изображение к тому, что вы задали в качестве образца; максимум — единица.
Другой вариант генерации с помощью визуальных промтов: создание «гибридов» из двух картинок. В этом случае текстовое описание не требуется. Есть также полезная команда /blend, позволяющая быстро загрузить от двух до пяти изображений и получить их смесь.
Среди примеров использования этой функции — генерация аватаров для соцсетей (примерно как в приложении Lensa, о котором мы писали ранее) и создание фотореалистичных изображений с известными людьми.
Альберт Эйнштейн в антураже современной кофейни, работа техноблогера Майкла Кинга, сделанная с помощью пятой версии Midjourney
А еще Midjourney понимает промты, состоящие из эмодзи. Например, такие: 🧀🍴😋. Кстати, вот что получится:
Получится ли загрузить картинку и как-то «достать» ее описание-промт?
Да. В начале апреля создатели Midjourney добавили команду /describe: она как раз выдает текстовые описания ваших изображений.
После загрузки картинки на Discord нейросеть предложит четыре варианта описания. Они будут выглядеть как стандартные промты: помимо перечисления объектов в кадре, алгоритм укажет формальные и стилистические характеристики (например, преобладающие цвета, настройки камеры и соотношение сторон).
Функция, описывающая изображения, сильно облегчает людям с нарушениями зрения работу в интернете. Специалист в этой сфере и сооснователь компании Accessibility Checker Дэн Триктер рассказал изданию Lifewire, что описание изображений позволяет незрячим и слабовидящим людям лучше взаимодействовать с соцсетями и делать покупки онлайн.
Есть ли в нейросетях какие-то ограничения?
Есть.
Как и создатели других нейросетей, разработчики Midjourney серьезно подошли к безопасности и отсеиванию нежелательной информации. Искусственный интеллект не будет генерировать контент для взрослых, жестокие и шокирующие изображения. А еще есть несколько категорий запрещенных тем — например, разработчики противостоят созданию изображений с частями тел людей и животных, стрельбой, половыми органами, а также потенциально оскорбительными портретами знаменитостей.
Все сгенерированные изображения соответствуют рейтингу PG-13. Если вы попытаетесь ввести промт с запрещенным словом, бот откажется выполнять задание и, вероятно, забанит вас на какое-то время.
Хотя официальный перечень стоп-слов не публиковался (в руководстве компании сказано только, что запрещено эмодзи персика 🍑), в интернете можно найти подобные списки. В феврале издание Массачусетского технологического института писало, что Midjourney блокирует слова о репродуктивной системе человека, в том числе «плацента», хотя другие органы (например, почки и легкие) не запрещены.
А готовые промты где-то можно найти? Чтобы поэкспериментировать с ними
Да, есть несколько способов.
Во-первых, можно исследовать discord-сервер Midjouney и позаимствовать промты других пользователей. Есть отдельный чат для обсуждения промтов и канал, предлагающий ежедневную тему (daily-theme), с которой можно экспериментировать.
Во-вторых, за последний год появилось большое количество интернет-ресурсов, которые советуют хорошие промты. Например, сайт Creative Indie предлагает список из сотен вариантов, а также перечни известных художников, фотографов и аниме-стилей, которые можно указать в текстовом описании. Уже существуют поисковики по промтам Midjourney и маркетплейсы с предложениями о продаже самых удачных вариантов. Есть и авторские руководства, где все промты опробованы и отобраны «вручную», — например, страница цифрового художника Blue Shadow (некоторые описания превышают сто слов!).
В-третьих, развиваются программы-промтеры, то есть сервисы, облегчающие формирование запросов для Midjourney. Один из них, MidJourney Prompt Helper, позволяет отдельно выбрать разные стилистические и формальные особенности (освещение, камера, цвет), а затем добавить необходимые параметры (соотношение сторон, детализацию и другие).
В-четвертых, запросы для одной нейросети можно сгенерировать с помощью другой. Художники и программисты активно используют ChatGPT для создания промтов. Не так давно про это писал обозреватель Forbes — и показал свой диалог с чат-ботом (правда, результаты эксперимента он признал не очень удачными). Впечатляющие изображения таким методом получил участник тематического сообщества Reddit, посвященного Midjourney.
Это все хорошо, но я пока не могу воспользоваться новой версией Midjourney. Там правда все так впечатляюще?
Да, изображения, сгенерированные пятой версией Midjourney, действительно стали более реалистичными и детализированными. Если автор грамотно воспользовался нейросетью, картинки почти невозможно отличить от реальных фотографий.
Сравнение трех последних версий можно посмотреть в статье издания Ars Technica. Очень впечатляют примеры, собранные на упоминавшемся выше сабреддите. Вот одно из сравнений V4 и V5, проведенное пользователями:
Так, а что там с пальцами?
До сих пор у нейросети постоянно возникали проблемы с пальцами (их редко было ровно пять). У пятой версии Midjourney с этим намного лучше — примеры можно изучить в этом твиттер-треде.
Правда, от сбоев никто не застрахован: не удивляйтесь, если среди нормальных пятипалых ладоней попадутся четырехпалые.
А что с копирайтом? Могу ли я взять картинку из Midjourney и использовать в другом месте?
Можете, но не эксклюзивно. Сама компания все еще будет хранить картинку на своем сервере и тоже сможет ее использовать.
На работы участников discord-сообщества распространяется некоммерческая лицензия Creative Commons (Noncommercial 4.0 Attribution International License).
Пока в творческих отраслях не сформировано единого решения вопроса, но фотобанк Adobe Stock уже объявил, что принимает и лицензирует изображения от нейросетей.
В конце февраля Бюро по авторским правам США вынесло решение, что комикс, частично созданный с помощью Midjourney, не подпадает под защиту законодательства о копирайте. Суд рассматривал дело художницы Крис Каштановой, создавшей графическую новеллу Zarya of the Dawn. (В своем видеоблоге она подробно рассказывала о том, как сотрудничает с нейросетями.) Согласно постановлению, авторское право Каштановой распространяется только на ту часть книги, которую она оформила сама, но не на картины, сгенерированные Midjourney. Их из перевыпущенной книги планируется изъять.
Еще одна большая проблема с копирайтом касается процесса обучения нейросетей. В январе несколько американских художников подали в суд на Midjourney, Stable Diffusion и платформу DeviantArt. Компании обвиняются в том, что они обучали свои ИИ-продукты на миллиардах изображений, найденных в интернете и защищенных авторских правом.
И куда мир катится? Скоро вокруг не останется человеческих изображений?
Сложно сказать.
С момента появления Midjourney и ее аналогов журналисты и художники высказывали разные мнения о том, как изменится — и уже меняется — искусство.
С одной стороны, выходили резко критические статьи: газета The Guardian писала об иллюстраторах, недовольных распространением генеративного искусственного интеллекта, а также об онлайн-кампании под хештегом #NotoAIArt («Нет ИИ-искусству»). Издание Independent разбирало конкретные случаи, когда карьера автора страдала от новых технологий. Конечно, недовольны были и те, кто подал в суд на создателей нейросетей.
С другой стороны, публиковались материалы о художниках, которые приветствовали новые инструменты и стали, в частности, создавать картины с их помощью. Например, «Би-би-си» рассказывала историю Александра Ребена, который разрабатывал идеи для проектов с помощью языковой модели GPT-3.
Арт-рынок постепенно адаптируется под новые реалии. Недавно в Амстердаме открылся первый музей, целиком посвященный нейросетевым картинам. В феврале питерская галерея «Свиное рыло» провела первое «Ежеквартале Современного Искусственно-Интеллектуального искусства»: среди прочего нейросети «порассуждали» на темы, касающиеся России и персонажей русского фольклора.
Так что вопрос о будущем генеративного ИИ остается открытым. Как бы там ни было, при любом сценарии потребуются люди, способные отличить интересные результаты работы нейросетей от неинтересных.
Машинное обучение
Какой версией я поль
То есть?
Речь идет о генерации в быстром режиме (fast mode), который действует по умолчанию. Количество картинок, которые можно сгенерировать в медленном, или «расслабленном», режиме (relax mode) для владельцев платных аккаунтов не ограничено.
Что, если я не уверен в своем английском?
Можно воспользоваться онлайн-переводчиками — например, Google Translate или DeepL.
Рейтинговая система в кино
В кинематографе есть рейтинговая система, которая помогает оценить, подходит ли фильм для просмотра родителей с детьми (или вообще без взрослых). Автор системы — американская киноассоциация. Рейтинг PG-13 получают картины, которые считаются неприемлемыми для детей младше 13 лет.
Где они?
В строке для запроса достаточно ввести команду /settings («настройки»), которая выводит на экран соответствующее меню.
Насколько дольше?
По данным команды Midjourney, время ожидания сгенерированного изображения в Relax Mode составляет до 10 минут. Пользователи нейросети утверждают, что иногда ждут намного дольше.
DeepDream
Что это значит?
Пользователь Midjourney может проводить на сервере сколько угодно времени — лимит это не уменьшит. Учитывая только то время, которое нейросеть потратила на генерацию картинок.