Як створювати зображення у штучному інтелекті Midjourney

Midjourney – це алгоритм генерації зображеннь на основі текстової підказки. Розповідаю, як ним користуватися, як працює Midjourney – і чому це цікаво.

Як створювати зображення у штучному інтелекті Midjourney

Здається, це перша творча мирна тема з 24 лютого, яка мене серйозно зацікавила і захопила, – тому расскажу. Може, комусь придасться, щоб відволіктися або для якихось своїх проектів.

(Ну хоча треба зізнатися, що моє зацікавлення почалося з картинки з танком-матрьошкою, яка блукала фейсбуком, і саме тоді я подумала, що я теж хочу потикати оце, – шо б воно там не було.)

Намальований штучним інтелектом Midjourney російський танк, який мене мотивував піти розібратися:) Імені користувача-автора не знаю, на жаль.

Midjourney – це алгоритм генерації зображень на основі текстової підказки. Може, колись я додам сюди пояснення, як воно працює технічно "під капотом", але не сьогодні. Окрім Midjourney, є ще його аналог DALL-E, принцип той самий, але я ним не користувалася, тому про нього нічого не знаю.

Нащо воно треба?

Якщо ви не маєте стосунку до світу візуального мистецтва, – ви можете просто погратися, бо це цікаво і приємно. Подивитися, що роблять інші. Надихнутися.

Якщо ви художник, ви самі знаєте, навіщо воно може вам знадобитися:) Наприклад, створити референс. Я бачила, як дизайнери створюють в Midjourney логотипи, а потім малюють поверх цього комерційний проект. Дослідити стилі. Створити окремі деталі для колажу, фони для концепт-арту, абстрактні паттерни чи текстури, деколі для 3Д, знайти прикольні текстури чи поєднання кольорів.

Мені здається, це просто печера скарбів для блогерів, ютьюберів, працівників невеличких розважальних медіа й усіх інших, кому буває потрібна якась графіка для своїх проектів чи для соцмереж, але дорого і довго просити про неї професійних ілюстраторів.

Це окрема печера скарбів для тих, хто працює з наративами й історіями: ви можете нагенерувати собі ідеї для персонажів, фентезі-світів, підказки щодо локацій, ілюстрації "для настрою".

Якщо трохи менш прагматично, – у моєму всесвіті це взагалі перший і поки  єдиний нормальний інструмент, який відкриває шлях до візуального самовираження. Бо я зовсім, абсолютно не вмію малювати. Тобто я знаю, як передати свою думку, стан чи емоцію текстом, а тепер у мене є і шлях передати свою емоцію візуально. Хоча генерування зображень в ШІ теж потребує навичок і дослідження, але принаймні це питання кількох днів – від нуля до пристойного результату, а не кількох років навчання:)

Перші зображення, які я створила у Midjourney — одразу зайшла з козиря, в сенсі з акварельного стилю.

Як працює Midjourney

Midjourney приблизно місяць тому (літо 2022) став доступний для всіх, до цього був у режимі закритого тестування, зараз працює через Дискорд (це месенджер, типу слака). Щоб спробувати щось сгенерувати, треба от що:

1. Створити акаунт в дискорді або згадати пароль й зайти туди, якщо акаунт вже є.

2. Зайти на домашню сторінку Midjourney  (https://www.midjourney.com/home/) й залогінитися дискордом.

3. У самому дискорді (в браузері або краще поставити собі його на комп) зайти у чат для новачків і використати команду /imagine, а потім текст своєї текстової підказки англійською.

Інтерфейс Midjourney в дискорді. Ліворуч – усі чати і канали, до яких у вас є доступ на читання, а у newbies ви можете друкувати (це скріншот станом на липень 2022, там щось може змінитися чи перейменуватися)

4. Алгоритм видасть чотири картинки, кожну з них можна або збільшити (за допомогою кнопок U1, U2, U3, U4, тобто upscale і номер варіанту, і вона не просто збільшиться, але й трохи промалює і скоригує деталі), або створити на неї варіації (відповідно V1, V2 тощо). Якщо нічого не подобається, можна ввести іншу підказку або сгенерувати варіанти наново.

5. Результат можна зберегти (натиснути на нього, Open Original, Save Image).

У вас буде скількись безкоштовних спроб, потім він попросить підписку. Але за плюс-мінус 10 картинок можна награтися (я так розумію, з тріала вираховується не тільки запуск самої команди, але й збільшення і пошук варіацій теж. Тобто якщо ви введете текст, а потім зробите на нього 10 варіацій, то тріал закінчиться так само, як би він закінчився за 10 підказок). Але от сьогодні вони додавали нову версію алгоритму і подарували всім по 25 безкоштовних картинок просто так. Маленькі радощі нових проектів на етапі становлення:)

Базова підписка коштує типу 10 дол (можна згенерувати 200 зображень на місяць), професійна – 30 дол (відносно безлімітна кількість зображень), про корпоративні плани я не читала.

У кого авторські права на створені штучним інтелектом зображення?

Midjourney створено як відкриту спільноту: ви бачите, що роблять інші, а вони бачать, що робите ви, – теоретично ви можете змінювати чи зберігати роботи інших, а вони можуть те саме робити з вашими роботами.

Наскільки я зрозуміла (але я не юристка), права на поширення, модифікацію і використання є і у розробників, і у вас. Тобто все, що ви згенерували, належить і розробникам Midjourney теж, вони можуть це використовувати на свій розсуд.

Якщо ви створюєте картинку як безкоштовний користувач, ви отримуєте її за ліцензією Creative Commons Noncommercial 4.0 Attribution International License – тобто можете її некомерційно поширювати, підписуючи, що ви її створили в Midjourney і ставлячи посилання.

Якщо ви оплатили підписку (і ви не корпорація), ви можете робити з результатами більш-менш які хочете проекти. Я так зрозуміла з їхніх документів, що підмалювати туди своє, надрукувати листівки і продавати – ви теж можете без проблем.

Але знову ж таки, я не юристка і цей текст не містить юридичних порад)

А ще мені здається, що буквально найближчими місяцями на нас чекає багато змін – і в правилах використання, і в монетизації, і в алгоритмах. Зараз ще дуже зародкова стадія індустрії. Але я готова дати зуб, що це не просто інструмент, – це штука, яка стане екосистемою і багато що змінить.

От поки що моє улюблене – з "мого авторства". Цікаво взагалі писати "авторство" в лапках і не розуміти, як до цього ставитися: я вклала в це час і інтелект, я потім трохи артефактів замалювала в фотошопі і кадрувала. Але ж це не я зробила. Але ж а хто тоді?:) 

Як писати команди для Midjourney?

Я колись читала смішний пост, де людина скаржилася, що от є штучний інтелект для музичних рекомендацій, але на практиці це не ми вчимо штучний інтелект, а він вчить нас. Коли я користувалася Дізером для музики, я знала, що в жодному разі не можна слухати зі свого акаунту "оту одну-однесеньку попсову пісню з 90-х", бо потім попса 90-х литиметься потоком з рекомендацій і заб'є всі малопопулярні гурти. Приблизно так і тут – Midjourney був натренований розуміти "звичаний текст", але він його розуміє трохи по-своєму, – і вже він тепер тренує користувачів говорити з ним правильними словами. Наприклад, найскладніше завдання – витягнути з алгоритму дійсно класний портрет, тому до запиту про портрет варто додавати "симетричний" або "гіперреалістичний", тоді шанси не отримати викривлення підвищуюються.

Інтуїтивне бажання запихати туди щось абстрактне типу "емоційний шторм", "сенс життя" й чекати на глибинний смисл – цілком зрозуміле, один-два рази обов'язково спробуйте, але воно швидко розчаровує. Насамперед тому, що ви отримуєте зовсім не той стиль, на який інтуїтивно очікували чи який здається естетично прибавливим.

Але іноді абстрактно-філософські запити дають щось цікаве. От зображення на запит "the last photo ever taken", створені у Midjourney користувачем із ніком carton

Глобально підходів є кілька – в залежності від ваших задач та побажань.

Мені подобається підхід, де ви вводите відносно конкретну підказку (наприклад, "середньовічне місто" або "загублений храм під водою") і додаєте туди інформацію щодо стилю чи матеріалу. Можна використовувати слова типу watercolor (акварель) або ім'я відомого художника (by Gustav Klimt). Можна додавати стилі – мінімалістичний, магічний реалізм. Чи жанр – movie poster. Можна додавати роки – 1920s. Команда --ar, наприклад, змінює формат забраження (варто додати --ar 16:9 у кінець текстової підказки, якщо ви робите пейзаж, буде таке синематографічне-епічне відчуття).

Дуже докладний гайд про те, як створювати персонажів і портрети, написала художниця JOY OLIVIA MILLER у себе на сайті. У неї є ще кілька статей про цей, зокрема про порівняння стилів. Можна почати з 9 TRICKS FOR WRITING AI PROMPTS TO CREATE THE BEST MIDJOURNEY PORTRAITS
А тут найповніша добірка окремих параметрів (освітлення, кольори, параметри камери, стилі, геометрія, матеріали) – її зібрала якась добра людина у себе на Гітхабі. Подібний гайд, але дещо менш докладний, є всередині профіля користувача на сайті Мілджорні, якщо сплатити підписку.
Ще одна неочікувана штука – цілий конструктор, який в фіналі видасть готову текстову підказку.  

У конструкторі, наприклад, ви можете натикати щось супер-накручене –   /imagine A glass of wine:: in the sunlight:: surrounded by flowers:: Pinhole Photography:: Kinemacolor :: Backlight:: Rays of Shimmering Light:: Ray Tracing Reflections:: by Hayao Myazaki --ar 16:9  

Але тут починається найцікавіше. На результаті нема, власне, A glass of wine:) Можливо, ми перекрутили з кілкістю параметрів. Можливо,  зображення з бази, на якій алгоритм навчався, де був стиль Міадзакі і формат 16:9, майже ніколи не містили бокалів вина, але містили кімнати, пейзажі і все таке інше, – бо всі ці параметри входять одночасно з певною вагою, і невідомо, "хто переможе, кит чи слон". А ще Pinhole Photography виглядає занадно малочастотним запитом і, мабуть, збиває. І тому, залежно від того, чи ви хочете отримати "щось красиве й атмосферне", чи ви хочете реально конкретний предмет, ваша стратегія має бути різною. Якщо ви напишете A glass of wine on the table :: hyperrealistic render – ви гарантовано отримаєте саме бокал вина. Я хотіла радощів, – і у мене вийшло:

How it started, how it's going, як то кажуть. Це результат кількох ітерацій тикання у підказку "A glass of wine:: in the sunlight:: surrounded by flowers:: Pinhole Photography:: Kinemacolor :: Backlight:: Rays of Shimmering Light:: Ray Tracing Reflections:: by Hayao Myazaki --ar 16:9" Але у генштабі задоволені мистецтвом, яке передав нам Міджорні:)
"A glass of wine:: in the sunlight:: surrounded by flowers:: Pinhole Photography:: Kinemacolor :: Backlight:: Rays of Shimmering Light:: Ray Tracing Reflections:: by Hayao Myazaki --ar 16:9" – Грід до апскейлінгу

Поки що я зробила для себе висновок, що мене не дуже цікавлять портрети-портрети й боротьба з асиметричними очима, в усьому іншому мене дуже цікавлять стилі, особливо стилі освітлення та колористика, – а в плані сюжету, хай там колективне несвідоме вирішує.

Я пишу цей текст 25 липня 2022 року – і зазначаю це, бо вони буквально сьогодні змінювали алгоритм, і цілком можливо, що будь-які поради щодо команд будуть не актуальними вже за місяць. Але формується нова мова, так.

Я намагалася дістати звідти червону калину в стилі imaginative realism. Це не зовсім калина, але я задоволена, мені красиво)

Ще декілька думок, тезисно:

  • Дивно відчувати, що у цієї штуки в певному сенсі є свій стиль. Якщо дуже довго в ній просидіти, а потім лазити соц мережами, то іноді думаєш "о, це штучний інтелект малював" – ще до того, як подивишся підпис і переконаєшся, що так і є.
  • Дивно відчувати, що художники з досвідом і натренованим оком здатні вичавити зі штучного інтелекту щось "у своєму авторському стилі" – тобто у стилі самого художника. Тут нема містики: як мінімум, митці просто викидають всі "неблизькі" їм результати і показують тільки вибране. Але все одно це дивно.
    Наприклад, колекція робіт цифрового художника і дизайнера Jeff Han в моєму всесвіті є мистецтвом, причому авторським-авторським.
  • Дуже цікаво тупо сидіти в одному з каналів і спостерігати, як хтось намагається вмовити штучний інтелект намалювати йому "рекламу кросівок в стилі Хокусая" чи щось подібне – і як воно там розвивається, буває дуже драматичний творчий процес у людини:)
  • Ця штука ідеально підходить для створення страшних персонажів, страшних пейзажів і взагалі будь-чого в жанрі хорору. І для фентезі теж ідеально підходить. Це також можна пояснити технічними особливостями, мабуть, але отаке от спостереження.
  • Інтуїція підказує, що з цього виросте щоб велике. Велике не в сенсі "видатне", хоча і це теж, а в сенсі екосистема, "супутні" товари й послуги, якісь нові стилі та жанри.

Ще трохи покажу штук, якими прям пишаюся, це свято врожаю + вересневий вечір + вітражі + купа параметрів щодо освітлення і кольорів:

свято врожаю + вересневий вечір + вітражі + купа параметрів щодо освітлення і кольорів
свято врожаю + вересневий вечір + вітражі + купа параметрів щодо освітлення і кольорів
свято врожаю + вересневий вечір + вітражі + купа параметрів щодо освітлення і кольорів

Бонус-трек для нагоняння пафосу й провокування розмов про повстання машин, мого авторства

Зображення, що буде на обладинці журналу Таймз, який вийде в останній день існування нашої цивілізації:

Time Magazine cover on the last day of our civilization + параметри стилів

Бонус-трек для збиття пафосу, мого авторства

Літопис 13 сторіччя, який описує вторгнення НЛО:

Літопис 13 сторіччя, який описує вторгнення НЛО

Бонус-трек для балансу:
(Можете красти це зображення собі на обладинку фб, якщо треба)

Слава Україні!