Stable Diffusion - новая нейросеть, искусственный интеллект будущего

Как пользоваться нейросетью Stable Diffusion и в чем ее отличие от популярных DALLE 2 и Midjourney.

Не забываем подписываться на наши телеграм каналы:

CPAGRAM — Арбитраж трафика и маркетинг

CPAGRAM Арбитражные кейсы

CPA и арбитраж трафика

Шарим трафик и CPA

CPA MOZG

Тизеры и креативы

Что такое Stable Diffusion?

22 августа была выпущена в публичный доступ программа Stable Diffusion, созданная группой Stability.Ai и имеющая открытый исходный код. Она состоит из двух больших частей: обученной нейросети (доступна версия 1.4, скоро будет доступна 1.5, которая обещает еще более качественные лица/глаза/руки) и обвязки, которая вызывает эту нейросеть.

Stable Diffusion - новая нейросеть, искусственный интеллект будущего

Результаты ее работы напоминают DALL·E и Midjourney, однако по мнению меня и моих друзей, Midjourney создает более выразительные изображения в целом, а Stable Diffusion более точно следует запросу при настройках по умолчанию. Основное преимущество Stable Diffusion для пользователя заключается в том, что нет ограничений на генерируемые изображения (хотя в оригинальной версии есть NSFW-фильтр, который легко можно отключить), и все это бесплатно.

Существует множество способов работы с нейросетью, и сообщество, которое ею пользуется, растет очень быстро:

Основной способ – через консоль, что подойдет тем, кто знает Python и может изменять код. Вы можете выбрать нужный вам вариант из исходников на GitHub (доступен здесь) или версию с меньшим использованием видеопамяти и дополнительными опциями (здесь). Затем следуйте инструкции по установке и настройке среды (для исходника здесь, для второго варианта – здесь). Преимущество – вы можете интегрировать новые методы генерации изображений и лучше понимать, как это все работает.
Второй способ – через браузер, например, на сайте без регистрации и настроек (здесь) или на сайте с регистрацией и разными настройками. Плюс – это доступно с любого устройства, ничего не нужно устанавливать. Минусы – это медленно, и возможностей меньше, чем в консоли. Кроме того, в любой момент ваш любимый сайт может закрыться из-за наплыва пользователей или желания создателей.
Третий способ – через графический интерфейс и установщик, который должен быть более привычным для пользователей Windows. Однако не факт, что в графическом интерфейсе будут все необходимые настройки. Преимущества – все наглядно, и вам не нужно знать ничего про Python, Anaconda, pip-install, командную строку и т. д.

Чем Stable Diffusion выделяется среди других нейронных сетей?

Для начала, SD (Stable Diffusion) представляет собой открытый исходный код, доступный по лицензии Creative ML OpenRail-M, что позволяет запускать его на локальном компьютере, вместо того чтобы обращаться к облачному API или сайту.

Для достижения качественных результатов разработчики рекомендуют использовать графический процессор NVIDIA серии 3xxx с минимальным объемом оперативной памяти в 6 ГБ.

За последние две недели появилось множество проектов, созданных с помощью Stable Diffusion, и люди достигли впечатляющих результатов, используя метод “img2img”. Этот метод модернизировал игровое искусство, преобразовал сцены из “Аладдина” в 3D, превратил детские рисунки в красивые иллюстрации и многое другое.

Каким образом функционирует Stable Diffusion?

Большинство недавних ИИ использует скрытую диффузию, чтобы создавать изображения. Эта техника заключается в том, что модель обучается распознавать знакомые формы на фоне случайного шума и постепенно собирать эти элементы в соответствии с заданными словесными подсказками.

Изначально, модель обучается на большом наборе данных изображений, который создают люди или группы, собирая изображения с метаданными. В случае Stable Diffusion, используется набор данных LAION-5B, содержащий 5 миллиардов изображений из интернета, включая сайты, такие как Pinterest, DeviantArt и Getty Images. Модель обучается на этом наборе данных, используя сотни графических процессоров, таких как Nvidia A100, за что было потрачено около 600 000 долларов на обучение.

В процессе обучения, модель связывает слова с изображениями, используя метод CLIP, разработанный OpenAI. С помощью скрытой диффузии, модель анализирует статистические ассоциации между цветными пикселями в изображениях, чтобы определить их отношения. Это позволяет модели создавать новые комбинации стилей на основе изученных данных.

Однако, модель не учитывает физические особенности людей на изображениях, поэтому при создании текстовых подсказок необходимо учитывать это самостоятельно. В будущем, модели, вероятно, будут улучшаться, чтобы фильтровать и корректировать изображения более эффективно.

Какие проблемы у Stable Diffusion

Релиз программы Stable Diffusion вызвал беспокойство у людей, которые опасаются ее воздействия на культуру и экономику. В отличие от DALL-E 2, данные для обучения Stable Diffusion доступны для всех пользователей без ограничений. Программа включает автоматические фильтры NSFW и невидимый водяной знак для отслеживания, но эти ограничения можно легко обойти в открытом исходном коде, что позволяет создавать изображения, которые OpenAI в настоящее время блокирует, такие как порнография, пропаганда, изображения насилия, нарушающие авторские права, подделки и многое другое.

Лицензия программы запрещает многие из этих видов использования, однако, ее практическое реализование затруднено. Эмад Мостак утверждает, что преимущества перевешивают потенциальные недостатки, и включил политику этичного использования и инструменты для уменьшения вреда.
Кроме того, при обучении Stable Diffusion используются миллионы произведений искусства, которые были собраны без разрешения авторов, и программа генерирует очень похожие изображения. Это вызывает вопросы об авторстве и авторских правах. Р. Дж. Палмер выразил свою обеспокоенность как художник.
Также существует проблема культурных предубеждений, так как нейросети изучают социальные и культурные стереотипы, присутствующие в наборе данных. Например, в ранней стадии тестирования Stable Diffusion на сервере Discord тестировщики обнаружили, что почти каждый запрос на “красивую женщину” включал обнаженных женщин, что отражает стереотипы западного общества.

Что можно ожидать в будущем от Stable Diffusion?

Следуя тренду роста вычислительной мощности, вероятно, что в будущем доступ к нейросетям будет осуществляться через смартфоны. Кроме того, разработка новых методов позволит обучать модели на более доступном оборудовании, что приведет к взрывному росту творческих результатов, подпитываемых искусственным интеллектом. В ближайшее время можно ожидать создания фотореалистичных видео на основе текстовых подсказок, а в дальнейшем – расширение таких возможностей на области аудио, музыки, видеоигр и виртуальной реальности. Представьте себе, как продвинутые ИИ будут выполнять творческую тяжелую работу всего за несколько предложений, что откроет бесконечные возможности для создания различных развлечений в режиме реального времени по запросу.

Stable Diffusion использует сотни миллионов изображений для сжатия информации в файл размером 4,2 ГБ, и в будущем такая технология может быть использована для сжатия художественных фильмов в несколько мегабайт текста. Это может привести к возможности создания собственных художественных фильмов с помощью подобной технологии. Однако следует отметить, что эта технология может иметь опасные последствия, такие как пропаганда, дезинформация и искажение истории, а также уничтожение юридической ценности фото- или видеодоказательств. В конечном итоге, человечество адаптируется к изменениям, даже если это приведет к радикальным изменениям наших культурных рамок. Как сказал древнегреческий философ Гераклит, “единственная константа – это изменение”.

В конце концов, это представляет собой еще один инструмент для более быстрого и доступного выражения идей. Хотя результаты, получаемые с помощью SD, могут не использоваться в качестве окончательных ресурсов, они могут использоваться для создания текстур в прототипах игр или для создания логотипов для проектов с открытым исходным кодом.

Несмотря на то, что лицензия на модель запрещает ее использование во многих недобросовестных целях, открытый исходный код является двуединым мечом. В настоящее время невозможно предвидеть, какие последствия могут возникнуть в долгосрочной перспективе. Перспектива на 10-15 лет становится неясной, учитывая то, что трудно представить, какие возможности будут доступны с версией, работающей в реальном времени и в 10 раз лучше.

С чего начать свой путь – Stable Diffusion или Midjourney?

Если вы уже умеете генерировать запросы для Midjourney, то вы можете использовать свои навыки и для Stable Diffusion. Однако, следует помнить, что в Stable Diffusion отсутствуют команды, такие как “–wallpaper” и “–beta”, и нет опции разделения сущностей через “::”. Вместо этого можно использовать веса для этой цели, о чем будет рассказано позже.

Если вы не готовы тратить время на изучение еще одной нейросети, не стоит отчаиваться. На данный момент уже есть веб-сайты, где вы можете ознакомиться с результатами генерации запросов для Stable Diffusion (например, https://lexica.art/). Вы можете изучать запросы, созданные другими людьми, и использовать их как основу для своих собственных изображений, добавляя и удаляя части запроса и наблюдая за результатом. Также стоит обратить внимание на популярные работы в сообществе и посмотреть, как был составлен текст для их создания. Вы можете также использовать генераторы описаний, которые уже содержат известные элементы описаний, на которые реагирует ИИ.

Считается, что чем более подробно и разнообразно вы сформулируете свой запрос, тем лучше. Используйте разные синонимы для описания одного и того же. Хотите получить изображение с высокой детализацией? Пишите “шедевр, высокое качество, ультра-детализация, 4k” и т.д. Укажите имя художника, который рисует в гипер-реалистичном стиле, используя запрос “от %Фамилия-Имя художника%, входящего в датасет LAION”. Вы можете указать несколько похожих или совсем разных художников, чтобы получить более художественное изображение. Например, смешать стиль Моне и Ван Гога, Синьяка и Хокусая.

Однако учтите, что более чем 75 слов в запросе SD не принимает. Важно также расположение слов в запросе – чем ближе к началу, тем больший вес придаст нейросеть этому слову. Поэтому располагайте в начале те элементы, которые должны быть обязательно включены в изображение.

Не ожидайте сразу получить идеальный результат, вам, вероятно, придется попробовать много разных вариантов одного и того же запроса с разными настройками. Начинать необходимо с простых запросов, чтобы научиться генерировать более сложные. Не стоит сразу использовать k_lms и 50 шагов – когда вы генерируете множество запросов, важно, как много из них отрабатывает.

Если нужно, вы можете вручную указывать веса для каждого элемента запроса. Для этого после каждого элемента ставится “:xx”, где xx – вес этого элемента при генерации. Сумма весов всех элементов должна равняться 100. Например, запрос для генерации изображения наполовину мини-дракона и наполовину хорька может выглядеть так: “мини-дракон:50, хорек:50”.

Советы по Stable Diffusion

Попробуйте начать генерировать изображения уже сейчас и наслаждаться этим процессом, а также дарить другим людям возможность насладиться вашими творениями. Следите за сообществом на различных платформах, таких как GitHub или Reddit, чтобы узнавать о новых возможностях и удачных примерах использования. Также попробуйте использовать метод генерации по образцу, где вы используете набор изображений в качестве обучающей выборки и генерируете изображения в этом новом стиле. Помимо этого, можно попробовать использовать различные улучшатели изображений, например RealESRGAN или GFPGAN, для увеличения разрешения или повышения качества лиц.

-->