YouTube to Text Converter

Transcript of Qwen Edit 2509 🍌 до 3х референсов

Video Transcript:

Всем привет. У меня для вас очень классная новость. Модель Quinedit очень круто обновилась до версии 2509. Это дата выхода этой модели и стала значительно лучше. Вам эти изменения точно понравятся. Так что смотрите до конца, ничего не пропустите. А лучше ещё подпишитесь на YouTube канал, потому что половина из вас не подписана на него. Давайте посмотрим, какие у нас изменения появились с этой моделью. Теперь у нас есть поддержка от одного до трёх референсных изображений, поддержка подсказки со ссылкой на персонажа, на объект, а также на номер изображения. То есть вы теперь можете сказать: "Возьми персонажа с первого изображения и помести его на диван со второго изображения". Согласованность изображений улучшилась. Модель более цепка держит референс при генерации и лучше сохраняются лица. В модель зашиты настоящий Ctrlnet Net, карта нормали, карта глубины, Kenny, Open Post. И вы можете попросить, например, сгенерировать с референсного изображения, например, позу, и вы получите в итоге то, что выдаёт Open Post припросор. Но это ещё не всё. Вы можете взять закинуть наоборот результат работы Open Post при процессора, то есть позу, и попросить в эту позу поставить вашего персонажа с второго референсного изображения. Это очень круто работает и очень стабильно. Ну и также улучшена согласованность при редактировании текста на английском и китайском языке. На русском языке текст так себе работает. Ну, в принципе, как и работал, так и работает. Но это ещё не всё. Теперь вы можете работать в разрешении от одного до 2 мегапикселей, что значительно улучшает результат при редактировании, которая в первой Qued была не очень хорошая, честно говоря. Я вот первый ролик даже очень долго не выпускал, потому что не мог найти применение, так как детализация была слабая. Теперь детализация стала лучше. Но я думаю, в будущих моделях она будет ещё лучше. Ну и также буквально на днях Нучако выпустили свои модели FP4N4, а Squen Edit 2509. И в схеме, которую я сегодня вам покажу для Confiat, там уже поддержка этой модели есть. Но пока не торопитесь эту модель скачивать, потому что в эту модель пока не зашита ускоренная четырёхшаговая Лора, и генерации будут на ней достаточно долгие. Если у вас мало видеопамяти, лучше скачайте формат модели GGF, и там у вас генерация будет быстрая. Но как нунчаaку выйдет, вы её сможете скачать и этой схемой воспользоваться. Там уже есть поддержка NнчаaK. И ещё вы можете попробовать новую модель Quen Edit. В онлайн-сервисе, например, можете вот сюда вот перейти quen. Вот сюда вот нажатие image edit. И здесь у вас будет как раз-таки вот эта вот новенькая модель. Вы закидываете, например, позу вот такую вот и просите создать персонажа, а по описанию и получать вот такой вот результат. Опять же, можете там различные варианты делать из того, что я покажу. В принципе, работает очень похожим образом, как в локальной версии. Ну и давайте теперь уже переходить к схеме в confi. Я подготовил для вас вот такую вот схему. Вы её сможете скачать на бусте в формате PNG, как картинку. Закинете её вот сюрабочее пространство, и у вас появится вот такая схема. Если какие-то узлы у вас будут красного цвета, то нажимаем Manager. Install Missing Custom Notes. У вас появляются все узлы, которые у вас не установлены. Нажимаем вот сюда вот по этому вот квадратику. Выбираем все вот эти узлы, и у вас появится чёрная кнопка Install. Нажимаем по этой кнопке, у вас все эти узлы скачиваются. После этого появляется красная кнопка. Нажимаем, всё перезагружается. И после этого уже все узлы должны быть нормального цвета. Но с большой вероятностью у вас вот этот вот первый узел, скорее всего, не установится, если вы до этого нунчаку не ставили. Смотрите, пока на данный момент в нём смысла нет. Вы можете просто взять и его отсюда вот так вот удалить и пользоваться этой схемой без нунчаку. Но если вы хотите установить нончаг, у меня для вас есть вот такое вот видео. Перейдёте, посмотрите, там я всё очень подробно рассказываю. У многих всё равно не получается. Для этого на бусте есть ещё вот такая вот инструкция. Здесь я ещё более подробно показываю. Я надеюсь, что у вас получится его поставить, но вот на данный момент нунчак особо не нужны, поэтому их можно просто из схемы удалить, если вас раздражает, что есть какой-то там красный узел неустановленный. Итак, первая группа - это загрузка модели. Здесь у нас есть вот такой вот пульт. Мы можем выбрать здесь один из трёх вариантов модели. Тип точности. Первый вариант - это Nuncha FP4 для пятитысячной серии Nvidia или In4 для всех остальных серий Nvidia. в формат ггов. Если у вас мало видеопамяти, например, 12 и меньше, то можете скачать точность Q4. У вас должна эта модель завестись. Если у вас больше видеопамяти, можете Q8 попробовать модель или попробовать FP8 модель. То есть от 16 ГБ эти модели обе должны работать. А если у вас 32 ГБ видеопамяти, то можете попробовать точность FP16. Эти модели немножко получше работают, но разница там прямо не совсем уж большая. А в потреблении памяти разница очень большая. Я остановлюсь на точности FP8. Далее у нас здесь подключается вот такая вот лора. Это Lightй, четырёхшаговая лора. Она позволяет генерировать за меньшее количество шагов и с CFG равным единиц. Соответственно, у нас получается один проход вместо двух и негативной подсказкой здесь отсеивается. По качеству хороший результаты получаются. И скорость генерации увеличивается с такой лорой как минимум раза в два. Далее используется клиповая модель. Это 2 с, та же самая, которая и была у нас с этой модели из Quen Image. Она работает из Quen Edit. И тоже тот же самый. На всякий случай давайте я вам покажу, куда эти модели нужно будет положить. Переходим в ConfI в папку Models. И сами модели кладутся в diffusion Models, вот в эту вот папку. Не обязательно здесь под папки делать, это просто для удобства. Модель VI кладётся вот в эту вот папку. Models VI. И клиповую модель нужно будет положить в папку Models Clip вот сюда вот. Далее здесь у нас используются патчеры модели. Это Model Sampling Aura Flow. Shift здесь на трёх - это нормальное значение. Я пробовал различный вариант. Мне кажется, три вполне пригодные здесь. А SG normal тоже всегда единица, поэтому эти параметры можно, в принципе, не трогать. Patch Sage Attention. У вас должен быть установлен Triton и Sage Attention, чтобы вот этот вот узел работал. Если у вас это всё не установлено, просто его забайпасть вот таким вот образом, и у вас ошибки уже в сэмплере не будет. Если у вас всё это установлено, но тем не менее у вас ошибка получается вот здесь в сэмплере, то проверьте вот здесь вот в менеджереes менеджер. Вот здесь вот в поиске видите Kidi, найдите вот такие вот узлы и обновите их. Потому что если они у вас не обновлены, то сеtion будет вызывать ошибку. Далее. Теперь давайте перейдём вот сюда вот пониже. Здесь у нас есть референсные изображения. У нас есть три референсных изображения. Больше здесь подключать, по-моему, нельзя. Меньше можно. То есть вы можете оставить только один референс и работать с ним. Можете подключить вот такой вот второй референс и работать уже на основе двух референсов. Это первое изображение, это второе, это третье изображение. Я их специально пометил, чтобы вы могли ориентироваться и потом уже в подсказке на них ссылаться. Далее, смотрите, мы пишем подсказку вот таким вот образом. Я вам сейчас покажу там примеры различные. Ну давайте начнём вот с такого вот. Посади девушку с первого изображения на диван. Со второго изображения подсказку можно писать на русском языке. В некоторых случаях, если подсказка витиват какая-то сложная, может двуяк как-то переводиться, лучше её перевести вручную через какой-то более серьёзный переводчик и сюда уже добавить на английском языке. А если проблемы какие-то возникают. Если не возникают, то можете смело писать прямо на русском языке. У нас есть вот такая девушка и вот такой вот диван. Соответственно, мы хотим девушку посадить на этот диван. Теперь у нас есть два варианта загрузки входного изображения. Аэ вот сюда вот в качестве латентного пространства. И отсюда будет браться разрешение и пропорции изображения. Соответственно, мы можем подключить как диван на вход вот сюда вот в латентное пространство. Видите, я специально пометил этот синим ярким цветом, чтобы вы понимали, что сюда можно переподключать разные входные изображения. Либо вот это можно переподключить, либо вот это. То есть, ну, смотрите, например, вот так вот, да, мы можем сделать и вот это изображение сюпадать. Соответственно, у нас пропорции берутся с этого изображения, и разрешение будет браться тоже с этого изображения. Если мы хотим вытянутые горизонтальное изображение, то подаём вот это. Но это ещё не всё. От того, какое вы изображение подадите, будет зависеть как бы основная концепция исходного изображения, если вы какие-то дополнительные здесь описания не делаете. Вот, например, я сейчас загрузил сюда диван, вот отсюда, да, попадал, и у меня получилось вот такой вот диван на белом фоне. Вот здесь он тоже на белом фоне и девушка вот уже сидит на этом диване. Но если бы я подал вот это изображение, во-первых, оно было бы вертикальное, и это уже изображение было бы на фоне городского пейзажа. Почему? Потому что а фон я здесь никак не описывал. Соответственно, фон будет браться с референсного изображения, которого вы туда подадите. Это важный момент. И также здесь у нас есть вот такой вот upsciller. Он есть у каждого изображения. И вы можете здесь выставлять разрешение от 1ного до 2 мегапикселей. При одном мегапикселе качество и детализация будет такая же, как на предыдущей модели. При полутора мегапикселях качество уже значительно лучше. И скорость тоже генерации ещё вполне приемлемая. Если вы поставите 2 мегапикселя, то скорость будет уже помедленней, а качество, ну, будет не совсем прямо уж сильно отличаться от полутора мегапикселей. Поэтому, опять же, здесь уже дело эксперимент. Попробуйте и так, и так. Я вам советую начать с полутора мегапикселей и потом, может быть, попробовать даже два. То есть это уже будет зависеть от вашей композиции. Ну и давайте перейдём к сэмплеру. Здесь насытся вот такие вот настройки. 12 шагов я здесь поставил CG G единиц, потому что мы подключаем ускоренную лору. А смплер у нас er и планировщик бета. Это, на мой взгляд, оптимальные настройки, но вы можете попробовать и планировщик, например, normal тоже нормально работает. И, возможно, ещё какие-то другие планировщики вам тоже понравятся. 12 шагов - это хороший уже результат. можете поставить немножко побольше, уже будет дольше генерации, качество сильно не изменится. Дело в том, что вот эта вот лора, которую мы загрузили, она вообще четырёх шаговые, то есть вы даже при четырёх шагах можете получить приемлемый какой-то результат. То есть в этом примере мы загрузили девушку, загрузили диван, написали вот такую вот подсказку, просили посадить эту девушку на этот диван, получили вот такое вот изображение. Детализация здесь вот такая вот. Да, она не идеальная, но получше, чем была на предыдущей модели. Также вот ещё примеры. Вот такая вот девушка. Вот такой вот диван и вот такой вот результат получается. Это, по-моему, даже в двух мегапикселях уже сделано. То есть здесь детализация немножко получше при учёте, что девушка всё-таки подальше здесь находится. Подсказка была вот такая вот. И ещё вот такое вот изображение. Вот такой вот диван. Это же девушка. И вот такой вот результат. И продолжая тему с диванами. Теперь давайте попробуем три референса. Закинем вот сюда вот первую девушку. Сюда закинул вторую девушку. Соответственно, подключаем здесь все эти три референса. А сюда закидываем диван. Пишем в подсказке следующее. Девушка на изображении один и девушка на изображении два пьют кофе, сидя на диване с изображения три. И результат у нас получается вот такой вот. Давайте посмотрим ещё. Вот так вот. А здесь у нас первый, второй референс, референс дивана и вот такая вот подсказка. Всё, вот теперь на одном изображении видно. Вот такое вот качество генерации в итоге получается. И в качестве латентного пространства здесь подключен вот такой вот референс второго изображения. То есть вот сюда вот он подключен, но можно попробовать там и диван подключить. То есть вы здесь можете уже экспериментировать, то есть подключить, например, диван. Возможно, вот с таким вот вариантом будет более стабильный какой-то более качественный результат получаться. Следующий пример - это с позой. Смотрите, мы закидываем первое изображение и к нему подключаем препроцессор. На него у вас по умолчанию наложе вот такой вот байпас, но вы можете его разбайпасить. И в этом случае у вас уже на выходе из него идёт не само изображение, а open post, то есть карта позы. В качестве персонажа мы помещаем вот такое вот изображение. Хотим вот этого персонажа сделать вот в такой вот позе. Пишем вот такую вот подсказку. Девушка на изображении два принимает позу как на изображении один. Она держит сигарету в руке на фоне постапокалиптического города. Давайте посмотрим на результат. Вот такая вот девушка у нас получилась в этой позе. И можем посмотреть ещё вот так вот. Вот она поза, которую мы получили в результате первого изображения. То есть это была реально вот такая вот поза. Это девушка, вот такая вот подсказка и вот такой вот результат. Давайте теперь вернёмся к первому изображению. Здесь у нас есть вот такой вот узел AUX prпросор. Этот узел преобразует наше изображение в какой-то результат работы при процессору. В данном случае это D по PС, это, ну, Open P. В итоге поза получается. А здесь вы можете выбирать различные препроцессоры. Работает с этой моделью неплохо. Карта глубины, например, Deps Anif, карта нормалей, карта контуров, это Kenny, например, или Lineart. Они тоже работают. Ну, Open Post, соответственно, тоже будет работать. Также можете попробовать какие-то другие варианты в качестве контуров или позы или карты глубины. Также давайте быстро рассмотрим другой вариант использования. Мы загружаем просто одно входное изображение, пишем вот такую вот подсказку: "Создай карту глубины" на основе входного изображения и получаем наоборот в самом конце, в результате вот такую вот карту глубины. То есть это у нас обратный приём использования этой модели. Мы получаем в итоге а карту глубины. Также можем получить карту нормалий. Создать карту нормальной на основе первого изображения. Карта нормальной. Не совсем точно получается именно карта нормальная, но что-то похожее на неё, по крайней мере. В качестве виртуальной примерочной это работает вот так вот. Мы тоже закидываем первое изображение, закидываем второе изображение, пишем вот такую вот подсказку и получаем вот такой вот результат. По сути дела, я думаю, в схеме это показывать смысла нет. Это всё также делается, то есть просто загружаются разные изображения, разные референсы, пишется подсказка вот такая и получаем вот такой вот результат. Достаточно точно переносится одежда. И есть ещё у меня вот такой вот пример. Здесь переносится вот такая куртка. Тоже достаточно точно. Немножко мне кажется, что всё-таки изображение чуть-чуть прямо слегка пережжённая получается. Но в плане точности и качества здесь вообще всё отлично. Куртка перенеслась достаточно точно. А вот эти вот пуговицы, единственное, я смотрю, размножились. Получилось две пуговицы, но как бы с разворота здесь не видно, да, это ремешок. Ну вторая пуговица просто лишняя. Удалить её проблем, в принципе, не возникает. Но вот пережжённость небольшая всё-таки. есть. Ну и также мы можем взять двух персонажей с первого изображения, со второго изображения и попробовать их объединить и попросить их что-то вместе там делать. В данном случае они у нас вместе обнимаются. Первое изображение у нас подавалось в латентное пространство, поэтому фон у нас берётся с первого изображения. Но опять же мы можем написать, чтобы он взял фон, например, со второго изображения. Всё делается по аналогии. Ну и в данном случае мы берём теперь фон, берём персонажа и просим поместить девушку с второго изображения на первое изображение. получаем вот такой вот результат. Вот такая вот детализация. Качество, да, может быть, не идеальное, но это уже лучше, чем на первой модели. Я думаю, со следующей моделью будет ещё лучше. И в плане восстановления старых фотографий получается вот так. То есть мы закидываем одну фотографию, пишем вот такую подсказку. Я её долго, честно говоря, подбирал, чтобы что-то более-менее приемлемое получилось. Вот такой вот результат. Вот такая вот детализация. Я пробовал различные разрешения, там и 2 мегапикселя, даже больше пробовал. Лучше, в принципе, ничего не получилось. В данном случае у нас здесь 2 мегапикселя используется. Это входное изображение. Отсюда подаётся вот са латентное пространство. Ну и по сути дела всё. В принципе, больше никаких здесь нюансов и нет. Давайте покажу ещё другие изображения. Вот такое вот входное изображение, вот такой вот результат. Вот такое вот входное изображение, вот такой вот результат. И вот такое вот входное изображение. И вот такой вот результат. Мне кажется, лица в принципе достаточно точно сохраняются. Дефект, в принципе, удаляются, но высокой детализации вы, э, с помощью даже этой модели не получите. Работает плюс-минус, похоже, как и работало с предыдущей моделью, но, мне кажется, может быть, немножко прямо вот поточнее. А в плане повышения детализации вы можете использовать модель Супир и детализацию уже вот этого из выражения сильно повысить. Это будет работать отлично в плане восстановления, удаления каких-то дефектов. Это тоже достаточно неплохо, в принципе, работает. Теперь вариант удаления мебели и различных там текстов с изображением. Смотрите, в данном случае я просто удалял всю мебель, прописал вот такую подсказку: "Удали всю мебель с первого изображения". Закинул, соответственно, первое изображение. Он удалил и мебель, и, кстати, удалил ещё и текст. Если вы захотите удалить текст, водяные знаки, то в этом случае вы пишите удалить текст, водяные знаки и графику. Это тоже будет работать достаточно стабильно. Вот в плане удаления мебели, мне кажется, это работает намного стабильнее, чем с предыдущей моделью. Там было достаточно сложно удалить всю мебель с изображения. Там как приходилось подсказкой варьировать, а здесь прямо буквально такая маленькая подсказка, и всё отлично удалилось. И ещё один пример с мебелью. Мы загружаем первое изображение чистой комнаты. Далее загружаем реферсное изображение с диваном и просим помемстить этот диван на первое изображение к правой стене. И у меня получилось достаточно неплохо. Это с третьей попытки было сделано. Обратите здесь внимание на направляющие ламината и кромки дивана. Здесь почти что точно это всё расположилось. На предыдущей модели было очень сложно расположить диван, скажем таким образом, чтобы его кромка совпала с направлением ламината. Постоянно получалась какая-то неправильная геометрия, то есть диван куда-то влево уходил и, ну, короче, геометрия нарушалась. В данном случае работает это очень стабильно. Цвет дивана здесь, правда, немножко поменялся, но опять же просто затемнился. В плане вот расположения мне всё очень понравилось. Достаточно здорово слушается подсказки и очень неплохо поместил диван и сохранил правильность геометрии. И ещё отличный пример. Я закидываю референсные изображение и прошу поменять время года на зиму. Получилось здесь вот так вот. Если вы посмотрите моё предыдущее видео по Q edit первой модели, то там детализация была вообще просто очень-очень плохая. И даже на контексте тоже детализация очень слабая. Здесь детализация намного выше получается и изображение намного интереснее. Да, конечно, детализация не совсем прямо великолепная, но намного лучше, чем на предыдущей модели и даже лучше, чем на контекст модели. Ну и пример смены времени года на осень получается вот так вот. Здесь вполне интересное изображение вышло, подетальнее, чем зимой. Но зимой получалось и на тех моделях намного хуже, чем с осенью. Хотя там и с осенью получалось плохо. Здесь очень-очень хорошее изображение, на мой взгляд. Если это пропскелит, получится вообще великолепно, мне кажется. Это вариант смены стиля, смены освещения. Мы берём какой-то продукт, в данном случае это шоруповёрт, и пытаемся поменять стиль, разместить этот шорповёрт куда-то там в другое пространство. Получается у нас вот так вот в стиле cyберpнк фотореализм. Перенести шуруповёрт в мир Cyберпанк. Ну и последний пример - это работа с текстом. А вот такой вот входной референс. И прошу здесь поменять текст и удалить все лишние строчки. Дело в том, что если не писать удалить лишние строчки, то он их оставляет. Оставит здесь вот этот текст. Здесь, кстати, он не до конца немножко удалился, но он его вообще полностью оставлял. И промежуточную какую-то строку. Здесь было четыре строки, он-то делает три строки и промежуточную какую-то строку там либо network в конце, либо off он оставлял. Если прописываем лишние буквы удали сотри, то он их пытается, по крайней мере, удалить. В общем-то, вот такая вот обновлённая модель 2509 Quen Edit. Мне кажется, очень интересно. Честно говоря, когда я начал с ней работать, прямо начал экспериментировать, мне очень понравилось. То есть детализации всё-таки не совсем много, да, но она стала лучше, чем на предыдущей модели. И работая с несколькими референсами стала тоже намного стабильней. Заметно, что он очень здорово цепляется за референсные изображения. Я думаю, что получится перенести даже и лица. Честно говоря, просто не попробовал, не успел. Но лица, мне кажется, тоже должны переноситься достаточно неплохо, потому что цепляется он, видно за референсы. Очень классно. Ну, на этом, друзья, всё. Спасибо за просмотр. Если вы ещё не подписаны на мой YouTube канал, то обязательно подпишитесь, потому что подписчиков у меня очень мало. Всё, всем удачной генерации, хорошего настроения. Всем пока.

Qwen Edit 2509 🍌 до 3х референсов

Channel: StableDif

Convert Another Video

Share transcript:

Want to generate another YouTube transcript?

Enter a YouTube URL below to generate a new transcript.