YouTube to Text Converter

Transcript of InfiniteTalk. Бесплатная локальная нейронка для дубляжа и липсинка на русском в ComfyUI + Workflow

Video Transcript:

Ну, получается, что это теперь моя любимая модель для липсинка и дублежа на русском. Да, локальная. Зацените вот это. Капец. Я человек-ку. Я Кубович. Всё вокруг кубическое. Парни, вы в курсе, что такое спать с женщиной, у которой квадратная грудь? У меня все лицо в синяках от этих ребер и углов. Ну я просто кот, который пьёт кофе на тротуаре у магазина. Пью кофе, никого не трогаю. В тапки несу, воробьёв в постель не таскаю. Работаю в уважаемой компании, пишу код. Да, я кот, который пишет код. Сколько ещё вы будете спрашивать, как держится мой бантик? Как держится? Как держится. Как прибили, так и держится. И это локально. Сейчас расскажу и покажу. Всем привет. С вами я, Генератин. канал, который говорит и показывает, как пользоваться локальными нейросетками без регистрации, SMS, пустословных шиткурсов и онлайн-марафонов. Лайк. И сегодня мы поговорим про дубляж видео в нейросетках. ПSН дубляж на русском языке, локально, бесплатно, без оплаты вот этих всяких VO3 там и прочих модных а сервисов, а прямо локально на своём компьютере. И эта штука бомбезная. Во-первых, это будет полезно там аниматорам, художникам, рекламщикам, сэмэмщикам, короче, всем, кто делает контент или хочет делать контент, хочет делать анимацию, хочет делать мультипликацию. И вот это вот всё я покажу workflow, как его настроить. Естественно, я дам этот workflow, а покажу, что куда грузить, где какие настройки, как это работает, а что нужно трогать, что не нужно трогать, какие есть нюансы, подводные камни. дам рекомендации, как пользоваться, и дам подумать над модификациями этого workкflow. Естественно, в описании есть тайм-коды. И если тебе какая-то тема будет, потом захочется её пересмотреть, ещё раз переслушать, по тайм-кодам ориентируйся. Также все ссылки на все модели, на Workflow, на все дополнительные материалы, всё будет в описании бесплатно и в кайф. Это open source. Нет никаких закрытых Telegram-каналов, нет никаких приватных чатов только для подписчиков, а нет никаких бустей, пареонов. Всё в описании, всё открыто свободно, потому что на предыдущем стриме вы, зрители мои, надоли на запись этого видео. Соответственно, вот, пожалуйста, вам спасибо. С меня то, что я обещал. Поехали. Ну, сначала немножко теории. Вообще из чего у нас это всё будет, а, компоноваться. У нас две главные модели здесь используются. Первый Infinity Talk, которая отвечает за дублирование, как раз за движение губ и прочее, да, соединение голоса и видео. И вторая модель - это One 2.1, которая будет отвечать за анимацию самого изображения, потому что мы будем делать статичное изображение в видео с липсинком. Соответственно, немножко теории, чтобы просто понимали, что такое что за модели. Естественно, ссылки на их вот эти странички будут в описании. Первое, Infinity Talk. Значит, она, во-первых, она умеет синхронизировать не только губы, но также движение головы, тела и эмоции. Expressions, да. Второе, она поддерживает без, ну, практически бесконечную длительность видео. То есть неважно, какой кусок аудио вы загрузите, 5 секунд или там 60 секунд, она всё это может переварить. Ну, естественно, там с оговорками. Также она поддерживает неразваливаемость. рук, тело. Понятно, что не всегда это может корректно работать, зависит от промта. Иногда может появляться лишняя рука или там лишние две руки, но в целом оно хорошо, довольно хорошо работает. И также она хорошо работает, ну, здесь, видите, в сравнении с мультитолком также она хорошо работает, а, в синхронизации губ. И более того, если мультитолк там, например, он хорош на английском и китайском, да, языке, то вот этот Infinity Talk, он нормально ещё делает и русский липсинг, а нам нужен именно русский липсинг. Поэтому вот будем это всё делать. И вторая модель One 2.1. Ну, здесь, наверное, нет смысла объяснять. Очень крутая модель для анимации статичных изображений. А про неё у меня было куча видео. Вот они вот здесь вот будут все. можно их найти на канале и посмотреть. Ну, короче, это хорошая модель для анимации, для создания видео. Тоже, естественно, локально. Вот. И я в начале сказал, что зрители надонатили на стриме на это всё. Вот есть запись стрима, его можно посмотреть, как это всё происходило, как мы там использовали. Вот вот этот workflow, который сейчас я буду объяснять, как работает. Там на записи стрима можно посмотреть, как он работал пря прямо вживую, прямо в лайве. Всё. Ну вот мы с вводной частью немножко разобрались. Давайте к workflow перейдём. Ну давайте сначала бегло посмотрим на сам workflow, а потом детально на каждый блок, да. Вот есть блок загрузки моделей, настройки выходного видео, соответственно, загрузка изображение, загрузка аудио. Вот здесь пишется у нас промт и происходит магия смплирования, да? И здесь у нас получается финальный результат. Не так много блоков. Ну и аплинг, конечно, тоже можно прикрутить. он, я его опционально добавил, но вдруг а кому понадобится. И, соответственно, для сетапа нам нужно нужны модели основные там, да, вот которые я указал. А также ещё другие будут нужны. Всё, всё, всё по порядке будет. А несколько кастомных нот. Вот я вот так вот открываю кам кастомные ноды, которые используются в workflow. Вот просто можно посмотреть. Вам нужна вот эта нода, эта нода, эта нода, вот эта нода и вот эта нода. А за мной там не видно. Ладно, список нот будет в описании. Ну и немножко о том, как я его создавал, потому что было было поломано много копий для того, чтобы это заставить вообще нормально работать. Я получал вот такие вот результаты, которые состояли просто из какого-то шума, из какого-то бреда. Непонятно, как это всё заставить работать локально, довольно быстро и хорошо, но всё-таки получилось. Поэтому вот делюсь этой жемчужиной с вами. Но пара бессонных ночей мне, пока я собирал его, было обеспечено. И здесь я хочу сказать вот что. Да, я провёл несколько бессонных ночей, чтобы вот это всё собрать, и это нормально работало, и чтобы и я кайфовал, и вы кайфовали. И нужно держать мотивацию. Понятно, что мне это интересно, но если вы хотите поддержать мой канал, во-первых, можно поставить лайк этому видео, можно подписаться на мой канал, можно написать комментарий какой-нибудь там. А вообще в целом, если есть вопросы, нужно писать комментарии. И если нет вопросов, нужно тоже писать комментарии. Ну, если вы хотите ещё больше меня поддержать, как бы можно воспользоваться вот сервисом donation-кодик на экране, ссылочка в описании. Я буду признателен любому донату. У меня нет закрытых чатов, у меня нет Бусте, пареонов там и прочих платных подписок, закрытых эксклюзивных курсов и вот этого вот всего. Э, держится всё чисто на энтузиазме и на ваших, э, донатиках. Спасибо всем, кто уже меня поддерживает, и я надеюсь, вас станет ещё больше. Спасибо за вашу поддержку. Это очень сильно меня мотивирует. Я каждый раз, когда открываю Donation Аersс, читаю ваши донаты, сообщения, что вы там пишите, мне всегда это греет душу перед записью видео. Вот я сегодня открыл и перечитывал, а донаты, собственно, спасибо за поддержку. Поехали. Ну ладно, давайте начнём с Workflow. Прямо по порядочку. Во-первых, вот если посмотреть на него вот так сверху, выглядит вот примерно вот так. В этой части у нас находится, ну, собственно, блок с такой заметочкой, где можно скачать модели, где перечислены все модели, которые на текущей в текущей сборке Workflow участвуют. Соответственно, нажимаешь на ссылочку, она модель сразу качается в загрузке, и вот здесь вот есть схема, куда эти модели класть. Соответственно, в папочке Config UI есть папочка models, в папочке models есть папочка diffusion Models. Туда надо положить вот эти две модели. В текст в папочке models есть папочка текoders. Туда надо положить вот эту модель. Ну и дальше по аналогии. Тут, короче, всё понятно, да? Теперь давайте посмотрим на блок загрузки моделей. А, во-первых, вот есть у нас One Video Model Loader. Это здесь мы грузим модель One 2.1 image to video 14B720p, да, FP8. Вот она. Но ты, естественно, сюда можешь загрузить модель полегче, то есть какую-нибудь там, не знаю, не 720p, а 480p. Она будет меньше картинку рисовать, но она будет просто полегче. В целом вот эти настроечки можно не трогать. А если у вас установлен Sage Attention, а я знаю, многие с ним колупались и не у всех получилось. Вот если у вас получилось и установлен Sage attention, то вот здесь attention mod оставьте Sage Attention. Оно просто будет чуть побыстрее. Если у вас он не установлен, переключитесь вот так на SDPA. И, соответственно, если вот здесь вот два две ноды ещё вот так вот, да, вот эти вот две ноды. One video torch compile и One Video Block Swap. Block Swap, значит, он переносит часть блоков в КПУ для того, чтобы освободить чуть памяти в ГПУшке, чтобы быстрее работало, да. И вот этот torch compile, он тоже немножко ускоряет генерацию. Если у вас будут при запуске workflow ругаться на какой-нибудь Torch Compile settings или вот на этот на блок swap, просто эти ноды, Ctrl B можно отключить. Они просто для ускорения нужны. Далее у нас идут лоры. Вот здесь мы загружаем лору, которая называется LiteX2 2V, да? Это которая вот та самая знаменитая, а, для генерации на четырёх шагах. Обычно без лоры нужно в сэмплере поставить 20 шагов. Это дальше покажу, где ставить. Вот, ну, там 20, 30, 40 шагов, да? С этой лорой генерация позволяет выполняться за четыре-5ть шагов. Поэтому, если вы если у вас мощное железо или вы запускаете в облаке, вы можете отключить этот блок и работать без лоры. Тогда будет качество выше, дольше, но качество выше. Мон не будет съедаться. Но и также здесь есть к ней прицеплены прицеплены ещё два две лоры. То есть, ну, это на случай, если вы захотите какие-нибудь лоры добавить. Ну, там, не знаю, с для стилизации, для персонажей, вот это всё. То есть эти лоры можно вот Ctrl B включить и сюда здесь выбрать свою лору, которую хочется добавить. По умолчанию эти лоры выключены. Ну, соответственно, если вы хотите больше лор использовать, там не три лоры, а там пять лор, просто их нужно вот, да, вот здесь вот прилора, да, дополнительно дополнительно, собственно, добавить самостоятельно. Дальше у нас идёт блок загрузкие. Это понятно. А здесь у нас грузится модель Infinity Talk. И обращу внимание, здесь используется, в этой сборке я использую Infinity Talk Single. И мы будем сейчас, я показываю примеры на говорящем персонаже на одном. Есть по ссылочке в описании, естественно, можно скачать Infinity Talk мульти, где она позволяет говорить нескольким персонажам внутри одного фрейма, внутри одного видео, собственно, тем самым создавая там, не знаю, эффект подкаста, что-нибудь такое, да. Но это, я думаю, вы можете попробовать сами. Ну или если очень надо, запрос на этот видос можно отправить донатиком. Вот здесь выбирается модель Infinity Talk Single. Дальше у нас, соответственно, идёт Clip Vision. И вот эта самая интересная модель - это VWК модель, которая здесь вот можно выбрать две, но работать будет только одна. Вот это она отвечает как раз за то, чтобы ну распознавалась нормально речь. И не удивляйтесь, что здесь написано чайниз, да, это китайская от тенцента. Вот. Но в целом, а губы при русской разговорной речи, они в целом совпадают. В большинстве случаев они совпадают. По примерам вы уже это видели, да? И на стриме можно посмотреть. То есть оно в целом совпадает. А есть в Автовек модели, которые поддерживают прямо люди тюнинговали базовую модель от компании, которую нельзя называть, а базовую модель тюнинговали, чтобы эта модель специально в Автовек была с поддержкой русского языка. Но, к сожалению, в текущей реализации в текущей реализации этих нот здесь, кроме вот этой модели по сути выбрать ничего нельзя. То есть сюда нельзя загрузить какую-то вторую модель. Можно, конечно, попробовать это обойти. А в этой найти в кэше где-то вот эту папку, да, найти, где вот эта вот модель находится и просто как бы переименовать русскоязычную, скачать русскоязычную модель, переименовать её, закинуть туда, а вось оно прокатит, оно, а ось оно выберет. Ну то есть можно поэкспериментировать. Хорошо. Это вот то, что касается касалось блока загрузки моделей. Если что-то непонятно, пишем в комменты. Переходим к следующему блоку. Итак, это вот настройки выходного видео, размеров результата, который мы хотим получить. Я часто видел под своими видосами комментарии из разряда типа: "А где выставить ширину и высоту видео?" И поэтому в этом Workflow я вынес это отдельно и прямо назвал: ширина, высота и FPS видео. Здесь вы выставляете ширину, высоту и FPS. Не обязательно FPS может быть 30, он может быть 16, он может быть 24 или 25. Но по моему опыту, я заметил, по моим тестам, на тридцати работает лучше всего. Но опять желе стоит понимать, что чем выше FPS, тем дольше Workflow будет работать, потому что количество кадров в секунду, вот у тебя видео 5 секунд, да, и при 16 FPS - это у тебя 80 кадров, а пятисекундное видео при 30 FPS - это 150 кадров, прости, и это уже совсем другое время. Поэтому с FP а ориентируемся на своё железо. То же самое касается размера картинки. 640 на 640 у меня нормально работало. Вообще, что касается генерации, примерно восьмисекундный ролик. У меня А5000, 16 гиговтопная и 64 ГБ оперативки. Соответственно, у меня на таких настройках 64040 и 16 FPS при восьмисекундм видео это генерировалось примерно 14 минут. Ну, ещё пару минут на upscalingнг до 1.280 на 1.280. Это 8 секунд. Ну, в целом довольно довольно шустро, довольно быстро, я считаю. И вот здесь есть ещё блок, который включает апскелинг. То есть можно включить, выключить. Вот сейчас отдалимся и увидим вот там вот в конце. Вот аплинг сейчас выключен, мы его включили. С апскейлингом аккуратней, я расскажу позже. Переходим к следующим двум важным блокам. Это наши входные данные, которые, во-первых, это low image. Здесь мы загружаем картиночку, которую мы будем оживлять. А здесь мы загружаем аудио, которое будет у нас проигрываться в нашем видео. Картиночку мы кидаем, ну, в целом любого размера, потому что здесь будет кроп по заданной ширине и высоте. А и кроп будет по центру. Поэтому, если вы выставили квадрат, а у вас горизонтальная картинка, будьте уверены, что у вас края обрежутся. Ну, на всякий случай, просто чтобы вы знали, как работает кроп. Вот здесь. Дальше вот здесь есть вот здесь вот видеоэнкод с тайлингом. А иногда бывает такое, что тайл - это вот квадраты, на которые будет разрезана картинка, чтобы их, ну, генерировать. Давайте так, давайте проще говорить. Вот, соответственно, если если у вас выбивает ошибку, не хватает памяти или там что-то ещё, и он ругается на ругается на out of memory, а вы можете рассмотреть вариант уменьшать размер тайлов, то есть не 272 там делать какие-нибудь там 160 или там ещё меньше. Вот. Ну, то есть уменьшать можно уменьшать размер тайлов и блок загрузки аудио. Ну, просто сюда кидаем аудиозапись формата MP3. Здесь у нас автоматически вот этим math expression у нас рассчитывается длина видео, которое будет получаться во фреймах после запуска. Вот здесь будет синеньким написано количество фреймов. Естественно, эта длина сразу у нас справляется туда. Мы не указываем здесь длину видео, мы ориентируемся на длину аудио. По сути, у нас длина видео будет равна длине аудио. Возможно, плюс несколько фреймов. Об этом а я расскажу дальше. Следующий блок, наверное, один из самых основных. Э, они все здесь нужны, но этот прямо вот здесь происходит вся магия. Здесь мы сейчас чуть поподробнее укрепимся, да. А, во-первых, это, ну, блок называется prompt and сampлиing, да. И, а, вот здесь мы тоже выбираем модель текст энкодера, который у нас отвечает за кодированиние текста в понятный формат для модели. Поскольку мы делаем по сути image to видео, в этом блоке нет смысла писать, а, описывать персонажа, который у вас уже есть на картинке. Здесь достаточно описывать движение персонажа, эмоции и движение камеры. Если у вас на картинке девушка стоит, нет смысла писать, что девушка-блондинка с гитарой в руках стоит возле метро и просит подаяния, играя соя, да? А просто пишите о том, что девушка играет, как она поворачивает голову, какае у неё выражение лица там и вот это всё. Ну то есть здесь нет особо смысла расписывать самого персонажа, потому что у нас этот персонаж за задан уже в изображении. Вот здесь у нас этот персонаж уже занят. Задан, за исключением, если у вас этот персонаж должен где-то перемещаться, то можно прописать, окружение, то есть бэкграунд, и дополнительных персонажей. Ну, например, если он идёт по улице, что он там будет встречать, да? Ну, то есть такой, ну, ну, понимаете, о чём я говорю? Дальше у нас идёт блок сэмплинга. Как раз поскольку мы используем вот здесь вот лору, вот эту лору четырёхшаговую, ну, здесь у нас выставлено пять шагов в целом. Вот здесь настройки можно не менять. Единственное, э если хочешь получать всегда разный результат, вот здесь ставим а сит рандомный. Остальное можно не трогать, за исключением. Если ты используешь лору, оставляй такие настройки. Если ты отключаешь лору, во-первых, шагов тебе нужно от 20 до 40. Ну, в зависимости от того качества, которое ты хочешь получать, это уже методом эксперимента подбирается. И CFG надо будет поднимать, если я правильно помню, там что-то до 4-5 пя-шести. И одна из основных вещей, которая вот сейчас вот сейчас надо запомнить, потому что сейчас будет немножко сложненько. Вот смотри, есть такая штука, как frame Windows size и motion Frame. Frame Windows size - это то количество фреймов, на которые будет разбито твоё видео для последовательной генерации. А motionфame - это то количество фреймов, на которое модель смотрит назад для синхронизации и плавности движения. Объясняю просто на картинке. У тебя видео длиной 128 фреймов и Windows Frame Size у тебя 77. Соответственно, это видео будет разбито на два куска 77 фреймов, 77 фреймов и будет генерироваться, соответственно, сначала первый кусок, потом второй кусок, потом они склеются, тебе ничего делать не надо, просто жди и всё. Но у тебя, видимо, видео 128 фреймов, а оно будет разбито на два куска по 77. И у тебя останется вот этот гэп фреймов свободный, который по сути начнётся после того, как аудио закончится. И он будет сгенерирован, потому что здесь есть это число. И вот оно будет сгенерировано. И у тебя будет вот этот хвостик, который без аудио. Там просто персонаж что-то будет делать. Этот хвостик можно победить только лишь несколькими способами. Первое - это либо подбирать фрейм Windows size под э длительность твоего видео, чтобы вот этот хвостик был минимальным. Вот. Либо отрезать руками, если много остаётся, либо придумывать какую-то хитрую математическую формулу, которая всё это будет высчитывать. Есть ещё про вариант, а, проявить свои творческие, режиссёрско-сценаристские навыки и запроектировать длительность аудио так, чтобы она практически идеально ложилась в эти 77 фреймов или идеально ложилась в чанке по 77 фреймов. Тогда ты будешь вообще максимально красавчик. Но я говорю, в целом ничего критичного, если у тебя будут оставаться лишние кадры, их можно всегда в редакторе отрезать, но просто ты должен знать, как это работает. И, соответственно, motion Frame 9 - это то, насколько оно смотрит назад для синхронизации и плавности движения. То есть этот параметр можно, если у тебя очень быстрые движения какие-нибуд в кадре, этот параметр можно повышать. Ну, как бы на моих тестах девять, ну, вот так нормально в целом. Ну, надеюсь, там понятно было, потому что сейчас мы переходим вот уже прямо к финалочке, да. Всё. И финал видео у нас блок здесь просто в видеокомбайне, а, генерируется, собирается финальный результат в формате MP4. И по дефолту здесь save output отключен. Мы его вот так включаем и всё. И вот здесь вот пишем, куда он, либо название файла, либо путь, куда он будет сохраняться. Ну, короче, это это понятно, все знают, да. Ещё один блок, вот здесь есть upscale. Он опциональный. Ну, типа я его прикрутил для того, чтобы просто, чтобы было. Если вы используете э если вы делаете реалистик, можно использовать real srun upscaler. Если вы используете если вы рисуете аниме, то можно скачать модельку Anim Sharp, да, они гуглятся просто вот прям вот вот прямо вот по названию модельки. Название модельки пишите в Гугле и вам прямая ссылка будет на скачивание этой модели. И вот здесь вот у меня по дефолту установлено, что upscillлинг идёт вот через вот этот математическое выражение в два раза. То есть, если вы подаёте всё на вход, если всё на вход падает изображение видео 640 на640, соответственно, на выходе оно будет 1.280 на1280. И здесь с апскейлингом нужно быть аккуратным, потому что как работает апскелер, он забирае, он разбивает видео входное на отдельные кадры. все эти кадры забирает в оперативную память, там их месит, увеличивая, а потом все вместе выплёвывает. И, соответственно, если вы поместите в в оперативную память сразу много кадров большого разрешения, скорее всего, у вас комфе вылетит, вы схватите out of memory, disconnect и вот это всё. Поэтому с апскейлингом я рекомендую быть очень-очень аккуратным и по возможности видосы обскелить потом на стороне. Но просто если у вас здесь э видео, которые будут получаться до 10 секунд, вот на моих 64 гигах оперативки видео до 10 секунд 640 на640 прекрасно при 30 FPS-ах, при 16 фпсах, вру, при 16 фпсах прекрасно обскейлились в 1.280x на1280. То есть это это можно прямо делать на небольших вот таких чанках. Хорошо, давай подумаем, что сюда ещё можно прикрутить. Сюда можно прикрутить, например, интерполятор, но я очень рекомендую это делать. Но интерполятор для того, чтобы сделать, например, 16 FPS, 60 FPS или 30 FPS, 60 FPS, да. Но я очень рекомендую это делать. Ну или делать это аккуратно и постепенно аккуратненько повышать количество а фреймов, потому что а интерполятор вот всё-таки добавляет кадры, да, и тогда у вас может начаться просто рассинхрон видео и рассинхрон липсинка, и получится вообще полное Что сюда можно добавить ещё? Предвкушаю вопрос. Можно ли добавить на вход видео? Да, можно. Мы меняем вот эту ноду load image на load. Мы меняем эту ноду load image на ноду load видео. Ну, примерно вот так, да. По идее, должно работать. Опять же по по сути должно работать. По факту я ещё не пробовал. Ты можешь быть первым. Заодно напишешь в комментах, что, как оно работает, не работает. Потом, смотри, я уже говорил, что здесь используется модель сингle. Да, но можно же скачать мульти. Соответственно, если есть модель мульти, можно ли сюда подать на вход несколько аудиодорожек? Да, можно. Вот здесь вот вот этот Infinity Talk в Auts, да, он поддерживает четыре аудиодорожки. То есть вы можете сюда воткнуть ещё три таких. Ну вот только здесь, э, стоит, наверное, следить за тем, чтобы они как-то сочетались и, наверное, были примерно одинаковой длины, да? Потому что иначе у нас FPS-то задаётся только с одного потока. Ну и, соответственно, наверное, надо, чтобы он задавался с самого длинного, ну или самого короткого, если вы хотите его обрезать. И вот ещё один вопрос, который я получил до того, как записал ещё это видео. Понимаете? Вот вы вы уже спрашиваете на годы вперёд, да? Можно ли, например, сюда прикрутить музыку, чтобы сразу получить аудиоклип, чтобы персонаж, например, подаёшь, сгенерил музыку в суна сюда подал, да, и персонаж сразу её поёт? Да, можно. Но здесь нужно помнить о следующем, что любые звуки, которые ты подаёшь в аудио, они могут быть восприняты моделью как речь. И, соответственно, у тебя простая игра на гитаре может забивать мимо, да? А поэтому тебе нужно отделить как-то, а, э, вокал от музыки. Это можно сделать своими руками, там, в какой-нибудь тулзе, что-нибудь там отделить и прогнать отдельно вокал, потом отсоединить. А можно установить, а, кастомную ноду. Она называется вот так вот Audio Separation nodes. Comfy UI, да, вот её установить и добавить вот такие две ноды. Первое - это Audio separation, где на вход мы подаём аудио и выбираем, что мы хотим дальше забрать. Вокал, что-то другое, Bu, drums, да? То есть обычно вокал забирают, да, и аудиокроп - это для того, чтобы просто тупо обрезать а ваше аудио до нужного, до какой-то длины. Например, вы закидываете песню, у которой там в конце 30 секунд проигрыш. Нафига нам ждать вот эти все 30 секунд, когда можно просто кропнуть прямо здесь? Ну вот так вот получается. А что работает прекрасно? Оно генерит там от 5 секунд до 1но минуты. И как вот я обещал, а есть нюансы. То есть оно написано, что типа бесконечная длительность видео, но нет, на самом деле не бесконечная, потому что всё это работает через one видео врапер, который написал Киджай. И а у него на гитхабе прямо написано, типа, будьте аккуратны там с длительностью видосов более одной минуты, потому что после 1ной минуты может начать разваливаться, типа вот вот до 1ной минуты. Ну в целом нормально, что там социальные сети, у всех сторис 1 минута максимум, да, вот до 1ной минуты генерить прямо вполне можно по времени. А могу сказать следующее. Во-первых, я уже озвучил своё, ещё раз повторю. А, 16 FPS, 640 на640, 8 секунд видео, примерно 14 минут генерации на моей шестнадцатигиговой видюхи а 5.000 и 64 гига оперативки. Но у тебя здесь время будет зависеть, а, от выбранной модели, то есть 720p или 480p, от размера, от FPS и от длительности длительности аудио. То есть количество фреймов, которые ты генеришь, их размер. Вот вот от этого будет зависеть а скорость твоей генерации. Поэтому нет смысла, как бы, в комментах спрашивают, типа: "А какая с какой скоростью, как быстро генерит он на там карте 3060?" Зависит от настроек. Вот, ответ зависит от настроек. Ну и давайте к какому-то заключению прийдём. Инструмент вообще классный инструмент, рабочий. Мне кажется, сейчас он занимает у меня в топе прямо лучшего липсинка, тем более он делает его на русском, и это локально. Не нужно там э что-то придумывать прямо супер такого. В любом случае, если хочется очень быстрой скорости, всегда можно арендовать какой-нибудь облачный ГПУ и запустить это там и генерить просто контент нон-стопом. Вот как-то так получается. Спасибо всем, кто поддерживает этот канал. Кто только хочет начать, вот QR-кодик на экране и ссылочка есть в описании. Donation Alers. Я буду очень признателен вам за вашу поддержку. Это очень сильно меня мотивирует и дальше делать а такой контент. Генерируйте с нами. Генерируйте, как мы генерируйте лучше нас. С вами был генератион. Ещё увидимся. Пакеда.

InfiniteTalk. Бесплатная локальная нейронка для дубляжа и липсинка на русском в ComfyUI + Workflow

Channel: ЭйАй Генератьон

Convert Another Video

Share transcript:

Want to generate another YouTube transcript?

Enter a YouTube URL below to generate a new transcript.