Блогер сравнил нейросети, генерирующие видео

Калеб Уорд, блогер и основатель проекта Curious Refuge, представил в своём блоге интересный обзор видеогенерирующих нейросетей: он обратился к нескольким нейросетям с просьбой создать короткий видеоклип на основе трёх фотографий.
Нейросеть Veo 2 от Google, заслужившая 5 баллов из 6 возможных: сгенерированное видео отличалось наилучшим реализмом, адекватной физикой и динамикой кадра. Veo 2 в настоящий момент находится в ограниченном доступе, а для тех, кто всё-таки сумеет воспользоваться её услугами, функционал пока ограничен: разрешение видео не превышает 720p, а продолжительность – 8 секунд. Кроме того, Veo 2 не предоставляет возможности генерировать видео по загруженным изображениям, как бы оживляя их: вместо этого изображение, которое будет оживляться, можно только сгенерировать в самом Veo 2, что не позволяет использовать эту нейросеть для генерации сюжетов, отдельные фрагменты которых будут выдержаны в одной стилистике.
Примерно на одном уровне (снова-таки, по оценке Уорда, 4 балла из 6) справились с задачей Sora от компании OpenAI, и сервис Runway от бывшего сотрудника OpenAI Кристобаля Валенсуэлы, созданный при поддержке Nvidia.
Sora даёт хорошее качество картинки, адекватно передаёт физику и движения, позволяет генерировать видео продолжительностью до 20 секунд и в разрешении до 1080p.
Ключевым недостатком Sora является «слишком бурная фантазия» данной нейросети и некая своевольность в интерпретации данных ей инструкций: при анимировании картинки Sora иногда склонна добавлять туда объекты, которых там изначально не было, либо же наоборот, убирать те, которые там имелись. Метод борьбы с этим известен: просто повторять попытки генерации до получения нужного результата. Но это может быть довольно накладно в случае Sora: подписка на пакет, предусматривающий полноценную генерацию, стартует от $200 в месяц, при этом пакет предполагает возможность генерации всего лишь 500 видео.
Runway бюджетнее (полный пакет с возможностью генерации без ограничений стоит всего $76 в месяц) и аккуратнее выполняет инструкции пользователя, однако даёт на выходе более слабое качество картинки и менее реалистичную физику. Зато она работает существенно быстрее и позволяет генерировать существенно больше видео.
Видеогенератор Luma явно отстаёт от конкурентов по качеству генерации: картинка получается «мыльной» и «мультяшной», физика и движение объектов – нереалистичными. Калеб Уорд оценил качество работы сервиса в 2 балла из шести возможных. Стоит добавить, что при этом Luma ещё и дороже многих конкурентов: режим неограниченной генерации стоит $95 в месяц.
Китайская нейронка Minimax удостоилась от Уорда 4 из 6 баллов – на том же уровне, что и Sora или Runway. В плане генерации видео Minimax отстаёт от конкурентов, совмещая склонность к излишнему фантазированию (недостаток Sora) и не очень хорошее качество картинки (минус Runway). Вместе с тем, Уорд отмечает, что она куда проще в использовании и дешевле: начать работать с Minimax можно уже от $5 в месяц, а премиум-пакет стоит $50.
Наиболее интересной оказалась оценка Уордом ещё одной китайской нейросети – видеогенератора Kling. Уорд присудил ей 5 баллов из 6 возможных – на том же уровне, что и пока отсутствующей в общем доступе Veo 2.
Качество генерации, реализм и физику в Kling Уорд оценил в 8 баллов из 10 – лишь немногим хуже, чем у Sora. Вместе с тем, по гибкости Kling превосходит конкурентов благодаря таким фишкам, как возможность обучения нейронки на одном и том же лице, что удобно, если вам нужно использовать одного и того же персонажа в различных сценах.
Кроме того, авторы Kling догадались реализовать такую удобную опцию, как «негативный промпт» (описание того, чего НЕ должно быть на видео): среди генерирующих нейросетей такой опцией в полном виде до сих пор обладала только «рисовалка» Leonardo AI. При этом Kling стоит дешевле всех конкурентов: начальный пакет стоит всего $3,88 в месяц, а полный доступ – всего $28,88.