Stability AI представила Stable Video 3D: генерирует видео с объёмными объектами на основе одной фотографии
Вчера, 18 марта, компания Stability AI официально представила свою новую большую языковую модель под названием Stable Video 3D, которая позволит существенно развить сферу генерации объёмных объектов. Разработчики отмечают, что их технология может похвастаться значительным улучшением качества по сравнению с ранее представленной моделью Stable Zero123 или альтернативой с открытым исходным кодом Zero123-XL, при этом она представлена в двух вариантах. Первый под названием SV3D_u позволяет генерировать так называемые «орбитальные» видео — в кадре созданный объект вращается вокруг своей оси.
Для генерации такого контента, по словам разработчиков, достаточно использовать одиночное «плоское» изображение — система проанализирует объект, после чего создаст его объёмную копию, которая будет вращаться в кадре. Второй версией языковой модели выступает SV3D_p — это версия с расширенными возможностями SVD3_u. В данном случае языковая модель учитывает как одиночные изображения, так и «орбитальные» видео, позволяя создавать 3D-видео по заданной траектории движения камеры. Судя по демонстрации на официальном сайте, генерируемый контент действительно выглядит крайне убедительно, особенно если учесть, что системе нужно «додумать» примерно половину от объекта.
Также разработчики нового инструмента отмечают, что Stable Video 3D способен обеспечить целостность обзора объекта с любого заданного угла — это положительно сказывается на реалистичность и точность генерации 3D-объектов, обеспечивает согласованность их внешнего вида в различных ракурсах и позволяет лучше управлять позиционированием. Кроме того, новая языковая модель задействует технологию оптимизации объёмных объектов Neural Radiance Fields, чтобы дополнительно повысить качество генерации контента в тех областях, которые изначально не видимы в предсказанных ракурсах.
Дополнительно для повышения качества конечного контента Stable Video 3D использует новую модель освещения, которая оптимизируется вместе с формой и текстурой объекта. Уже сейчас инструмент Stable Video 3D можно использовать в коммерческих целях, имея подписку Stability AI, плюс для некоммерческого использования можно скачать большую языковую модель на Hugging Face. Авторы проекта также выпустили результаты своих исследований в этой области, что должно помочь учёным и энтузиастам в будущем улучшить технологию. На текущий момент конечный контент выглядит неплохо, учитывая генерацию на базе 2D-изображения, но до реализма ему далеко.