Stable Virtual Camera: ИИ, который превращает фотографии в 3D-видео без сложных реконструкций

Компания Stability AI анонсировала новую систему искусственного интеллекта под названием «Stable Virtual Camera», которая позволяет преобразовывать обычные фотографии в 3D-видео, избегая при этом сложных процессов 3D-реконструкции и сценической оптимизации.

Эта система способна создавать 360-градусные видеорядки длительностью до 30 секунд, используя всего одну фотографию или до 32 входящих изображений. Она поддерживает 14 различных движений камеры, включая полный 360-градусный поворот, спиралеподобные движения, эффекты масштабирования и более сложные траектории, такие как лемнискаты. Stability AI утверждает, что изображения, созданные системой при заданных движениях камер, являются трёхмерными, синхронизированными во времени и, как указано в названии, “стабильными”.

Система совместима с различными форматами изображений — она может работать как с квадратными (1:1), так и с портретными (9:16) и альбомными (16:9) изображениями. Это стало неожиданностью для исследователей, так как модель изначально обучалась исключительно на квадратных изображениях размером 576×576 пикселей. Команда считает, что модель в процессе обучения смогла научиться обрабатывать изображения различных форматов.

«Stable Virtual Camera» строится на диффузионной модели с 1,3 миллиарда параметров, основанной на архитектуре Stable Diffusion 2.1. Для улучшения пространственного восприятия исследователи трансформировали 2D-самосознание модели в 3D.

Обработка входных изображений осуществляется в два этапа: сначала создаются «опорные изображения» на основе входных данных, а затем формируются необходимые перспективы между этими опорными точками. Разработчики утверждают, что такой двухэтапный подход обеспечивает целостность и стабильность итогового результата.

Тестирования показали, что Stable Virtual Camera превосходит существующие аналоги, такие как ViewCrafter и CAT3D, особенно в случаях значительных изменений перспективы и при создании плавных переходов.

Однако система сталкивается с трудностями в точной визуализации людей, животных и динамических объектов, таких как водные поверхности. Визуальные артефакты могут возникать при сложных движениях камеры или в неоднозначных сценах, где целевая перспектива значительно отличается от исходной.

Сейчас система доступна для исследователей по некоммерческой лицензии, а ее веса и исходный код можно найти на Hugging Face и GitHub. Также доступна публичная демо-версия на Hugging Face.

После успешного запуска генераторов изображений Stability AI столкнулась с нарастающей конкуренцией, как со стороны проектов с открытым исходным кодом, так и от коммерческих приложений, таких как Flux, который стал заметным конкурентом в области создания изображений.

Недавно компания провела реорганизацию, чтобы сосредоточиться на двух ключевых направлениях: развитии 3D-обработки и синтезе новых изображений, а также создании оптимизированных моделей для маломощных устройств, таких как смартфоны.