VoxHammer: Новая нейросеть от Tencent для точного редактирования 3D-моделей без артефактов

Исследователи из Tencent разработали открытую модель машинного обучения, предназначенную для локального редактирования трехмерных объектов. Ключевой особенностью этой нейросети является то, что она вносит изменения непосредственно в исходное латентное трёхмерное пространство, а не в набор изображений, снятых с разных ракурсов.

При редактировании VoxHammer сначала получает инверсную траекторию и кэширует KV-токены. Затем нейросеть начинает «воссоздавать» 3D-модель, учитывая новые данные, такие как текстовые команды, изображения и наложенные маски. Если пользователь не указал на необходимость изменения конкретного фрагмента, модель оставляет его неизменным. В результате получается тот же 3D-объект, но с внесенными точечными правками и без артефактов.

В отличие от других подходов редактирования 3D-моделей, которые каждый раз заново создают объект на основе набора изображений, VoxHammer обеспечивает более стабильный результат. При использовании традиционных методов генерация моделей может привести к значительным различиям в их внешнем виде.

VoxHammer можно запускать локально. Разработчики рекомендуют использовать систему на базе Ubuntu 20.04 или 22.04 и графическую карту Nvidia A100 с 80 ГБ видеопамяти.

Код данного проекта доступен и опубликован на GitHub. На Hugging доступен бенчмарк, который позволяет оценить сохранность не редактируемых областей.