Искусственный интеллект Goku от ByteDance: Революция в создании рекламных видеороликов без актеров

Новые модели искусственного интеллекта, разработанные китайской технологической компанией ByteDance, способны создавать реалистичные видеоролики, в которых люди взаимодействуют с продуктами. Это может коренным образом изменить подход бизнеса к созданию рекламного контента.

Согласно информации из опубликованной статьи, ByteDance разработала свои новейшие модели ИИ под названием Goku, используя обширный набор данных, содержащий около 160 миллионов пар «изображение — текст» и 36 миллионов пар «видео — текст». Эти данные были собраны из академических библиотек, интернет-источников и сотрудничества с партнёрами.

В отличие от других видеомоделей, Goku может одновременно генерировать как статические изображения, так и видеоконтент на основе текстовых инструкций. Архитектура системы использует трансформеры с количеством параметров от 2 до 8 миллиардов, что позволяет обрабатывать оба формата данных одновременно.

Процесс сжатия изображений и видео осуществляется с использованием единого кодировщика (VAE), аналогично методам компрессии данных. После этого сжатые данные обрабатываются трансформером, что оптимизирует качество вывода. Эта архитектура в сочетании с новым генеративным методом, известным как Rectified Flow, заменяющим традиционный подход диффузии, позволяет Goku достигать стабильных и высококачественных результатов.

Обучение модели проходит несколькими этапами: сначала Goku обучается связывать текст с изображениями, после чего одновременно работает с изображениями и видео, а в завершающий этапе модель оптимизируется для генерации либо изображений, либо видео.

Чтобы упростить этот сложный процесс, ByteDance создала специализированную инфраструктуру, которая эффективно распределяет вычислительные ресурсы и позволяет быстро восстанавливать работу после сбоев, обеспечивая стабильность обучения на крупных кластерах компьютеров.

В тестах Goku продемонстрировала отличные результаты как в генерации изображений, так и видео. Видеомодель Goku-T2V получила 84,85 балла в тестах VBench, обойдя аналоги от таких компаний, как Kling и Pika. Качество выходного материала также значительно улучшилось по сравнению с предыдущей моделью Jimeng от ByteDance.

ByteDance разместила на странице проекта несколько примеров видеороликов, охватывающих как реалистичные, так и креативные подходы. Хотя компания не уточнила ограничения Goku, все продемонстрированные примеры представляют собой четырёхсекундные ролики с частотой 24 кадра в секунду и разрешением 720p.

ByteDance нацеливается использовать Goku для медиапроизводства, рекламы, геймдизайна и моделирования окружения. Также разработана специализированная версия Goku+, ориентированная на создание рекламного контента с участием людей и продуктов.

Goku+ может создавать достоверные видеоролики с людьми, выполняющими естественные движения, мимику и жесты, основываясь на текстовых описаниях. Он также способен преобразовывать изображения товаров в видеоклипы, показывающие взаимодействие людей с ними.

Компания утверждает, что использование Goku может сократить затраты на создание рекламных видеоматериалов до 99%. В настоящее время компании тратят огромные средства на создателей пользовательского контента — авторов, которые создают реалистичные видеоролики о продуктах.

Хотя ByteDance имеет опыт работы над несколькими ИИ-проектами в области видео, Goku является одним из её самых масштабных начинаний. На данный момент это всего лишь исследовательская версия. Вероятно, компания будет задействовать свою платформу TikTok для предложений этих инструментов рекламодателям, хотя ей могут препятствовать потенциальные санкции со стороны правительства США.

Источник