Tencent X-Omni: Революция в генерации изображений с открытым исходным кодом, становясь конкурентом GPT-4o

Опубликовано: August 17, 2025

Команда Tencent X-Omni продемонстрировала, как применение методов обучения с подкреплением может устранить основные недостатки гибридных систем искусственного интеллекта, используемых для генерации изображений. Эта модель особенно эффективна в преобразовании длинных текстов в визуальные объекты и иногда устанавливает новые критерии качества.

Автогенеративные модели, которые создают изображения поочередно, сталкиваются с серьезной проблемой накопления ошибок, что значительно ухудшает конечный результат. Для решения этой проблемы многие современные системы применяют гибридный метод, комбинируя автогенеративные модели для семантического планирования с диффузионными моделями, которые завершают процесс, создавая изображение.

Однако у гибридных систем также есть свои недостатки: токены, выдаваемые автогенеративной частью, часто не совпадают с ожиданиями диффузионного декодера. Исследователи из Tencent приняли решение устранить этот несоответствие и разработали систему X-Omni, обученную с использованием методов обучения с подкреплением, которая эффективно объединяет обе технологии.

X-Omni соединяет автогрессивную модель, создающую семантические токены, с FLUX.1-dev. В отличие от предыдущих гибридных решений, здесь обе части обучаются совместно, благодаря чему обучение с подкреплением способствует их слаженной работе.

Сначала X-Omni создает семантические токены, которые затем преобразуются в изображения диффузионным декодером. Система оценки предоставляет обратную связь о качестве, что позволяет автогенеративной модели улучшать токены для более эффективного использования декодером. В статье отмечается, что качество генерируемых изображений последовательно увеличивается на протяжении обучения. Уже через 200 итераций X-Omni превосходит результаты традиционных гибридных подходов.

Вместо обработки изображений на уровне пикселей X-Omni использует семантическую токенизацию. Система токенизации SigLIP-VQ преобразует изображение в 16 384 токена, каждый из которых описывает отдельный смысловой элемент, а не отдельный пиксель. Основой для системы является открытая модель Qwen2.5-7B от Alibaba с добавленными специализированными слоями для работы с изображениями.

Для реализации обучения с подкреплением команда разработала целую оценочную цепочку, включающую человеческую оценку эстетики, модель для анализа изображения в высоком разрешении и мультимодальную систему Qwen2.5-VL-32B, проверяющую соответствие изображения запросу. Также были задействованы OCR-системы GOT-OCR-2.0 и PaddleOCR для анализа текста.

Отличительной чертой X-Omni является её способность точно работать с текстами внутри изображений. В тестах на английском языке модель достигла результата 0,901, обогнав всех конкурентов. Для проверки системы на длинных текстах команда создала собственный бенчмарк LongText, где X-Omni снова оказалась в числе лидеров, особенно по показателям на китайском языке.

В задаче генерации изображений X-Omni достигла рекордного результата 87,65 на тесте DPG, опередив все другие «унифицированные модели» и немного превзойдя GPT-4o. Кроме этого, система уверенно решает задачи по пониманию изображений, опережая ряд специализированных решений в OCRBench.

Метод обучения на основе подкрепления кажется многообещающим, однако сами исследователи не говорят о каком-либо революционном прорыве. В большинстве тестов прирост по сравнению с конкурентами остается умеренным. GPT-4o по-прежнему силен, а Seedream 3.0 от Bytedance также демонстрирует высокие результаты, хотя ограничивается исключительно созданием изображений.

Тем не менее, X-Omni выделяется своей способностью интегрировать инструменты с открытым исходным кодом от различных, иногда конкурирующих команд, создавая модель, которая способна успешно соперничать с коммерческими продуктами, такими как решения от OpenAI.

Когда несколько месяцев назад в ChatGPT появилась функция генерации изображений на основе GPT-4o, это стало значительным событием в отрасли. Судя по всему, успех заключался в комбинации автогенеративной и диффузионной архитектуры, что улучшило понимание запросов и точность текста в изображениях.

Tencent выпустила X-Omni в открытый доступ на платформах Hugging Face и GitHub.