OpenCUA: Новый опенсорсный фреймворк, бросающий вызов лидерам ИИ-рынка Anthropic и OpenAI

Новый исследовательский проект, разработанный учеными Гонконгского университета (ГУ) и их союзниками, предлагает открытую платформу программного обеспечения для создания высококачественных ИИ-агентов, способных выполнять задачи на компьютере. Этот фреймворк, названный OpenCUA, сочетает в себе инструменты, базы данных и методики, которые упрощают разработку computer-use agents (CUA) — агентов, способных свободно управлять компьютером, как это делает человек.

Модели, обученные с использованием OpenCUA, показывают впечатляющие результаты на специализированных тестах: они превосходят существующие опенсорсные решения и приближаются к достижениям закрытых лидеров отрасли — OpenAI и Anthropic.

Агенты, работающие с компьютером, изначально задумывались как автономные помощники для выполнения различных задач — от просмотра веб-страниц до работы с сложными программами. Они могут выполнять рутинные операции и автоматизировать бизнес-процессы. Тем не менее, самые продвинутые из таких систем остаются закрытыми, и структуры их архитектур, обучающие данные и методы разработки не подлежат разглашению.

«Отсутствие прозрачности замедляет прогресс и вызывает опасения по поводу безопасности. Научному сообществу нужны открытые CUA-фреймворки для изучения их потенциала, слабых мест и возможных рисков», — пишут авторы исследования.

Тем не менее, даже в открытом пространстве существуют проблемы: до сих пор отсутствовала масштабируемая инфраструктура для сбора больших и разнообразных объемов данных, необходимых для обучения агентов. Доступные открытую датасеты для графических интерфейсов часто оказывались слишком малыми, а методы, описанные в исследованиях, зачастую были недостаточно подробными для воспроизведения.

Авторы подчеркивают: «Все эти ограничения замедляют развитие универсальных CUA и затрудняют полноценное изучение их масштабируемости, гибкости и стратегий обучения».

OpenCUA создан как универсальный открытый фреймворк, который решает эти проблемы, расширяя возможности как в сборе данных, так и в обучении моделей. Его основой является AgentNet Tool, который записывает действия человека на компьютере в различных операционных системах.

Инструмент работает на компьютере аннотатора, захватывая видео с экрана, движения мыши и нажатия клавиш, а также «accessibility tree» — структуру, описывающую элементы интерфейса. Эта «сырая» запись затем превращается в траектории состояния — действия: снимок экрана (состояние) плюс шаг пользователя (клик, нажатие и так далее). После этого аннотаторы могут просматривать, редактировать и отправлять свои демонстрации.

С помощью этого инструмента была собрана база данных AgentNet: более 22 600 демонстраций на платформах Windows, macOS и Ubuntu, охватывающих более двухсот приложений и веб-сайтов. «Этот массив достоверно отражает сложность человеческого поведения и динамику сред в реальных пользовательских условиях», — отмечается в исследовании.

Понимая, что программы записи экрана могут вызывать у компаний опасения по поводу утечки данных, разработчики сразу же интегрировали в AgentNet Tool многоуровневую систему защиты. Соавтор исследования, аспирант ГУ Синьюань Ван, поясняет: «Аннотатор сначала анализирует, какие данные он генерирует, и решает, следует ли их отправлять. Затем записи проходят ручную проверку на предмет конфиденциальности, а также автоматическое сканирование с помощью модели, которая выявляет сохраняющиеся чувствительные фрагменты. Такой многоуровневый фильтр обеспечивает корпоративный уровень защиты, даже когда обрабатываются финансовые или клиентские данные».

Для ускорения тестирования агентов команда также разработала AgentNetBench — офлайн-бенчмарк, где на каждый шаг предусмотрено несколько корректных действий. Это делает оценку производительности моделей более гибкой и реалистичной.

Фреймворк OpenCUA предлагает инновационный подход к обработке данных и обучению компьютерных агентов. Первичный этап — преобразовать «сырые» демонстрации людей в точные пары состояние — действие, подходящие для обучения vision-language-моделей (VLM). Однако стало очевидным, что простое обучение на таких парах дает лишь ограниченные улучшения, даже при большом объеме данных.

Ключевым открытием стало дополнение этих траекторий chain-of-thought рассуждениями. Система создает подробно проработанный «внутренний монолог» для каждого действия, включая планирование, память и саморефлексию. Эта цепочка структурирована по трем уровням: общее наблюдение за экраном, аналитические размышления с планом действий и конкретное исполнимое действие. Именно эта многоуровневая логика помогает агенту глубже осознавать поставленную задачу.

«Мы уверены, что рассуждения на естественном языке являются важной составной частью для создания обобщаемых CUA-моделей: они позволяют агентам развивать когнитивные способности», — отмечают исследователи.

Этот процесс синтеза данных можно адаптировать под нужды любой компании: достаточно записать демонстрации корпоративных процессов и пропустить их через тот же «рефлектор» и «генератор», чтобы получить обучающие данные. Как объясняет Ван, это обеспечивает быстрое создание эффективного агента, настроенного на внутренние инструменты компании, и при этом позволяет избежать ручного формирования рассуждений.

Чтобы проверить предложенный подход, исследователи обучили на базе OpenCUA несколько открытых VLM-моделей, включая версии Qwen и Kimi-VL с количеством параметров от 3 до 32 миллиардов. Они проходили тестирование на онлайн- и офлайн-наборах, оценивающих способности работы с интерфейсами и выполнения задач.

Модель с 32 миллиардами параметров — OpenCUA-32B — установила новый рекорд среди опенсорсных систем на бенчмарке OSWorld-Verified. Более того, она обошла агента GPT-4o от OpenAI и значительно сократила разрыв с передовыми решениями Anthropic.

Для корпоративных разработчиков и продуктовых команд результаты исследования представляют несколько значимых выводов. Метод OpenCUA демонстрирует высокую универсальность: он улучшает производительность моделей различных архитектур — как плотных, так и mixture-of-experts — независимо от масштаба. Обученные агенты показывают отличные результаты, эффективно действуя в разных операционных системах и выполняя разнообразные задачи.

По словам Вана, платформа особенно полезна для автоматизации повторяющихся и трудоемких процессов. «Например, в датасете AgentNet уже присутствуют демонстрации запуска инстансов EC2 на Amazon AWS и настройки параметров аннотации на MTurk, — отметил он. — Эти сценарии состоят из множества шагов, но всегда следуют повторяющейся схеме».

Тем не менее он подчеркнул, что прежде чем осуществить практическое внедрение, еще нужно решить ключевые вопросы безопасности и надежности. «Главная проблема при реальном развертывании заключается именно в безопасности: агент не должен допускать ошибок, способных случайно изменить системные настройки или вызвать нежелательные последствия», — объяснил Ван.

Исследователи уже опубликовали код, датасет и веса моделей.

С каждым днем становясь более удачными, открытые агенты, разработанные на основе OpenCUA, имеют потенциал кардинально изменить взаимодействие человека с компьютером. Ван описывает будущее, в котором умение управлять сложными программами станет менее актуальным, а основной акцент будет сделан на способности четко формулировать цели для ИИ.

Он выделяет два основных режима работы: офлайн-автоматизация, где агент самостоятельно ведет задачу от начала до конца, и онлайн-сотрудничество, где агент взаимодействует в реальном времени с человеком, действуя так, как будто они коллеги. Таким образом, роли человека заключаются в формулировании стратегических задач, в то время как более сложные ИИ-агенты выполнят операционные аспекты.

Делегируйте повторяющиеся задачи с BotHub! По этой ссылке вы можете получить 100 000 бесплатных капсов и начать работу с нейросетями прямо сейчас.