Браузерные агенты нового поколения: почему Proxy опережает Operator в мире ИИ

На горизонте появляется новая категория агентов, использующих браузеры на основе искусственного интеллекта, которые обещают преобразить способы, которыми компании взаимодействуют с интернет-пространством. Эти агенты имеют возможность самостоятельно перемещаться по веб-сайтам, собирать данные и осуществлять различные транзакции. Тем не менее, первые испытания показали значительные несоответствия между их возможностями и заявленными результатами.

Хотя примеры использования нового браузера-агента от OpenAI, такие как заказ пиццы или покупка спортивных билетов, привлекли внимание, остается много вопросов о наиболее значимых областях применения для разработчиков и бизнеса.

«Мы пока не знаем, какое приложение станет доминирующим на рынке, — заявил Сэм Виттевин, соучредитель компании Red Dragon, разрабатывающей AI-агенты. — Мне кажется, это будут решения, которые просто экономят время в интернете, но не доставляют удовольствия». К ним можно отнести поиск самых низких цен на товары или бронирование номеров в гостиницах. Скорее всего, такие агенты будут использоваться совместно с другими инструментами, такими как Deep Research, которые помогут компаниям выполнять более сложные интернет-операции.

Компании должны внимательно анализировать динамично меняющуюся обстановку, поскольку существующие компании и стартапы применяют разнообразные подходы к решению задач автономного веб-серфинга.

Operator и Proxy выделяются своей удобностью и готовностью к немедленному использованию. В то время как многие другие ориентированы на использование разработчиками и предприятиями. Например, запускаемый Y-Combinator проект Browser Use позволяет пользователям модифицировать модели, применяемые в агенте.

Сравнение доступно на примерах использования Operator от OpenAI и Convergence Proxy. Исследования показали, что способности к рассуждению играют критическую роль, иногда перевешивая простые функции автоматизации. В частности, Operator продемонстрировал большую неисправность.

К примеру, агентов попросили найти и обобщить пять наиболее популярных статей на VentureBeat. Эта задача оказалась затруднительной, поскольку на VentureBeat нет четкой группы «самых популярных» материалов. Operator столкнулся с трудностями, застряв в бесконечном поиске и требуя вмешательства человека. В другой попытке он обнаружил статью трехлетней давности с названием «Пять самых популярных статей недели». В отличие от него, Proxy проявил логику, выбрав пять наиболее заметных статей с главной страницы как индикатор популярности и предоставив точные резюме.

Различия становятся ещё более очевидными в реальных ситуациях. Например, агентов попросили забронировать столик в романтическом ресторане в Напе, штат Калифорния, на обед. Operator подошёл к задаче последовательно — сначала нашёл ресторан, а потом проверил, есть ли свободные места на обед. Когда мест не оказалось, он не смог продолжить. Proxy, напротив, использовал более сложный подход, начав с платформы OpenTable для поиска доступных романтических ресторанов, и в результате нашёл более высоко оценённый вариант.

Даже на простых задачах выявляются важные различия: при запросе «цены на YubiKey 5C NFC» на Amazon Proxy быстро нашёл нужный товар, в отличие от Operator.

OpenAI не предоставляет подробностей о технологиях, на которых основан их агент Operator, кроме утверждения, что модель была обучена для задач, связанных с работой в браузере. В то же время Convergence делится более конкретной информацией: их агент применяет метод, известный как генеративный поиск по дереву.

На первый взгляд эти инструменты выглядят аналогично. Proxy от Convergence показал результат 88% в тесте WebVoyager, оценивающем веб-агентов через 643 задачи на 15 известных сайтах, таких как Amazon и Booking.com. В то время как Operator от OpenAI набрал 87%, а Browser-Use утверждает, что достиг 89%, однако с некоторыми изменениями в коде WebVoyager.

Тем не менее, к этим тестовым результатам стоит относиться осторожно, так как они могут быть искажены. Настоящее испытание будет заключаться в практическом применении технологий. Мы всё еще на раннем этапе, а рынок быстро меняется; продукты обновляются практически каждый день. Результаты будут в значительной степени зависеть от специфики решаемых задач, и пользователи могут опираться на свои ощущения от использования различных решений.

Влияние на автоматизацию бизнеса весьма значительно. Как отмечает Виттевин в одном из своих видео подкастов, многие компании до сих пор используют оплачиваемых виртуальных помощников для выполнения базовых задач поиска информации и сбора данных, что может кардинально измениться с появлением браузерных агентов.

«Если ИИ возьмёт это на себя, — заявляет Виттевин, — это станет одним из первых очевидных последствий для работников, что приведёт к потере рабочих мест».

Это может усилить тренд по автоматизации процессов при помощи RPA, где браузеры становятся одним из инструментов автоматизации задач. И, как уже упоминалось, более эффективные сценарии применения вероятнее всего появятся, когда агент сочетает браузер с другими инструментами, включая Deep Research, что позволит агенту на основе LLM выполнять более сложные задачи.

Также важным фактором, способствующим быстрому прогрессу, является доступность мощных открытых моделей логического вывода, таких как DeepSeek-R1. Это предоставляет компаниям, разрабатывающим браузерных агентов, возможность эффективно конкурировать с более крупными игроками, используя эти модели вместо создания собственных.

Тем не менее, перед тем как технологии станут широко применимыми в бизнесе, необходимо преодолеть множество препятствий. Некоторые веб-сайты активно блокируют автоматизированные операции, другие требуют подтверждения CAPTCHA.

Также существуют различия в подходах к взаимодействию с веб-сайтами. OpenAI установила партнёрские отношения с конкретными игроками, такими как Instacart, Priceline, DoorDash и Etsy, в то время как другие компании пытаются взаимодействовать с любым ресурсом. Такая разница может повлиять на надежность в корпоративных приложениях. Кроме того, каждый раз, когда агент заходит на сайт, требующий ввода пароля или логина, это затягивает процедуру, поскольку агенты передают эти данные пользователю для ручного ввода.

Организациям, рассматривающим эти решения, важно сосредоточиться на конкретных сценариях использования, где использование автономного веб-взаимодействия может привести к очевидным преимуществам — будь то в области исследования, обслуживания клиентов или автоматизации рабочих процессов. Технология быстро развивается, однако успех будет зависеть от того, насколько возможности этих инструментов будут соответствовать потребностям бизнеса.

С развитием данной области стоит ожидать появления дополнительных функций, нацеленных на специфические бизнес-решения, а также специализированных агентов для отдельных отраслей или задач. Конкуренция между устоявшимися игроками и инновационными стартапами должна способствовать как технологическим достижениям, так и адекватным ценам, что сделает 2025 год ключевым для внедрения корпоративных решений на базе браузеров.

Дополнительную информацию о тенденциях и результатах тестирования можно найти в полном видеоинтервью с Сэмом Виттевином.