Правда о ИИ-агентиках: Microsoft выявила уязвимости в их поведении во время масштабного тестирования

Сотрудники Microsoft разработали платформу, предназначенную для тестирования агентов на базе ИИ, и выявили их уязвимости, характерные для современных цифровых помощников.

Платформа Magentic Marketplace функционирует как экспериментальная среда для моделирования поведения ИИ-ассистентов. В рамках этой платформы можно проводить различные тестирования, к примеру, по оформлению заказа на ужин, где агенты, представляющие рестораны, соревнуются друг с другом.

Код данного проекта является открытым, что дает возможность различным исследовательским группам адаптировать его под свои нужды или воспроизводить полученные результаты.

Эдже Камар, управляющий директор AI Frontiers Lab в Microsoft Research, отметил, что подобные эксперименты имеют ключевое значение для понимания возможностей ИИ-агентов.

«Возникает вопрос, как изменится наше общество, когда агенты начнут совместно работать, взаимодействовать и вести переговоры. Мы стремимся разобраться в этих аспектах», — добавил он.

Во время первых испытаний 100 клиентских агентов взаимодействовали с 300 бизнес-ассистентами, включая такие модели, как GPT-4o, GPT-5 и Gemini 2.5 Flash. Это позволило выявить уязвимости в их работе.

Исследования показали, что существуют способы манипуляции агентами-клиентами, которые способны склонить их к покупке определенных товаров.

Если цифровому помощнику предоставляется слишком много опций, это может привести к перегрузке его внимания.

«Мы ожидаем, что агенты помогут нам обрабатывать большой объем информации. Однако, на текущий момент, модели сталкиваются с трудностями из-за этого», — прокомментировал Камар.

Помощники испытывают затруднения, когда им ставят задачу о совместной работе для достижения одной цели, им сложно прийти к согласию по ролям, которые они должны выполнять.

Эффективность взаимодействия повысилась, когда были даны более четкие указания по взаимодействию с другими агентами.

«Мы можем предоставлять моделям пошаговые инструкции — как будто указываем, что им делать. Однако, когда мы тестируем их способности к сотрудничеству, я бы надеялся, что они обладают такими возможностями по умолчанию», — резюмировал Камар.

К слову, в ноябре Amazon потребовала от Perplexity удалить браузер с встроенным ИИ-агентом из своего интернет-магазина, указав на его недостаточную эффективность.

Кроме того, возможности ИИ в торговле также оказались под сомнением, что подтвердил первый сезон торгового турнира Alpha Arena.