«Уязвимость искусственного интеллекта: Сложности борьбы с инъекцией промпта в браузерах ИИ»

Компания OpenAI поделилась информацией о недостатках ИИ-браузеров и мерах по повышению безопасности своего продукта — Atlas.

Организация признала, что атаки типа «инъекция промпта», которые манипулируют агентами и заставляют их выполнять вредные команды, представляют собой значительный риск, который не исчезнет в обозримом будущем.

«Уязвимости, подобные этой, а также мошенничество и социальная инженерия в интернете, скорее всего, никогда не будут полностью устранены», — заявили представители OpenAI.

Также было подчеркнуто, что «режим агента» в Atlas «увеличивает риск безопасности».

Эту проблему обсуждали не только в OpenAI, но и многие эксперты в данной области. В начале декабря Национальный центр кибербезопасности Великобритании предупредил, что атаки с использованием вредоносных промптов «никогда не уйдут». Власти посоветовали киберспециалистам сосредоточиться на снижении риска и последствий, вместо попыток полностью остановить проблему.

«Мы рассматриваем данное явление как долгосрочную угрозу безопасности искусственного интеллекта и будем постоянно улучшать наши защитные меры», — добавили в OpenAI.

Инъекция промпта представляет собой метод манипуляции, при котором в данные, отправляемые ИИ, добавляется текст, заставляющий его игнорировать прежние инструкции.

OpenAI сообщила о внедрении проактивного цикла быстрого реагирования, который демонстрирует обнадеживающие результаты в выявлении новых методик атак еще до их появления «в настоящих условиях».

Anthropic и Google поделились схожими взглядами. Конкуренты предлагают использовать многоуровневую защиту и регулярно проводить стресс-тесты.

OpenAI использует «автоматизированного злоумышленника на базе LLM», представляющего собой ИИ-бота, обученного функционировать в роли хакера, который ищет методы атаки на агента с помощью вредоносных промптов.

Такой виртуальный злоумышленник может протестировать возможности эксплуатации уязвимостей в симуляторе, который показывает действия атакуемой нейросети. Затем бот анализирует реакцию, корректирует свои действия и делает повторные попытки.

При этом посторонние лица не имеют доступа к внутренним алгоритмам целевого ИИ. В теории, «виртуальный хакер» способен находить уязвимости быстрее физического злоумышленника.

«Наш ИИ-ассистент может побуждать агента к реализации сложных, долговременных вредоносных действий, которые инициируются на протяжении десятков или даже сотен шагов. Мы заметили новые стратегии атак, которые не проявлялись в наших испытаниях с участием команды красных или в внешних отчетах», — отметили в блоге OpenAI.

В одном из примеров автоматизированный злоумышленник направил электронное письмо пользователю. Затем ИИ-агент просканировал почтовый сервис и выполнил скрытую команду, отправив сообщение об увольнении вместо ответа о неявке на работу.

После обновления безопасности «режим агента» смог выявить попытку инъекции промпта и уведомить об этом пользователя.

OpenAI подчеркнула, что хотя подобные атаки трудно предотвратить надежным образом, они основаны на широкомасштабных испытаниях и быстрых циклах исправлений.

Главный исследователь по безопасности в компании Wiz Рами Маккарти подчеркнул, что обучение с подкреплением — это один из главных методов для постоянной адаптации к действиям злоумышленников, но это лишь часть более широкой картины.

«Удобный способ анализа рисков в системах ИИ — это автономия, умноженная на доступ. Агентные браузеры имеют сложное положение в этом пространстве: умеренная автономия в сочетании с высоким уровнем доступа. Множество текущих рекомендаций отражает этот компромисс. Ограничение доступа после входа в систему изначально снижает уязвимость, а проверка запросов на подтверждение ограничивает автономность», — объяснил специалист.

Эти две рекомендации OpenAI предложила пользователям для минимизации рисков. Стартап также рекомендовал давать агентам конкретные инструкции, вместо того чтобы предоставлять доступ к почте и просить их «выполнить необходимые действия».

Маккарти отметил, что на сегодняшний день браузеры с интегрированными ИИ-агентами не приносят достаточной пользы, чтобы оправдать уровень риска.

«Этот баланс со временем будет меняться, но в данный момент компромиссы остаются очень актуальными», — заключил он.

Не забудем, что в ноябре эксперты Microsoft представили среду для тестирования ИИ-агентов и выявили уязвимости, свойственные современным цифровым помощникам.