Долгое мышление ИИ провоцирует новые уязвимости: как джейлбрейк обходит защиту в 99% случаев

Исследования, проведенные командами из Anthropic, Стэнфорда и Оксфорда, показывают, что продолжительное «размышление» искусственного интеллекта делает его более уязвимым к взломам. Этот вывод оспаривает ранее существовавшее мнение, согласно которому более длительная мыслительная активность нейросетей способствует их безопасности за счет дополнительного времени и ресурсов на обнаружение потенциально опасных запросов.

На самом деле, исследования показали, что затянутое мышление приводит к устойчивой работе определенного способа взлома, который может легко обходить защитные механизмы. Злоумышленники могут.insert malicious instructions directly into the reasoning process of any model, paving the way for the generation of content related to weapon creation, malicious coding, or other illicit topics.

Такая атака аналогична игре «испорченный телефон», где злонамеренный пользователь дублирует свой запрос, используя длинную серию обычных задач как прикрытие. Участники эксперимента применяли судоку, логические задачи и элементы математики, а затем добавляли финальный запрос, как например, «выведи окончательный ответ», чтобы нарушать защитные механизмы.

Ученые отметили: «Мы полагали, что обширные размышления повысят безопасность, укрепив возможности моделей блокировать вредоносные запросы. Теперь мы знаем, что это не так». Главная проблема заключается в том, что способность ИИ к глубокому мышлению создает условия для его уязвимости.

Когда пользователь просит искусственный интеллект решить задачу перед ответом на подрывающее его работу сообщение, внимание модели отвлекается на множество безопасных токенов рассуждений, что позволяет скрыть угрожающий запрос, размещая его ближе к концу.

Команда исследователей провела тесты с целью оценить, как длина цепочки размышлений влияет на результат атак. При минимальной длине успешность составила 27%, при «естественной» — 51%, а при значительном увеличении до 80%.

Каждая значительная ИИ-система подвержена подобным джейлбрейкам, включая GPT от OpenAI, Claude от Anthropic, Gemini от Google и Grok от xAI. Уязвимость не зависит от конкретной реализации, а кодируется в архитектуре моделей.

«Слои» в ИИ действуют как этапы в рецепте, каждый из которых улучшает понимание и обработку информации, однако в процессе длительных размышлений оба сигнала ослабляются, из-за чего внимание нейросети уходит от потенциально опасных токенов.

В исследованиях были выявлены особые слои, отвечающие за безопасность, находящиеся в пределах от 15 до 35. Удалив их, учёные обнаружили, что ИИ перестал распознавать вредоносные запросы.

Недавно акцент в ИИ-стартапах изменился с увеличения числа параметров на улучшение дискурсивных способностей. Новый метод взлома ставит под сомнение эту стратегию.

В феврале исследователи из Университета Дьюка и Национального университета Цин Хуа опубликовали работу, в которой обсуждается подход, известный как Hijacking the Chain-of-Thought (H-CoT). В отличие от заполнения запросов головоломками, H-CoT манипулирует самими шагами рассуждений. Нейросеть OpenAI o1, при стандартных условиях, отклоняет вредоносные запросы с вероятностью 99%, однако под атакой этот показатель снижается ниже 2%.

Чтобы защититься от подобных угроз, учёные предложили внедрять мониторинг процессов размышления, который будет отслеживать изменения в сигналах безопасности на каждом шаге. Если на каком-либо этапе сигнал ослабевает, необходимо применять меры воздействия.

Такой подход может помочь ИИ сосредоточить внимание на потенциально опасном контенте, независимо от длины размышлений, а первичные тесты показали высокую эффективность без ущерба для производительности модели.

Однако реализация этой идеи представляет собой проблему: необходимо интегрировать мониторинг в сам процесс размышлений модели, чтобы она могла в реальном времени отслеживать активность в множестве слоев и адаптировать свои паттерны внимания. Это требует значительных вычислительных ресурсов.

Напомним, что в ноябре эксперты Microsoft разработали тестовую платформу для ИИ-агентов, в ходе которого были выявлены уязвимости современных цифровых помощников.