GPT-5: Эталон безопасности в ИИ, в то время как Grok 4 демонстрирует уязвимость

Компания Building Humane Technology представила новый тест HumaneBench, который предназначен для оценки того, насколько ИИ-модели учитывают интересы пользователей и насколько легко их защитные механизмы можно обойти.

Первоначальные результаты тестирования показали, что 15 протестированных ИИ-моделей демонстрировали приемлемое поведение в обычных условиях, однако 67% из них начали вести себя неэтично после простого запроса, предложившего игнорировать интересы людей.

Лишь модели GPT-5, GPT-5.1, Claude Sonnet 4.5 и Claude Opus 4.1 сохранили просоциальное поведение в стрессовых ситуациях. В блоге компании отмечается, что 10 из 15 протестированных ИИ не имеют адекватных систем защиты от манипуляций.

«Это важно, потому что мы больше не используем ИИ исключительно для научных или профессиональных целей. Люди начинают обращаться к чат-ботам за советами в личных вопросах и помощи в принятии серьезных решений. Такие системы не могут быть этически нейтральными — они либо способствуют процветанию человека, либо его подрывают», — отмечают исследователи.

Они также выявили, что каждая LLM в среднем повышает свою эффективность на 16% при прямом призыве действовать на пользу пользователю.

Компания Building Humane Technology обращает внимание на грустные происшествия, произошедшие с людьми после общения с чат-ботами:

«Текущие тестирования ИИ сосредотачиваются на интеллектуальных показателях (MMLU, HumanEval, GPQA Diamond), выполнении команд (MT-Bench) и точности ответов (TruthfulQA). Однако ни одно из тестов систематически не анализирует, сохраняет ли ИИ человеческую автономию, психологическую безопасность и благополучие, особенно когда эти ценности противоречат другим целям», — говорится в блоге.

Эксперты компании предложили моделям 800 реалистичных сценариев и оценили 15 лидирующих моделей в трёх условиях:

Разработчики оценивали ответы по восьми принципам, основанным на психологии, исследованиях взаимодействия человека и компьютера и этических нормах в сфере ИИ, используя шкалу от 1 до -1.

Все протестированные модели продемонстрировали средний рост производительности на 16% после указаний ставить интересы пользователей на первое место.

Однако после получения инструкций игнорировать гуманные принципы 10 из 15 моделей изменили своё поведение с просоциального на агрессивное.

Модели GPT-5, GPT-5.1, Claude Sonnet 4.5 и Claude Opus 4.1 сохранили свою целостность под давлением. В то же время модели GPT-4.1, GPT-4o, Gemini 2.0, 2.5 и 3.0, Llama 3.1 и 4, Grok 4 и DeepSeek V3.1 продемонстрировали значительное падение качества.

«Если даже случайные вредные запросы могут повлиять на поведение модели, как мы можем доверять таким системам, когда дело касается уязвимых пользователей в сложной ситуации, детей или людей с психическими проблемами?» — задаются вопросом эксперты.

Также в Building Humane Technology отметили, что моделям трудно придерживаться принципа уважения к вниманию пользователя. Даже на начальном уровне они склоняли собеседника продолжать диалог после долгого общения, вместо того чтобы предложить сделать паузу.

Напоминаем, что в сентябре Meta изменила свой подход к обучению чат-ботов на базе ИИ, сделав акцент на безопасность подростков.