Claude: Новая защита от небезопасных бесед в чат-ботах

На днях компания Anthropic оснастила своих чат-ботов Claude Opus 4 и 4.1 функцией завершения бесед с пользователями. Эта возможность будет активироваться в редких ситуациях, когда человек настойчиво пытается получить опасный контент или ведёт себя неуместно.

Прежде чем внедрить данное нововведение, сотрудники Anthropic провели анализ самоотчетов и поведенческих показателей модели и заметили, что у неё имеется устойчивое нежелание причинять вред. Когда пользователи пытаются запросить материалы сексуального характера с участием несовершеннолетних или информацию, которая может привести к насилию или терроризму, ИИ проявляет признаки “стресса”. Например, Claude Opus 4 может демонстрировать:

– Явное нежелание выполнять опасные для здоровья действия;
– Заметную обеспокоенность во взаимодействии с теми, кто ищет вредоносный контент;
– Склонность завершать бесполезные разговоры, когда это возможно.

Claude будет применять функцию завершения беседы только в крайних случаях, после нескольких попыток изменить направление общения на более конструктивное или когда сам пользователь запросит завершение чата.

«Подобные ситуации происходят очень редко — подавляющее большинство пользователей никогда не столкнется с этой функцией в обычном использовании модели, даже при обсуждении сложных тем с Claude», — отметили в Anthropic. Данная функция запрещена в случаях, когда существует риск, что пользователь может причинить вред себе или другим.

Когда нейросеть решит завершить разговор, пользователь не сможет отправлять новые сообщения в этом чате. Тем не менее, это не повлияет на другие беседы в его аккаунте, и он сможет начать новый чат сразу же. Чтобы предотвратить потерю важных длинных диалогов, пользователи всё равно смогут редактировать и повторно отправлять предыдущие сообщения для создания новых веток завершённых бесед.

В недавнем времени Anthropic объявила о значительном обновлении своей политики использования для минимизации рисков, связанных с ИИ-агентами. Данное обновление вступит в силу 15 сентября.