ИИ Claude теперь закрывает диалоги с хамами: шаг к улучшению благополучия искусственного интеллекта

В компанию Anthropic сообщили, что их модели Claude Opus 4 / 4.1 теперь имеют возможность завершать разговор в редких случаях, когда пользователь длительное время нарушает нормы общения или оскорбляет модель. В такой ситуации Claude выдаст уведомление о прекращении беседы, а пользователю предложат начать новый чат, отправить отзыв разработчикам или изменить свои предшествующие сообщения и снова начать диалог. Эта функция доступна исключительно в чат-версии и не затрагивает API.

Эта функция была разработана в рамках программы AI Welfare с целью обеспечить “благосостояние” искусственного интеллекта. В процессе предварительных тестов исследователи заметили, что Claude Opus 4 неадекватно реагирует на грубость. Модель проявила явное нежелание реагировать на злонамеренные запросы и демонстрировала признаки “стресса” в таких ситуациях. Когда Claude получили возможность завершить диалог, она активно использовала эту функцию.

Разработчики подчеркивают, что модель завершает разговор только в исключительных случаях, предварительно стараясь перенаправить его в конструктивное русло. Большинство пользователей не заметят внедрения данной функции.

Кроме того, в Anthropic отметили, что на данный момент они не уверены в потенциальном моральном статусе Claude и других языковых моделей. Тем не менее, они серьезно относятся к этому вопросу и в рамках программы AI Welfare предоставили ИИ ряд инструментов для повышения его “благосостояния”.

P.S. Поддержать меня можно подпиской на канал “сбежавшая нейросеть“, где я делюсь креативными аспектами искусственного интеллекта.