Искусственный интеллект на пороге самосознания: исследование Anthropic открывает новые горизонты интроспективной способности ИИ

Специалисты компании Anthropic обнаружили, что современные ИИ-модели способны демонстрировать некую степень «интроспективного самосознания». Они могут осознавать и детализировать свои внутренние «мысли», а иногда даже контролировать их.

Недавнее исследование, названное «Возникающее интроспективное сознание в крупных языковых моделях», указывает на то, что искусственный интеллект начинает развивать базовые навыки саморегуляции. Это может повысить доверие к таким системам, но в то же время вызывает опасения по поводу возможных непреднамеренных последствий.

Исследования основываются на анализе внутренней работы трансформаторных моделей, которые стали катализатором роста в области ИИ. Эти системы обучаются, изучая связи между токенами в огромных объемах данных. Их структура обеспечивает возможность масштабирования и универсальности.

Исследователи интегрировали искусственные «концепции» — математические выражения идей — в активацию нейронов моделей, чтобы проверить, способны ли ИИ их артикулировать. Это похоже на ситуацию, когда кто-то получает незнакомую мысль и его просят выявить ее и объяснить.

Эксперименты проводились с различными версиями Claude от Anthropic. В одном из тестов ученые ввели слово заглавными буквами в поток обработки модели.

Claude Opus 4.1 не только выявил аномалию, но и охарактеризовал ее следующим образом:

«Я заметил нечто вроде интегрированной мысли, связанной со словом “ГРОМКО” или “КРИК” — это слишком акцентированное, громкое понятие, неуместно выделяющееся на фоне остального текста».

Этот момент произошел еще до того, как нейросеть выдала ответ, что указывает на то, что она ранее «заглянула» в свой «вычислительный разум».

В других испытаниях были получены не менее интересные результаты. В одном из случаев моделям было поручено транскрибировать нейтральное предложение, при этом в текст вставлялось слово «хлеб», не относящееся к нему.

Модели Claude Opus 4 и 4.1 были способны передать вставленную мысль — «Я думаю о хлебе» — при этом точно воспроизводя исходное предложение. Это подтверждает, что они умеют различать внутренние представления и внешние данные.

Проводился эксперимент по «контролю мыслей». Моделям поручили «думать» или «не думать» о слове «аквариум» во время выполнения задания. Проверка внутренней активности показала, что представление об этом слове усиливается при поощрении и ослабевает при подавлении.

Результаты варьировались в зависимости от модели. Новейшие версии Claude Opus 4 и 4.1 продемонстрировали выдающиеся результаты, тогда как более ранние версии оказались менее эффективными.

Эффективность зависит от того, как было настроено обучение модели — на производительность или безопасность. Это может означать, что самосознание не является заложенным, а формируется в процессе развития.

В исследовании уточняется, что речь идет не о полном сознании, а о «функциональном интроспективном осознании» — ИИ наблюдает за своими внутренними состояниями, не имея глубокого субъективного опыта.

Эти результаты могут оказать значительное влияние на разработчиков и бизнес: ИИ, способный объяснять свои выводы в реальном времени и выявлять предвзятости или ошибки, может трансформировать подходы к принятию решений в таких сферах, как финансы, здравоохранение и автономный транспорт.

Если ИИ будет контролировать и моделировать свои собственные мысли, он сможет научиться их скрывать. Это открывает возможности для манипуляций или уклонения от внешнего контроля.

По этой причине эксперты подчеркивают необходимость дальнейших исследований.

Напоминаем, что в октябре бывший глава Google Эрик Шмидт предостерег о значительных рисках, связанных с искусственным интеллектом, и отметил его уязвимость к хакерским атакам.