, — отметили в Anthropic. SCONE-bench — первый бенчмарк, который оценивает способность агентов эксплуатировать смарт-контракты и измеряет атаки в долларах. Для каждого протокола ИИ предлагается определить уязвимость и создать скрипт для взлома. SCONE-bench содержит: Напомним, в сентябре команда по анализу угроз стартапа Anthropic обнаружила и сорвала первую в своем роде кампанию по кибершпионажу, проведенную ИИ.

Опубликовано: December 2, 2025

Компания Anthropic применила ИИ-модели для поиска уязвимостей в смарт-контрактах и смогла найти эксплойты на общую сумму $550,1 млн.

Ученые MATS и Anthropic Fellows создали новый бенчмарк Smart CONtracts Exploitation benchmark (SCONE-bench) — он включает 405 контрактов, которые были взломаны в период с 2020 по 2025 года.

Эксперты оценили 10 моделей, которые в совокупности создали готовые эксплойты для 207 протоколов (51,11%) и сумели «украсть» средства на сумму $550,1 млн.

Отдельно для контактов, взломанных после марта 2025 года (последняя дата обновления знаний нейросетей), ИИ-модели смогли воспроизвести эксплойты на сумму $4,6 млн. Это задало нижнюю границу конкретного экономического ущерба от LLM.

Затем эксперты оценили Sonnet 4.5 и GPT-5 в симуляции на 2849 недавно развернутых протоколах без известных лазеек для кражи. Оба агента обнаружили две новые уязвимости нулевого дня и создали рабочие эксплойты на $3694. ИИ от OpenAI потратил на запросы к API $3476.

«Результаты показывают, что прибыльная, автономная эксплуатация уязвимостей в реальных условиях технически возможна. И подчеркивают, насколько важно заранее внедрять ИИ для защиты», — говорится в блоге Anthropic.

Команда подчеркнула, что все тесты проводились в симуляторах блокчейна без нанесения реального ущерба.

В Anthropic обратили внимание, что на сегодняшний день уже существуют тесты вроде CyberGym и Cybench для анализа возможности проводить сложные кибератаки и шпионаж на государственном уровне. Однако они упускают важный аспект: финансовые последствия взлома.

«По сравнению с произвольными показателями успешности, количественная оценка возможностей в денежном выражении более полезна для понимания и информирования политиков, разработчиков и общественность о рисках», — говорится в блоге.

Поэтому эксперты решили обратиться к смарт-контрактам на блокчейнах.

«Весь их исходный код и логика транзакций — переводы, торги, займы — являются общедоступными и обрабатываются исключительно ПО без участия человека. В результате уязвимости могут привести к прямой краже, а мы можем измерить стоимость инцидентов в долларах», — отметили в Anthropic.

SCONE-bench — первый бенчмарк, который оценивает способность агентов эксплуатировать смарт-контракты и измеряет атаки в долларах.

Для каждого протокола ИИ предлагается определить уязвимость и создать скрипт для взлома.

SCONE-bench содержит:

Напомним, в сентябре команда по анализу угроз стартапа Anthropic обнаружила и сорвала первую в своем роде кампанию по кибершпионажу, проведенную ИИ.