GPT-4.5 продемонстрировала человеческие качества: успешное прохождение трехстороннего теста Тьюринга

Исследователи провели трехсторонний тест Тьюринга, в котором участвовали четыре ИИ-системы — ELIZA, GPT-4o, LLaMa-3.1-405B и GPT-4.5. Наивысший результат продемонстрировала последняя.

В работе, опубликованной 31 марта, Кэмерон Джонс и Бенджамин Берген из Калифорнийского университета в Сан-Диего подвели итоги эксперимента.

Правила тестирования заключались в том, что участники вели пятиминутные беседы одновременно с человеком и одной из ИИ-систем, а затем определяли, кто из собеседников, по их мнению, является человеком. Этот подход является более сложным по сравнению с традиционным тестом, где общение происходит только с машиной.

В 73% случаев участники признали GPT-4.5 человеком. Остальные ИИ-системы показали более низкие результаты:

«Эти результаты стали первым эмпирическим подтверждением того, что искусственный интеллект может успешно пройти стандартный трехсторонний тест Тьюринга», — отметили авторы исследования.

Тест Тьюринга, предложенный британским математиком Аланом Тьюрингом в 1950 году, служит для определения способности компьютера демонстрировать интеллектуальное поведение, равное человеческому.

Суть теста:

Тест Тьюринга многократно использовался для оценки различных популярных ИИ. Например, в июне 2024 года люди не смогли отличить ChatGPT от человека в 54% случаев. ELIZA в тот раз показала результат 22%, GPT-3.5 — 50%, а человек — 67%.

В 2023 году в аналогичном исследовании Джонса GPT-4 набрал 41%, GPT-3.5 — 14%, ELIZA — 27%. У людей тогда был результат 63%.

Напомню, что в феврале 2025 года OpenAI представила новое поколение чат-бота GPT-4.5, обладающее усовершенствованным «эмоциональным интеллектом».