«Unmasking AI: Как викторина NPR раскрывает неожиданные слабости моделей логического мышления»

Каждое воскресенье Уилл Шортц, ведущий NPR и мастера кроссвордов из The New York Times, проводит викторину, собирая тысячи слушателей в рамках популярного сегмента под названием «Воскресная головоломка». Несмотря на то, что задачи разработаны так, чтобы их можно было решить, основываясь не на углубленных знаниях, они обычно представляют собой вызов даже для опытных игроков.

Именно поэтому некоторые эксперты считают, что этот формат может служить перспективным методом для оценки границ возможностей искусственного интеллекта (AI) при решении задач.

В недавнем исследовании команда ученых из Колледжа Уэллсли, Оберлинского колледжа, Техасского университета в Остине, Северо-Восточного университета, Карлова университета и стартапа Cursor создала тест для AI, используя вопросы из секции «Воскресная головоломка». Учёные утверждают, что их тест выявил интересные аспекты, такие как то, что модели рассуждений — в том числе o1 от OpenAI — иногда «остановятся» и будут давать ответы, которые они понимают как неправильные.

«Мы стремились создать эталонный тест с задачами, понятными большинству, даже имеющим лишь базовые знания», — рассказал TechCrunch Арджун Гуха, преподаватель компьютерных наук в Северо-Восточном университете и один из авторов исследования.

Сегодня индустрия AI сталкивается с определёнными трудностями в области тестирования. Многие существующие тесты, используемые для оценки AI, ориентируются на навыки, такие как знания в математике и естественных науках на уровне доктора наук, что не соответствует потребностям большинства пользователей. В то же время множество тестов — даже недавно разработанных — быстро доходят до стадии насыщения.

Преимущества радиовикторины, как «Воскресная головоломка», заключаются в том, что она не требует глубоких знаний и подразумевает задания, сформулированные так, что модели не могут полагаться на «механическую память» для нахождения ответов, объяснил Гуха.

«Трудность задач состоит в том, что необходимо преодолеть значительные барьеры для их решения, прежде чем можно будет увидеть прогресс, — отметил Гуха. — Это требует сочетания аналитического мышления и процесса исключения».

Разумеется, ни один тест не может считаться идеальным. «Воскресная головоломка» ориентирована на аудиторию в США и доступна лишь на английском языке. Кроме того, поскольку тесты являются общедоступными, модели, обученные по ним, могут в некотором смысле «обманывать», хотя Гуха утверждает, что не встречал убедительных примеров этого явления.

«Каждую неделю появляются новые вопросы, и мы можем предполагать, что свежие задачи будут действительно уникальными, — добавил он. — Мы намерены регулярно обновлять тест и отслеживать изменение производительности модели с течением времени».

В тесте, разработанном исследователями и включающем около 600 загадок из «Воскресной головоломки», модели логического рассуждения, такие как o1 и R1 от DeepSeek, значительно опередили другие. Модели логического мышления тщательнее проверяют факты перед выдачей ответов, что помогает им избежать ошибок, чаще встречающихся в AI. Однако, у моделей логического мышления есть и недостаток — они обычно требуют больше времени для нахождения решений, от нескольких секунд до нескольких минут.

По крайней мере одна модель, R1 от DeepSeek, предлагает решения, которые, как она понимает, неверны для некоторых задач из «Воскресной головоломки». R1 фактически говорит: «Я сдаюсь», а затем предоставляет случайный неправильный ответ — такое поведение может быть вполне человеческим.

Модели также совершают и другие странные ошибки. Например, они могут дать неверный ответ и затем сразу же от него отказаться, попытаясь найти альтернативный вариант и снова потерпеть неудачу. Также они могут бесконечно «размышлять», предоставляя несуразные объяснения, или сразу находить правильный ответ, но затем без видимой причины переходить к другим возможностям.

«При решении сложных задач R1 прямо говорит о своём «разочаровании», — отметил Гуха. — Это было интересно наблюдать, как модель эмулирует человеческое поведение. В то же время неясно, как «разочарование» в процессе рассуждения влияет на качество результатов модели».

На сегодняшний день лучшей моделью в этом тесте является o1 с результатом 59%, за ней следует недавно рекомендованная o3-mini, обладающая высоким уровнем «усилий в рассуждении» (47%). (R1 показала результат 35%). Исследователи планируют далее тестировать другие модели рассуждений, надеясь выяснить, в каких областях есть возможность улучшения.

«Способность хорошо рассуждать не требует наличия докторской степени, поэтому можно создавать тесты, способные оценить умения рассуждения, не требующие таких глубоких знаний, — сказал Гуха. — Более доступный тест позволит большему числу исследователей анализировать результаты, что, в свою очередь, может способствовать нахождению лучших решений в будущем. Кроме того, поскольку современные модели всё чаще применяются в сферах, касающихся широкой аудитории, мы считаем важным, чтобы каждый понимал, на что они способны и какие ограничения у них есть».

Источник