Демис Хассабис: Игры как революционный бенчмарк для оценки искусственного интеллекта

В интервью с Логаном Килпатриком Демис Хассабис, руководитель Google DeepMind, выразил мнение, что игры представляют собой один из самых многообещающих способов оценки возможностей искусственного интеллекта. Он подчеркнул, что многие из существующих тестов, таких как SAT (стандартизированный тест для поступления в колледжи), GRE (тест для поступления в аспирантуру) и MMLU (тест на понимание языка), уже практически “пройдены” ИИ. Однако современные модели демонстрируют “неровный” уровень интеллекта, получая высокие оценки на Международной математической олимпиаде (IMO), но при этом совершая простые ошибки в логических задачах или специально разработанных играх. Это свидетельствует о недостатке у моделей критически важных навыков, таких как рассуждение, планирование и память, которые необходимы для достижения истинного общего искусственного интеллекта.

Чтобы выяснить причины этого явления, необходимы новые тесты, которые будут учитывать не только интеллектуальные задачи, но и реалии жизни. Хассабис считает, что игры являются отличным форматом для таких оценок благодаря четким правилам, ясным целям и очевидным результатам: победе или поражению.

С этой целью Google в сотрудничестве с Kaggle запустила Game Arena — платформу, на которой модели различных разработчиков могут соревноваться в разных играх. Первой игрой на арене стали шахматы, где в финале GPT o3 одержала победу над Grok 4. Хассабис надеется, что в будущем на площадке появятся тысячи различных игр.

Он подчеркивает, что эти тесты уникальны, так как каждый раунд разрабатывается с нуля двумя моделями. Кроме того, сложность задач будет расти по мере улучшения характеристик ИИ. Хассабис прогнозирует, что со временем модели могут даже начать создавать новые игры для друг друга.

P.S. Поддержать меня можно, подписавшись на канал “сбежавшая нейросеть“, где я делюсь творческим взглядом на искусственный интеллект.