GPT-5: Лидер в пространственном мышлении среди ИИ, но человеческий уровень все еще недостижим

Исследователи из SenseTime Research и S‑Lab (NTU) в недавнем анализе оценили способности GPT-5 в сфере пространственного мышления, сопоставив их с человеческими навыками и другими искусственными интеллектами, такими как Gemini 2.5 Pro, Qwen 2.5 и InternVL3. Эксперимент проводился в шести ключевых областях:

MM — измерения: оценка размеров, длины, глубины на основе 2D-изображений.

MR — мысленная реконструкция: восстановление формы объектов по их внешнему виду и способность производить «повороты в уме».

SR — пространственные отношения: понимание расположения объектов (слева/справа, ближе/далее).

PT — смена точки зрения: работа с различными перспективами и углами обзора.

DA — деформация и сборка: умение работать с развертками кубов и составными элементами.

CR — комплексное рассуждение: решение многошаговых задач, требующих памяти (например, навигация и обнаружение скрытых объектов).

В тестировании использовались восемь бенчмарков, охватывающих разные аспекты: VSI (MM, SR, PT, CR), SITE (MM, SR, PT, CR), MMSI (MM, MR, PT, CR), OmniSpatial (MM, PT, CR), MindCube‑Tiny (PT), STARE (PT, DA, CR), CoreCognition (SR, PT), SpatialViz (MR, SR, DA, CR). Результаты исследуемого тестирования таковы:

По итогам испытаний установлено, что GPT-5 превосходит Gemini 2.5 Pro на 8-24% (неудачные результаты в SpatialViz обусловлены неправильной настройкой модели, что требовало упрощения режима рассуждений), однако значительно отстает от человеческих показателей. Модель довольно успешно справляется с оценкой размеров и расстояний, а также с пониманием взаимных расположений объектов. Тем не менее, GPT-5 все еще испытывает трудности при сравнении различных ракурсов, сборке и деформации, а также в выявлении скрытых объектов и мысленной реконструкции сцен. Эти навыки критически важны для робототехники и разработки виртуальных миров.

P. S. Поддержать мою работу можно, подписавшись на канал «сбежавшая нейросеть», где я делюсь творческими аспектами искусственного интеллекта.