Рейтинг Lmarena: GPT-5 Chat неожиданно уступает GPT-4o, оставаясь фаворитом в математике

Сайт Lmarena представил обновленный рейтинг языковых моделей, включая различные версии GPT-5. Этот рейтинг примечателен тем, что составляется на основе пользовательских голосований, где люди задают вопросы и получают два анонимных ответа от разных моделей, выбирая лучший из них.

Давайте более подробно рассмотрим этот рейтинг. GPT-5-high — это версия модели, ориентированная на рассуждения и работающая на максимальных настройках. Она удерживает лидерство, незначительно опережая Gemini 2.5 Pro от Google. Стоит отметить, что в данном рейтинге не выделена отдельно GPT-5-medium — версия с более ограниченными возможностями для рассуждений, доступная в самой распространенной подписке ChatGPT Plus. Однако другие тесты показывают, что версия medium лишь слегка уступает высокой.

GPT-5-Chat — это версия без режимов рассуждений, обычно применяемая в качестве чат-бота или для оперативных ответов на простые вопросы. Эта модель была призвана заменить GPT-4o, но неожиданно оказалась менее эффективной. В категории рейтингов GPT-5-chat показала лучшие результаты в математике и выполнении инструкций, однако GPT-4o опередила её в сложных диалогах, написании текстов, программировании и обработке длинных запросов. Стоит также обратить внимание на заметное отставание в ответах на русском языке: GPT-4o получила 1441 балл, в то время как GPT-5-chat — всего 1418.

Несколько дней спустя после запуска GPT-5 в OpenAI, под давлением пользователей, было решено вернуть GPT-4o. 16 августа также были обновлены настройки “персоны” для GPT-5-chat, чтобы сделать модель более отзывчивой в общении.

P.S. Поддержать меня можно подпиской на канал “сбежавшая нейросеть“, где я делюсь креативными аспектами ИИ.