Включение реальности: Inclusion Arena предлагает новый подход к тестированию языковых моделей на основе предпочтений пользователей

Бенчмарки стали важным инструментом для компаний, позволяя определить, какие модели наилучшим образом подходят для их нужд. Однако не все тесты одинаково эффективны — многие из них основаны на статичных датасетах и искусственных условиях.

Команда исследователей из Inclusion AI, которая аффилирована с Ant Group от Alibaba, представила новый способ оценки и тестирования моделей. Этот подход сосредоточен на том, как языковые модели проявляют себя в реальных ситуациях, а также оценивает не только их знания, но и насколько пользователям нравятся их ответы.

В своем исследовании ученые описали платформу Inclusion Arena — динамический рейтинг, который ранжирует модели по предпочтениям пользователей.

«Чтобы устранить существующие недостатки, мы представляем Inclusion Arena — живой рейтинг, который связывает реальные AI-приложения с современными LLM и MLLM. В отличие от краудсорсинговых решений, наша система случайным образом организует „поединки моделей“ в ходе многотуровых диалогов между человеком и ИИ в реальных приложениях», — утверждается в статье.

Inclusion Arena выгодно отличается от традиционных рейтингов, таких как MMLU и OpenLLM, своей ориентированностью на практическое применение и уникальной методикой ранжирования. Она использует модель Брэдли—Терри, известную благодаря Chatbot Arena.

Суть проста: Inclusion Arena интегрируется в реальные AI-приложения, собирает данные и производит оценки с участием пользователей. Авторы признают, что на текущий момент количество доступных приложений ограничено, но стремятся создать открытую экосистему с возможностью участия многих.

На сегодня рынок насыщен различными рейтингами: практически каждая новая LLM от OpenAI, Google или Anthropic сразу начинает получать показатели в разных тестах. Например, Grok 3 от xAI смог занять высокие позиции в Chatbot Arena. Однако исследователи из Inclusion AI утверждают, что их система лучше отражает реальные преимущества моделей, что упростит клиентам осознанный выбор.

Inclusion Arena была вдохновлена Chatbot Arena и использует метод Брэдли—Терри. Для сравнения, Chatbot Arena также применяет метод Эло, который широко используется в шахматах для определения относительного уровня игроков.

Оба метода представляют собой вероятностные модели, но исследователи указывают, что Брэдли—Терри обеспечивает более стабильные результаты.

«Модель Брэдли—Терри представляет собой надежный инструмент для выявления скрытых способностей на основе попарных сравнений», — утверждается в статье. — Тем не менее, на практике, особенно при большом и постоянно увеличивающемся числе моделей, полный перебор всех пар может быть чрезмерно затратным и по ресурсам, и по времени, поэтому необходимы умные стратегии борьбы, которые позволят извлечь максимум информации при ограниченном бюджете».

Чтобы упростить процесс ранжирования среди множества моделей, Inclusion Arena добавила два механизма: placement match и proximity sampling. Первый помогает оценить стартовые позиции для новых участников рейтинга, второй — ограничивает сравнение рамками доверительного «соседства», то есть моделей схожего уровня.

Итак, как работает система? Фреймворк Inclusion Arena интегрируется в AI-приложения. На данный момент доступны два из них: чат с персонажами Joyland и образовательная платформа T-Box. Когда пользователи взаимодействуют с приложениями, их запросы незаметно отправляются нескольким LLM. Ответы возвращаются, а пользователи выбирают наиболее понравившийся, не зная, какая модель его предоставила.

На основании этих предпочтений система формирует новые пары для сравнения. Затем алгоритм Брэдли—Терри рассчитывает итоговый балл для каждой модели, формируя рейтинг.

Эксперимент Inclusion AI завершился в июле 2025 года и включал 501 003 попарных сравнения.

По предварительным результатам самыми сильными моделями оказались: Claude 3.7 Sonnet, DeepSeek v3-0324, Claude 3.5 Sonnet, DeepSeek v3 и Qwen Max-0125.

Стоит отметить, что данные были собраны всего в двух приложениях с аудиторией 46 611 активных пользователей. Исследователи уверены, что чем больше данных будет собрано, тем более точным и устойчивым станет лидерборд.

С увеличением числа новых моделей компаниям всё сложнее решить, с какой из них начать тестирование. Рейтинги и бенчмарки помогают техническим директорам сузить круг выбора и выбрать кандидатов для дальнейшей проверки. Однако окончательная оценка должна проводиться внутри организации.

При этом такие лидерборды дают представление о глобальной ситуации на рынке: видно, какие модели постепенно догоняют лидеров. Например, новые тесты, такие как RewardBench 2 от Allen Institute for AI, стараются сопоставить модели с реальными сценариями их использования в бизнесе.

Делегируйте рутинные задачи с BotHub! По ссылке вы можете получить 100 000 бесплатных капсов и начать работу с нейросетями прямо сейчас.