Nvidia вновь демонстрирует непревзойденную мощь в тестах MLPerf для генеративного ИИ

Графические процессоры Nvidia вновь практически полностью захватили первое место в одном из самых популярных тестов, предназначенных для оценки производительности чипов в области искусственного интеллекта. На этот раз акцент сделан на генеративные ИИ-приложения, такие как большие языковые модели (LLM).

Серьезной конкуренции не возникло. Компьютерные системы, собранные компаниями SuperMicro, Hewlett Packard Enterprise, Lenovo и другими, в состав которых входят до восьми чипов Nvidia, в среду заняли большинство верхних позиций в тестировании MLPerf, организованном консорциумом MLCommons.

Этот тест, который измеряет, как быстро машины могут генерировать токены, обрабатывать запросы или выводить данные, также известен как ИИ-вывод, представляет собой пятую часть многолетнего тестирования производительности.

MLCommons обновил тесты скорости, добавив два новых теста, отражающих распространенные приложения генеративного ИИ. Один из них нацелен на измерение скорости работы чипов с LLM Llama 3.1 405b от Meta*, которая является одной из наиболее масштабных программ в сфере генеративного ИИ.

Кроме того, MLCommons ввел интерактивную версию Llama 2 70b от Meta, предназначенную для эмуляции работы чат-бота, где важна скорость ответа. Оценка происходит на основе времени, необходимого для формирования первого токена вывода языковой модели, чтобы удовлетворить потребность в быстром ответе на вводимый запрос.

Третий новый тест анализирует скорость обработки графовых нейронных сетей, которые фокусируются на задачах, включающих множество объектов и их взаимосвязи, например, в социальных сетях.

Графовые нейронные сети становятся все более значимой частью приложений с генеративным ИИ. Например, подразделение Google DeepMind активно использовало графовые сети для достижения выдающихся результатов в прогнозировании сворачивания белков с помощью модели AlphaFold 2 в 2021 году.

Четвертый новый тест оценивает скорость обработки данных LiDAR для создания дорожных карт. MLCommons разработал свою собственную версию нейросети для этого теста, комбинируя существующие открытые решения.

В тестировании MLPerf участвуют компьютеры от компаний Lenovo, HPE и других, которые соответствуют строгим стандартам в отношении точности работы нейронных сетей. Каждая система предоставляет в MLCommons отчеты о своей максимальной скорости обработки данных в секунду. В некоторых задачах учитывается средняя задержка — время, необходимое для получения ответа от сервера.

Графические процессоры Nvidia продемонстрировали лучшие результаты практически во всех тестах в закрытом дивизионе, где требования к программному обеспечению наиболее строгие.

Конкурент AMD, использующий графический процессор MI300X, добился наивысшего результата в двух тестах Llama 2 70b, генерируя 103 182 токена в секунду, что значительно опережает результаты другого нового графического процессора Nvidia Blackwell.

Эта успешная система от AMD была создана новым участником MLPerf — стартапом MangoBoost, занимающимся производством специализированных карт для ускорения передачи данных между графическими процессорами. Также компания разрабатывает программное обеспечение, улучшающее работу ИИ под названием LLMboost.

Nvidia ставит под сомнение сравнение результатов AMD и Blackwell, указывая на необходимость «нормализации» данных в зависимости от количества чипов и вычислительных «узлов».

Google также продемонстрировал систему на базе своего чипа Trillium, шестой версии собственного тензорного процессора (TPU). Эта система значительно уступила Blackwell от Nvidia в тесте скорости обработки запросов для генерации изображений с помощью Stable Diffusion.

В последнем раунде тестов MLPerf конкуренции для Nvidia было меньше, чем в предыдущих выпусках. Например, подразделение Habana от Intel не представило свои чипы, как это было в прошлом. Компания Qualcomm также не подала заявку на участие.

Тем не менее, Intel смогла немного похвастаться. Каждая компьютерная система нуждается не только в графическом процессоре для ускорения ИИ, но и в центральном процессоре для выполнения обычных задач планирования и управления памятью.

В закрытом дивизионе центров обработки данных микропроцессор Intel Xeon стал основным для семи из 11 лучших систем, тогда как серверный микропроцессор AMD EPYC победил лишь в трех случаях. Это свидетельствует о том, что Intel достигла лучших результатов по сравнению с прошлым годом.

11-й по производительности системой стала эталонная система скорости обработки моделей Meta Llama 3.1 405b, созданная самой Nvidia без встроенного микропроцессора Intel или AMD. Вместо этого Nvidia применила комбинированный чип Grace-Blackwell 200, в котором графический процессор Blackwell объединен с собственным микропроцессором Nvidia Grace.

*Meta и её продукты (Instagram, Facebook) запрещены на территории Российской Федерации.

Источник