AMD опровергла опровержение NVIDIA — ИИ-ускоритель MI300X на 30 % быстрее NVIDIA H100, даже с оптимизациями

16 дек 2023, 14:41

1 005

Спор между AMD и NVIDIA перешел в публичную плоскость: «красная команда» опровергает заявления конкурента о превосходстве ускорителей H100, настаивая на том, что их новейшие чипы Instinct MI300X сохраняют лидерство в реальных сценариях использования. Речь идет не просто о маркетинговой дуэли, а о принципиально разных подходах к оценке производительности, которые могут запутать конечных заказчиков.

Почему бенчмарки NVIDIA H100 оказались под вопросом

Поводом для конфликта послужил опубликованный NVIDIA отчет, где утверждалось, что ускорители H100 с использованием фирменных библиотек TensorRT-LLM почти на 50% быстрее новых AMD MI300X. Однако в AMD заявили, что эти тесты проводились по некорректной методологии. По мнению инженеров AMD, NVIDIA намеренно или ошибочно создала неравные условия для сравнения.

Три ключевых расхождения в тестах

Анализ предоставленных AMD контр-аргументов выявил три системных искажения в данных конкурента:

Разные программные стеки: Для H100 применялась оптимизированная библиотека TensorRT-LLM, в то время как для MI300X использовалась стандартная vLLM, которая не имеет такой же глубокой аппаратной настройки.
Манипуляция типами данных: NVIDIA сравнивала свои результаты в формате FP8 (менее точном, но более быстром) с результатами AMD в формате FP16 (более точном и требовательном к ресурсам).
Подмена метрик: По утверждению AMD, графики NVIDIA были построены на основе инвертирования данных о задержке, что создало ложное впечатление о превосходстве в пропускной способности.

Собственные данные AMD: где MI300X действительно сильнее

В ответ на претензии AMD представила обновленные результаты, которые, по их словам, демонстрируют реальное положение дел. Ключевой вывод заключается в том, что даже при использовании H100 с «заточенным» софтом, MI300X сохраняет преимущество, если сравнивать корректные конфигурации.

Согласно новым замерам:

В равных условиях (FP16 + vLLM) MI300X оказывается в 2,1 раза быстрее H100.
Даже против оптимизированного H100 (TensorRT-LLM + FP8) MI300X на стандартном софте (vLLM + FP16) показывает прирост производительности в 1,3 раза.
В тестах на абсолютную задержку (критически важный параметр для инференса ИИ) MI300X также опережает конкурента.

В AMD подчеркивают, что выбрали vLLM не случайно — эта среда является стандартом де-факто для разработчиков, работающих с обеими платформами, что делает их тесты более релевантными для реального рынка.

Этот публичный спор — не просто обмен колкостями. Он отражает острую борьбу за доминирование на рынке ИИ-ускорителей, где каждый процент производительности означает миллионы долларов контрактов. Для клиентов ситуация осложняется тем, что обе стороны используют разные «правила игры» в бенчмарках, что затрудняет объективный выбор. Ранее подобные споры уже возникали вокруг сравнения архитектур CUDA и ROCm, и сейчас они лишь подтверждают, что гонка вооружений в сфере ИИ перешла в фазу, где решающее значение имеют не только «железо», но и методология его оценки.

Опубликовано: Мировое обозрение Источник