NVIDIA развенчала миф от AMD: ИИ-ускорители H100 в реальных задачах в разы быстрее Instinct MI300X

14 дек 2023, 21:25

598

Гонка производительности в сегменте ИИ-ускорителей вышла на новый уровень противостояния: компания NVIDIA, чьи решения H100 доминируют на рынке, представила собственные результаты тестов, которые полностью опровергают недавние заявления AMD о превосходстве её ускорителей Instinct MI300X. Ключевой вывод, сделанный «зелёным» лагерем, заключается в том, что разрыв в производительности на самом деле колоссален — но только при условии использования правильного программного обеспечения. Без него, как выяснилось, сравнивать аппаратное обеспечение бессмысленно.

Программная оптимизация как главный фактор превосходства

В своём официальном блоге для разработчиков инженеры NVIDIA провели детальный анализ производительности сервера DGX H100. Они утверждают, что система на базе восьми ускорителей H100 способна обрабатывать один инференс-запрос (Batch-1) для модели Llama 2 70B всего за 1,7 секунды. Этот показатель, по их мнению, является эталонным для задач реального времени. Секрет такого результата кроется не столько в «железе», сколько в свежих версиях программного фреймворка TensorRT-LLM, который позволяет проводить глубокую оптимизацию на уровне ядра вычислений.

Анализ методик тестирования AMD и NVIDIA

Корень разногласий лежит в методологии. AMD, представляя MI300X, заявляла о 20-процентном преимуществе в скорости работы с Llama 2 70B и о 60-процентном превосходстве сервера из восьми чипов. Однако NVIDIA указывает, что эти цифры были получены без учёта их собственной оптимизированной программной среды TensorRT-LLM. В ответном тесте «зелёные» использовали ту же самую рабочую нагрузку (длина входной последовательности 2048, выходной — 128), что и в сноске #MI300-38 к презентации AMD, но применили актуальные версии своих фреймворков (v0.5.0 и v0.6.1). Результат оказался диаметрально противоположным: по данным NVIDIA, сервер DGX H100 оказался вдвое быстрее, чем заявляла AMD, и на 47% быстрее системы с восемью MI300X.

Практическая ценность для дата-центров

е эксплуатации центров обработки данных (ЦОД) ключевым параметром становится не пиковая производительность на одном тесте, а пропускная способность при фиксированном времени отклика. NVIDIA поясняет, что операторы ЦОД устанавливают жёсткий лимит времени ответа (например, 2,5 секунды). Используя этот «бюджет», сервер DGX H100 способен обрабатывать более пяти инференс-запросов Llama 2 70B одновременно. Это означает, что даже небольшое снижение времени отклика благодаря софту напрямую конвертируется в рост количества обработанных запросов в секунду, что является критическим фактором для рентабельности облачных сервисов.

Ускорители NVIDIA H100 дебютировали на рынке в 2022 году и с тех пор претерпели значительную эволюцию исключительно за счёт программных доработок. В то время как AMD только выводит на рынок свои чипы Instinct MI300X, обещая прорыв в производительности, NVIDIA демонстрирует, что зрелость программного стека и его постоянное обновление могут нивелировать разницу в аппаратной архитектуре. Этот спор подчёркивает фундаментальный сдвиг в индустрии: битва за лидерство в ИИ-вычислениях всё больше перемещается из сферы кремниевых транзисторов в область оптимизации кода и компиляторов, где у NVIDIA есть многолетнее преимущество.

Опубликовано: Мировое обозрение Источник