Лента новостей

16:31
«Украина не признана террористическим государством». Что говорят об атаке киевского режима на Казань?
15:57
Почему ВСУ могут вскоре пойти в «Рождественское наступление»
15:43
Орбан: необходимо срочно снять санкции против России, которые очень вредят Европе
14:56
В Новой Москве 40 школьников-мигрантов избили трёх подростков
14:55
Хинштейн объявил о компенсациях пострадавшим после обстрела Рыльска
14:48
The Economist упрекнул Украину в сносе памятников Пушкину
14:47
Западные страны недооценили технологический потенциал России
14:38
Как BlackRock осваивает Украину
14:05
Шольц заступился за активы России, которые хотят отдать Украине в виде кредитов
14:01
Бои в приграничье: «Северяне» охотятся на танки и другую технику врага (ВИДЕО)
13:58
Муниципалитеты Восточной Финляндии требуют государство усилить конкурентоспособность региона
13:55
Кондратьев пообещал убрать весь мазут с побережья за месяц
13:36
Зенитные расчёты прикрывают позиции ВС РФ от беспилотников ВСУ на Красноармейском направлении
13:27
На что рассчитывает Киев, отказываясь продлевать транзит российского газа в ЕС?
12:42
Когда Земля треснула пополам: геологи установили, что разлом Денали виновен в расколе древнего суперконтинента
12:22
Молодые волки американской оборонки объявили войну матёрым хищникам ВПК
12:19
Фон дер Ляйен попросили вступить в ряды ВСУ
12:10
Специальная военная операция ВС РФ и события на Украине 21 декабря, день
12:06
Невидимые северокорейцы продолжают наступление - Новости
12:02
Сводки с фронта на 21 декабря 2024 года | Обстановка на линии боевых действий на Украине
11:50
IceCube всматривается в ничто: что на самом деле показали 10 лет поисков темной материи?
11:34
Фицо рассказал, что Зеленский пытался его купить за €500 млн
11:27
Варшава потребовала от Киева объяснений за флаги УПА на польских БТР
11:21
Разрыв по шву: как в наступающем году изменятся отношения с «союзниками» всей Украины и лично Зеленского
11:11
Мощный ответ: армия России нанесла удары по ключевым объектам Украины, новости на утро 21.12.2024
11:05
Десантники группировки войск «Днепр» уничтожили временный пункт дислокации ВСУ — видео
10:43
Украина осуществила атаку дронами на российские регионы. В Казани горят жилые дома
10:39
Атака БПЛА по жилым многоэтажкам в Казани: начались пожары (ФОТО, ВИДЕО)
10:38
Кадры авиаудара ВКС России по мосту через реку Волчья (ВИДЕО)
10:20
Курская область сегодня, 21.12.2024: линия боев, продвижение ВС РФ и ожесточенные сражения
10:14
«Мерлин», «Орлан», Supercam, «Форпост»: как разведывательные БПЛА помогают российской армии в зоне СВО
10:12
Шесть человек погибли в результате обстрела Рыльска в Курской области
10:06
Мифы о черных дырах рушатся? Гравитационные волны не подтверждают дефицит черных дыр определенной массы
09:41
СВО. Донбасс. Оперативная лента за 21.12.2024
09:03
«У украинцев два врага - Россия и украинская власть, вторые намного страшнее первых»
07:13
Сырский готовится сдать Покровск - Новости
05:58
Война в Испании – борьба за ресурсы
05:53
Учёные обнаружили «эликсир» молодости, который вырабатывается печенью человека
04:04
Итоги недели с Дмитрием Пучковым
03:22
В Литве и Польше не рады белорусским неонацистам
03:21
Поляки возмущены условиями Киева для эксгумации жертв Волынской резни
03:14
Ожесточённые бои на Украине: новости СВО от 21 декабря 2024. Карта боёв на Украине сегодня, обстановка в Курской области, военная сводка, 1031-й день спецоперации России на Украине
02:22
В Московской области похоронили погибшего в результате теракта Игоря Кириллова
02:03
В Epic Games Store стартовала раздача новой тайной игры — она доступна в России и продлится всего сутки
01:12
Для Запада Зеленский стал лишней фигурой
Все новости

Архив публикаций



Мировое обозрение»Технологии»NVIDIA развенчала миф от AMD: ИИ-ускорители H100 в реальных задачах в разы быстрее Instinct MI300X

NVIDIA развенчала миф от AMD: ИИ-ускорители H100 в реальных задачах в разы быстрее Instinct MI300X


Компания NVIDIA опубликовала свежие данные о производительности своих ИИ-ускорителей H100, сравнив их с недавно представленными ускорителями Instinct MI300X от компании AMD. Этим сравнением NVIDIA решила показать, что на самом деле H100 обеспечивают более высокую производительность по сравнению с конкурентом, если использовать правильную программную среду для ИИ-вычислений. Компания AMD этого не учла в своём сравнении ускорителей, посчитали в NVIDIA.

 Источник изображения: Wccftech

Источник изображения: Wccftech

Во время презентации Advancing AI компания AMD официально представила специализированные ускорители вычислений для ИИ Instinct MI300X и сравнила их в различных бенчмарках и тестах с ускорителями H100 от NVIDIA. В частности, AMD заявила, что один ускоритель MI300X обеспечивает на 20 % более высокую производительность по сравнению с одним ускорителем H100, а сервер из восьми MI300X до 60 % быстрее сервера из восьми H100. NVIDIA опубликовала заметку на своём сайте, в которой утверждает, что эти заявления далеки от правды.

Ускорители вычислений NVIDIA H100 были выпущены в 2022 году и с тех пор получили различные улучшения на уровне программного обеспечения. Например, наиболее свежие улучшения, связанные с программной средой для ИИ-вычислений TensorRT-LLM позволили ещё больше повысить производительность H100 в рабочих нагрузках, специфичных для искусственного интеллекта, а также провести оптимизацию на уровне ядра. Всё это, по словам NVIDIA, позволяет чипам H100 эффективнее работать с такими большими языковыми моделями, как Llama 2 с 70 млрд параметров с использованием операций FP8.

Сама AMD в своей презентации утверждала, что Instinct MI300X до 20 % быстрее H100 в Llama 2 70B, а также система из восьми ускорителей AMD обеспечивает превосходство по задержке на 40 % по сравнению с системой на восьми NVIDIA H100 в той же нейросети. Превосходство в операциях FP8 и FP16 составляет 30 % в пользу MI300X.

AMD проводила тесты своих ускорителей MI300X с использованием оптимизированных библиотек программной среды вычислений ROCm 6.0. Однако для NVIDIA H100 использовались данные без учёта применения оптимизированной программной среды TensorRT-LLM, предназначенной для этих задач. В свежей статье NVIDIA привела актуальные данные производительности одного DGX-сервера из восьми H100 в модели Llama 2 70B с учётом обработки одного программного пакета (Batch-1).

 Источник изображения: NVIDIA

Источник изображения: NVIDIA

NVIDIA поясняет, что выводы AMD (серым и красным на графике выше) о превосходстве над H100 основаны на данных, представленных в сноске #MI300-38 к презентации AMD. Для их получения использовалась система NVIDIA DGX H100, фреймворк vLLM v.02.2.2 и модель Llama 2 70B с длиной входной последовательности 2048 и длиной выходной последовательности 128. NVIDIA отмечает, что в AMD сравнили систему из восьми MI300X с системой DGX H100 из восьми H100.

В свою очередь данные NVIDIA показаны на графике зелёным. Для их получения применена система DGX H100 из восьми NVIDIA H100 с 80 Гбайт памяти HBM3 в каждом, а также находящийся в открытом доступе фреймворк NVIDIA TensorRT-LLM v0.5.0 для расчёта Batch-1 и версии v0.6.1 для расчёта задержки. Рабочая нагрузка такая же, как указано в сноске AMD #MI300-38.

Приведённые NVIDIA результаты показывают, что сервер DGX H100 вдвое быстрее при использовании оптимизированных фреймворков, чем заявляет AMD. Кроме того, сервер с восемью H100 до 47 % быстрее системы с восемью AMD MI300X.

«Система DGX H100 способна обработать один инференс-запрос размером в один пакет (Batch-1) или иными словами, один запрос вывода за раз, за 1,7 секунды. Запрос уровня Batch-1 обеспечивает максимально быстрый показатель времени отклика для обработки модели. Для оптимизации времени отклика и пропускной способности ЦОД облачные сервисы устанавливают фиксированное время ответа для конкретной задачи. Это позволяет операторам ЦОД объединять несколько запросов на вывод в более крупные “пакеты” и увеличивать общее количество выводов сервера в секунду. Стандартные отраслевые тесты вроде MLPerf также измеряют производительность с помощью этого фиксированного показателя времени отклика», — продолжает NVIDIA.

В NVIDIA поясняют, что небольшие компромиссы в вопросе времени отклика системы могут привести к увеличению количества запросов на вывод, которые сервер может обработать в реальном времени. Используя фиксированный бюджет времени отклика в 2,5 секунды, сервер DGX H100 с восемью графическими процессорами может обработать более пяти инференс-запросов Llama 2 70B за раз.



Опубликовано: Мировое обозрение     Источник

Читайте нас:





Напишите ваш комментарий к статье:

Информация
Посетители, находящиеся в группе Гости, не могут оставлять комментарии к данной публикации.

Новости партнеров

Наверх