AMD представила мощнейший ИИ-ускоритель Instinct MI300X и гибридный HPC-процессор Instinct MI300A

07 дек 2023, 01:31

1 238

Компания AMD нанесла очередной удар по монополии NVIDIA на рынке аппаратного обеспечения для искусственного интеллекта, представив флагманский ускоритель Instinct MI300X. Новинка не просто бросает вызов лидеру по сырым цифрам — она меняет правила игры в сегменте инференса (вывода результатов) больших языковых моделей. В то время как рынок замер в ожидании дефицита чипов для генеративного ИИ, AMD предлагает решение, которое в ключевых сценариях работы оказывается в полтора раза быстрее эталонного H100.

Архитектурный прорыв: чиплеты и 3D-компоновка против традиционных решений

В основе Instinct MI300X лежит передовая архитектура CDNA 3, реализованная по чиплетной схеме. Инженеры AMD отказались от монолитного кристалла, применив гибридную сборку из восьми вычислительных блоков XCD (по 38 исполнительных блоков в каждом) и четырех кристаллов ввода-вывода I/O Die. Такая конфигурация, собранная с помощью 3D-упаковки и TSV-монтажа, позволила разместить на подложке 153 млрд транзисторов. Ключевое преимущество новинки — подсистема памяти. Ускоритель оснащен 192 Гбайт памяти HBM3 с пропускной способностью 5,3 Тбайт/с. Это в 2,4 раза больше по объему и на 60% быстрее по скорости, чем у прямого конкурента NVIDIA H100, который располагает лишь 80 Гбайт. Столь щедрый пул видеопамяти критически важен для работы с моделями, содержащими десятки и сотни миллиардов параметров — именно здесь AMD делает основную ставку.

Прямое сравнение с NVIDIA H100: где AMD вырывается вперед

В тестах на обучение нейросетей MI300X демонстрирует паритет с H100. Однако настоящий прорыв происходит в задачах инференса. AMD приводит конкретные цифры: при работе с открытой моделью Llama 2 (70 млрд параметров) новый ускоритель опережает конкурента в 1,4 раза, а при обработке запросов к модели BLOOM (176 млрд параметров) разрыв достигает 1,6 раза. Восьмиускорительная платформа на базе MI300X выдает пиковую производительность 10,4 Пфлопс в операциях FP16/BF16, тогда как эталонная система NVIDIA HGX H100 останавливается на отметке 7,9 Пфлопс. Это не просто цифры — это прямой ответ на растущие потребности дата-центров, где каждый терафлопс конвертируется в скорость генерации контента и ответов чат-ботов.

Программный фундамент: ROCm 6 как ключ к раскрытию потенциала

Аппаратное превосходство было бы бесполезным без адекватной программной экосистемы. AMD представила обновленную платформу ROCm 6, которая, по заявлению разработчиков, ускоряет работу со специализированными библиотеками больших языковых моделей в 2,6 раза по сравнению с предыдущей версией. В совокупности с новым «железом» это дает восьмикратный прирост производительности относительно ускорителей предыдущего поколения MI250X.

Гибридный удар: MI300A для HPC и дата-центров

Параллельно с ускорителем AMD представила гибридный процессор Instinct MI300A — уникальное решение, объединяющее на одной подложке 24 ядра Zen 4 (три чиплета CCD) и шесть блоков XCD с архитектурой CDNA 3. Этот APU, содержащий 146 млрд транзисторов и 128 Гбайт HBM3, предназначен для высокопроизводительных вычислений (HPC). Ключевой показатель — энергоэффективность: MI300A обеспечивает вдвое большую производительность на ватт потребляемой мощности по сравнению с конкурирующей платформой NVIDIA Grace Hopper. Ранее AMD уже представляла архитектуру CDNA 2 и ускорители серии MI200, которые заняли свою нишу в суперкомпьютерах. Однако именно с выходом MI300X компания впервые за долгое время создала продукт, способный конкурировать с NVIDIA не в теории, а на практике — в самом горячем сегменте генеративного ИИ. До этого момента рынок ускорителей для обучения и инференса больших моделей был фактически монополизирован решениями NVIDIA на базе архитектур Hopper и Ampere. Появление Instinct MI300X и MI300A знаменует собой начало нового этапа в гонке вооружений на рынке ИИ-железа. Если заявленные характеристики подтвердятся в реальных дата-центрах, это может привести к снижению стоимости аренды вычислительных мощностей для разработчиков нейросетей и ускорению внедрения ИИ в бизнес-процессы. Более того, успех AMD заставит NVIDIA ускорить выпуск следующего поколения ускорителей Blackwell, что в конечном итоге выгодно всему рынку. Однако главным бенефициаром станут компании, работающие с большими языковыми моделями — для них открывается возможность выбора и, как следствие, более гибкие условия ценообразования и производительности.

Опубликовано: Мировое обозрение Источник