NVIDIA представила самый мощный чип в мире — Blackwell B200, который откроет путь к гигантским нейросетям

23 мар 2024, 00:22

9 764

Глава Nvidia, Дженсен Хуанг, представил архитектуру Blackwell, назвав её «двигателем новой промышленной революции». Однако за громкими заявлениями кроется не просто очередное обновление линейки, а смена парадигмы: компания переходит от продажи отдельных чипов к поставке готовых вычислительных кластеров, стирая грань между «железом» и суперкомпьютером. Новый флагман, суперчип GB200, объединяющий два GPU B200 и процессор Grace, потребляет до 2,7 кВт, но при этом обеспечивает 30-кратный прирост производительности в задачах с большими языковыми моделями (LLM) по сравнению с предшественником H100.

Архитектура, переопределяющая возможности

Графический процессор B200, по заявлению компании, стал первым чипом Nvidia с чиплетной компоновкой. Два кристалла, изготовленные по 4-нм техпроцессу TSMC, объединены в единый массив с помощью 2,5D-упаковки CoWoS-L и шины NV-HBI с пропускной способностью 10 Тбайт/с. Общее количество транзисторов достигло 208 миллиардов. Восемь стеков памяти HBM3E общим объёмом 192 Гбайт и пропускной способностью 8 Тбайт/с обеспечивают питание для вычислений с производительностью до 20 Пфлопс в режиме FP4.

Ключевым элементом ускорения стали тензорные ядра нового поколения и механизм Transformer Engine, который научился динамически подбирать точность вычислений (от FP4 до FP64) для каждого слоя нейросети. Это позволяет не только ускорять обучение, но и запускать модели с триллионами параметров, используя формат FP4 для инференса без потери качества.

Готовые системы, а не просто чипы

Вместо того чтобы предлагать рынку отдельные ускорители, Nvidia сфокусировалась на законченных решениях. Система GB200 NVL72 представляет собой серверную стойку, объединяющую 36 суперчипов GB200 (72 GPU B200 и 36 CPU Grace) с помощью NVLink пятого поколения. Она работает как единый гигантский GPU с производительностью 1,4 эксафлопс (FP4) и ляжет в основу новых суперкомпьютеров DGX SuperPOD.

Для тех, кто не готов к масштабам «мегакластера», представлены серверные системы HGX B200 и DGX B200. Первая — это плата с восемью ускорителями без собственного CPU, вторая — полностью готовый сервер на базе двух процессоров Intel Xeon. По данным Nvidia, DGX B200 в 15 раз быстрее предшественника при работе с уже обученными моделями.

Сетевая инфраструктура нового поколения

Чтобы объединить десятки тысяч ускорителей в одном дата-центре, компания анонсировала сетевые интерфейсы Quantum-X800 InfiniBand и Spectrum-X800 Ethernet, поддерживающие скорость до 800 Гбит/с. Это позволяет строить кластеры от 10 000 до 100 000 GPU GB200, создавая единое вычислительное пространство.

Первые системы на базе Blackwell уже анонсировали крупнейшие производители серверов, включая ASUS, Gigabyte и Foxconn. Облачные гиганты AWS, Google Cloud и Oracle Cloud также подтвердили планы по внедрению решений на новом суперчипе во второй половине года.

Архитектура Hopper, представленная в 2022 году, стала стандартом для обучения современных LLM. Однако её ограничения по энергоэффективности и масштабируемости стали очевидны при попытке создания моделей с триллионами параметров. Blackwell решает эту проблему радикально: компания утверждает, что новинка в 25 раз экономичнее предшественника при сопоставимых вычислительных задачах.

Этот переход от продажи «транзисторов» к поставке «вычислительных заводов» меняет правила игры на рынке ИИ-инфраструктуры. Если раньше клиенты могли собирать системы из компонентов разных вендоров, то теперь Nvidia предлагает полностью интегрированное решение, где сеть, память и вычислители оптимизированы друг под друга. Для конкурентов, таких как AMD и Intel, это означает, что догнать Nvidia в производительности уже недостаточно — необходимо предлагать аналогичный уровень системной интеграции.

Опубликовано: Мировое обозрение Источник