NVIDIA представила H200 — самый быстрый в мире ускоритель вычислений для мощнейших ИИ

14 ноя 2023, 00:53

2 865

Очередной анонс NVIDIA, на первый взгляд, лишь обновление линейки, на деле — переформатирование рынка высокопроизводительных вычислений. Представленный ускоритель H200, построенный на архитектуре Hopper, не меняет парадигму вычислений, но кардинально решает проблему «узкого горла» — скорости передачи данных. Именно пропускная способность памяти стала главным стопором для современных генеративных нейросетей, и инженеры компании сделали на этом решающий акцент.

Новая память как главный катализатор производительности ИИ

Ключевое отличие H200 от предшественника H100 — не в количестве транзисторов или тактовой частоте, а в типе используемой памяти. NVIDIA H200 стал первым в отрасли графическим процессором, оснащенным модулями HBM3e. Это не просто маркетинговый индекс. Более высокая скорость работы с данными позволяет ускорителю «переваривать» огромные датасеты, характерные для задач инференса (работы уже обученных моделей), значительно быстрее. Спецификации говорят сами за себя: 141 Гбайт памяти против 80 Гбайт у H100 и пропускная способность в 4,8 Тбайт/с. Для сравнения, ускоритель прошлого поколения A100 располагал лишь 2,0 Тбайт/с. Это означает, что H200 способен загружать и обрабатывать модели, которые физически не помещались в память предшественников, без необходимости их фрагментации или использования медленных обменов с процессором.

Результаты на практике: ускорение в числах

Цифры, приведенные разработчиком, впечатляют не абсолютными значениями, а прикладным выигрышем для конечного пользователя. Так, работа с популярной открытой языковой моделью Llama 2 на 70 миллиардов параметров ускоряется почти в два раза (в 1,9 раза) по сравнению с H100. Еще более сложная задача — инференс GPT-3 со 175 миллиардами параметров — будет выполняться в 1,6 раза быстрее. Для операторов дата-центров это прямое снижение времени ответа сервиса и, как следствие, экономия электроэнергии на один запрос.

Экосистема и совместимость: ставка на бесшовный апгрейд

NVIDIA сознательно избегает революций в архитектуре. Новый ускоритель H200 полностью совместим с существующими серверными платформами HGX H100. Это стратегический ход: владельцам текущих систем не потребуется менять серверные шасси, блоки питания или систему охлаждения. Апгрейд сводится к замене вычислительных модулей. Список партнеров, готовых выпустить серверы на базе H200, охватывает практически всю индустрию: от ASUS и Gigabyte до Dell Technologies и Hewlett Packard Enterprise. Облачные гиганты, включая Amazon Web Services, Google Cloud и Microsoft Azure, уже подтвердили планы по запуску инстансов на новых ускорителях в первой половине 2024 года. Это гарантирует, что технология будет доступна не только владельцам физической инфраструктуры, но и потребителям облачных вычислений.

Архитектурные изыски: от одного чипа до кластера на плате

Помимо одиночного ускорителя, компания продемонстрировала и более сложные конфигурации. В паре с процессором Arm собственной разработки Grace, соединенным через высокоскоростной интерфейс NVLink-C2C, H200 образует суперчип GH200 Grace Hopper. Такие модули предназначены для задач, где требуется гигантский объем оперативной памяти, доступной с минимальными задержками. Вершиной инженерной мысли стала плата Quad GH200. Она объединяет четыре таких суперчипа в единую вычислительную сеть по топологии «каждый с каждым». Суммарный объем высокоскоростной памяти на такой плате превышает 2 Тбайт, а количество ядер Arm достигает 288. Производительность в 16 Пфлопс (FP8) делает эту плату идеальным инструментом для обучения самых передовых моделей, а не только для их запуска. Рынок высокопроизводительных вычислений уже давно живет по закону Мура, адаптированному под ИИ. Однако сейчас мы наблюдаем смену приоритетов: гонка за терафлопсами уступает место гонке за пропускной способностью памяти. H200 — яркое подтверждение того, что будущее генеративного ИИ будет определяться не столько вычислительной мощностью чипа, сколько его способностью быстро «кормить» нейросеть данными.

Опубликовано: Мировое обозрение Источник