Google представила облачный ИИ-суперкомпьютер A3 — до 26 000 ускорителей NVIDIA H100 для всех желающих

11 май 2023, 21:57

971

Битва за искусственный интеллект переходит в аппаратную плоскость, и Google делает ставку на цифры, которые сложно игнорировать. Объявив о запуске облачного суперкомпьютера Compute Engine A3, корпорация фактически бросает прямой вызов Microsoft и другим конкурентам, предлагая клиентам доступ к кластерам, объединяющим до 26 000 графических ускорителей NVIDIA H100. Речь идет не просто об очередном обновлении серверной линейки, а о фундаментальном сдвиге в том, как крупный бизнес сможет обучать и эксплуатировать нейросети. Если раньше доступ к подобным вычислительным мощностям был прерогативой государственных лабораторий (вспомним суперкомпьютер Frontier с его 37 000 ускорителей AMD), то теперь Google пытается демократизировать эту возможность, упаковав её в формат облачной услуги.

26 000 GPU в одном кластере: архитектура нового поколения

Основой анонса стала не просто производительность, а сама архитектура решения. Как заявили представители Google, не все регионы будут масштабироваться до максимальных 26 000 ускорителей, но сама возможность собрать такой кластер для конкретной задачи уже стала реальностью. Каждая виртуальная машина A3 базируется на процессорах Intel Xeon четвертого поколения (Sapphire Rapids), работающих в связке с ускорителями H100. Ключевой особенностью является использование инфраструктурного процессора (IPU) Mount Evans, разработанного совместно Google и Intel. Именно он позволяет организовать передачу данных между GPU в обход центрального процессора, обеспечивая скорость сетевого обмена до 200 Гбит/с. По заявлению разработчиков, это увеличивает пропускную способность сети в 10 раз по сравнению с предыдущим поколением виртуальных машин A2.

Производительность в экзафлопсах и маркетинговые нюансы

Заявленная производительность A3 достигает 26 экзафлопс, однако здесь есть важный нюанс, который стоит учитывать при оценке. Google приводит цифры в специализированном формате TF32 Tensor Core с одинарной точностью, используемом именно для обучения нейросетей. Этот показатель примерно в 30 раз выше, чем классические вычисления с двойной точностью FP64, которые применяются в традиционных научных симуляциях. Таким образом, прямое сравнение с топовыми суперкомпьютерами общего назначения здесь не совсем корректно. Это подчеркивает специализацию платформы: A3 создан не для моделирования климата или квантовой химии, а исключительно для тренировки больших языковых моделей и генеративного ИИ.

Гонка вооружений: NVIDIA H100 как стандарт де-факто

Несмотря на то, что Google активно продвигает собственные чипы TPU v4 (используемые, например, в Google Bard), рынок облачных ИИ-услуг диктует свои условия. Ускорители NVIDIA H100 стали де-факто стандартом для построения тяжелой ИИ-инфраструктуры, и Google вынужден следовать этому тренду. Инструментарий CUDA и специализированные тензорные ядра H100 обеспечивают наилучшие показатели при обучении моделей. Для сравнения: Microsoft в партнерстве с OpenAI использует суперкомпьютер с 10 000 GPU, а Oracle предоставляет доступ к кластерам до 512 ускорителей, но активно работает над увеличением этих показателей. Количество графических процессоров стало главной визитной карточкой в маркетинговых войнах облачных провайдеров, и A3 выводит Google в лидеры по этому параметру.

Технические инновации: сеть Jupiter и NVLink

Связующим звеном для всей этой вычислительной мощи выступает фирменная сетевая структура Jupiter, которая соединяет географически разнесенные кластеры через оптоволокно. Внутри одной виртуальной машины A3 восемь ускорителей H100 объединены через коммутаторы NVSwitch с использованием технологии NVLink, обеспечивая пропускную способность до 3,6 Тбит/с. Интересно, что аналогичные скорости готовится предложить и Microsoft на своем следующем поколении ИИ-суперкомпьютера, который также будет построен на базе H100, но с использованием сетевых решений Quantum-2 (до 400 Гбит/с). Пока Microsoft держит в секрете точное количество GPU в новом кластере, но очевидно, что оно будет сопоставимо с показателями Google.

Облачные гиганты окончательно осознали, что универсальный подход больше не работает. Для обучения ИИ требуется специализированная инфраструктура, и сейчас происходит массовое развертывание систем на H100. Показательно, что даже сама NVIDIA запустила собственный облачный сервис DGX, стоимость аренды которого значительно выше, чем у систем на ускорителях A100 предыдущего поколения. H100, по заявлениям производителя, на 30% экономичнее и в три раза быстрее предшественника при обучении таких моделей, как MosaicGPT с семью миллиардами параметров.

Гонка за лидерство в облачном ИИ только набирает обороты. Google сделал мощный ход, предложив рынку кластеры беспрецедентного масштаба. Однако ключевым вопросом остается не столько количество GPU, сколько эффективность их использования и стоимость аренды для конечного клиента. Пока Microsoft и Amazon не представили свои ответные предложения аналогичного масштаба, A3 выглядит как серьезная заявка на лидерство. Но в мире, где технологии устаревают за полгода, сегодняшний рекордсмен рискует завтра оказаться догоняющим.

Опубликовано: Мировое обозрение Источник

США ввели пошлины до 12,5% против 60 торговых партнёров

NVIDIA отправит GPU на Луну: ИИ-чипы Jetson впервые испытают на лунной поверхности

256 детей стали жертвами украинских атак в ДНР с 2014 года

Google представила облачный ИИ-суперкомпьютер A3 — до 26 000 ускорителей NVIDIA H100 для всех желающих

26 000 GPU в одном кластере: архитектура нового поколения

Производительность в экзафлопсах и маркетинговые нюансы

Гонка вооружений: NVIDIA H100 как стандарт де-факто

Технические инновации: сеть Jupiter и NVLink

Подписывайтесь:

Топ за неделю

Боевые мыши НАТО: этой чудо-армией Эстония, Латвия и Литва собрались воевать с Россией

Украинские БПЛА снова долетели до Башкирии. На НПЗ в Туймазах пожар

БПЛА атаковали гражданские автомобили на пункте пропуска «Чонгар», есть жертвы

В Белгороде в результате атаки дрона по АЗС погиб секретарь местного горкома Александр Логвинов

В Невинномысске объявили режим ЧС из-за атаки на склад Wildberries

Боевые мыши НАТО: этой чудо-армией Эстония, Латвия и Литва собрались воевать с Россией

Когда падёт Запад...

Я не идеализирую Советский Союз

«Картина удручающая, даже страшная». Залог победы, которого желают миллионы граждан России

Почему корёжит бесов восстановление памятников советского прошлого

Google представила облачный ИИ-суперкомпьютер A3 — до 26 000 ускорителей NVIDIA H100 для всех желающих

26 000 GPU в одном кластере: архитектура нового поколения

Производительность в экзафлопсах и маркетинговые нюансы

Гонка вооружений: NVIDIA H100 как стандарт де-факто

Технические инновации: сеть Jupiter и NVLink

Подписывайтесь:

Топ за неделю

Последние новости

Согласие на использование файлов cookie