Google представила облачный ИИ-суперкомпьютер A3 — до 26 000 ускорителей NVIDIA H100 для всех желающих
Битва за искусственный интеллект переходит в аппаратную плоскость, и Google делает ставку на цифры, которые сложно игнорировать. Объявив о запуске облачного суперкомпьютера Compute Engine A3, корпорация фактически бросает прямой вызов Microsoft и другим конкурентам, предлагая клиентам доступ к кластерам, объединяющим до 26 000 графических ускорителей NVIDIA H100. Речь идет не просто об очередном обновлении серверной линейки, а о фундаментальном сдвиге в том, как крупный бизнес сможет обучать и эксплуатировать нейросети. Если раньше доступ к подобным вычислительным мощностям был прерогативой государственных лабораторий (вспомним суперкомпьютер Frontier с его 37 000 ускорителей AMD), то теперь Google пытается демократизировать эту возможность, упаковав её в формат облачной услуги.
26 000 GPU в одном кластере: архитектура нового поколения
Основой анонса стала не просто производительность, а сама архитектура решения. Как заявили представители Google, не все регионы будут масштабироваться до максимальных 26 000 ускорителей, но сама возможность собрать такой кластер для конкретной задачи уже стала реальностью. Каждая виртуальная машина A3 базируется на процессорах Intel Xeon четвертого поколения (Sapphire Rapids), работающих в связке с ускорителями H100. Ключевой особенностью является использование инфраструктурного процессора (IPU) Mount Evans, разработанного совместно Google и Intel. Именно он позволяет организовать передачу данных между GPU в обход центрального процессора, обеспечивая скорость сетевого обмена до 200 Гбит/с. По заявлению разработчиков, это увеличивает пропускную способность сети в 10 раз по сравнению с предыдущим поколением виртуальных машин A2.
Производительность в экзафлопсах и маркетинговые нюансы
Заявленная производительность A3 достигает 26 экзафлопс, однако здесь есть важный нюанс, который стоит учитывать при оценке. Google приводит цифры в специализированном формате TF32 Tensor Core с одинарной точностью, используемом именно для обучения нейросетей. Этот показатель примерно в 30 раз выше, чем классические вычисления с двойной точностью FP64, которые применяются в традиционных научных симуляциях. Таким образом, прямое сравнение с топовыми суперкомпьютерами общего назначения здесь не совсем корректно. Это подчеркивает специализацию платформы: A3 создан не для моделирования климата или квантовой химии, а исключительно для тренировки больших языковых моделей и генеративного ИИ.
Гонка вооружений: NVIDIA H100 как стандарт де-факто
Несмотря на то, что Google активно продвигает собственные чипы TPU v4 (используемые, например, в Google Bard), рынок облачных ИИ-услуг диктует свои условия. Ускорители NVIDIA H100 стали де-факто стандартом для построения тяжелой ИИ-инфраструктуры, и Google вынужден следовать этому тренду. Инструментарий CUDA и специализированные тензорные ядра H100 обеспечивают наилучшие показатели при обучении моделей. Для сравнения: Microsoft в партнерстве с OpenAI использует суперкомпьютер с 10 000 GPU, а Oracle предоставляет доступ к кластерам до 512 ускорителей, но активно работает над увеличением этих показателей. Количество графических процессоров стало главной визитной карточкой в маркетинговых войнах облачных провайдеров, и A3 выводит Google в лидеры по этому параметру.
Технические инновации: сеть Jupiter и NVLink
Связующим звеном для всей этой вычислительной мощи выступает фирменная сетевая структура Jupiter, которая соединяет географически разнесенные кластеры через оптоволокно. Внутри одной виртуальной машины A3 восемь ускорителей H100 объединены через коммутаторы NVSwitch с использованием технологии NVLink, обеспечивая пропускную способность до 3,6 Тбит/с. Интересно, что аналогичные скорости готовится предложить и Microsoft на своем следующем поколении ИИ-суперкомпьютера, который также будет построен на базе H100, но с использованием сетевых решений Quantum-2 (до 400 Гбит/с). Пока Microsoft держит в секрете точное количество GPU в новом кластере, но очевидно, что оно будет сопоставимо с показателями Google.
Облачные гиганты окончательно осознали, что универсальный подход больше не работает. Для обучения ИИ требуется специализированная инфраструктура, и сейчас происходит массовое развертывание систем на H100. Показательно, что даже сама NVIDIA запустила собственный облачный сервис DGX, стоимость аренды которого значительно выше, чем у систем на ускорителях A100 предыдущего поколения. H100, по заявлениям производителя, на 30% экономичнее и в три раза быстрее предшественника при обучении таких моделей, как MosaicGPT с семью миллиардами параметров.
Гонка за лидерство в облачном ИИ только набирает обороты. Google сделал мощный ход, предложив рынку кластеры беспрецедентного масштаба. Однако ключевым вопросом остается не столько количество GPU, сколько эффективность их использования и стоимость аренды для конечного клиента. Пока Microsoft и Amazon не представили свои ответные предложения аналогичного масштаба, A3 выглядит как серьезная заявка на лидерство. Но в мире, где технологии устаревают за полгода, сегодняшний рекордсмен рискует завтра оказаться догоняющим.
