Мощнейший ИИ-суперкомпьютер Илона Маска xAI Colossus на 100 тысяч Nvidia H100 показали изнутри
Самая мощная в мире вычислительная ферма для искусственного интеллекта, суперкомпьютер xAI Colossus, перестала быть «черным ящиком». Впервые за историю проекта, собранного всего за 122 дня, журналисты получили доступ на объект. Выяснились неожиданные детали: для решения задач обучения нейросетей миллиардер Илон Маск отказался от отраслевых стандартов в пользу массовых коммерческих технологий, а также превратил систему охлаждения в произведение инженерной мысли. Репортаж с места событий раскрывает архитектуру кластера, который уже два месяца «вкачивает» данные в модели нового поколения, включая Grok 3.
Архитектура Colossus: отказ от InfiniBand в пользу Ethernet
Сердцем кластера стали серверы на платформе Nvidia HGX H100. Каждый такой блок вмещает восемь ускорителей Nvidia H100 и оснащен уникальной системой жидкостного охлаждения Supermicro 4U. Инженеры предусмотрели возможность горячей замены кулеров для каждого графического процессора отдельно — это критически важно для обеспечения бесперебойной работы при непрерывном обучении моделей.
Стойки сгруппированы в массивы по восемь штук, что дает 512 графических процессоров на один кластерный блок. Всего на объекте развернуто более 1500 стоек, что эквивалентно примерно 200 массивам. Однако главный сюрприз кроется в сетевой инфраструктуре.
Скорость 3,6 Тбит/с на сервер
Вопреки ожиданиям, Colossus работает не на экзотических интерфейсах вроде InfiniBand, которые традиционно используются в суперкомпьютерах, а на стандартном Ethernet. Каждая графическая карта оборудована выделенным сетевым контроллером на 400 GbE. Более того, на каждый сервер установлен дополнительный 400-гигабитный адаптер. В итоге пропускная способность одного сервера Nvidia HGX H100 достигает 3,6 Тбит/с. Такой подход позволил унифицировать инфраструктуру и снизить затраты на эксплуатацию, не пожертвовав производительностью.
Система охлаждения и энергоснабжение: инженерные решения
Особого внимания заслуживает система отвода тепла. В нижней части каждой стойки находится резервный блок Supermicro 4U с насосной системой и мониторингом. Коллекторы размером со стойку обеспечивают циркуляцию жидкости, а каждый сервер имеет четыре дублирующих блока питания. Сзади стоек расположены трехфазные блоки питания и коммутаторы Ethernet.
Проблема резких перепадов энергопотребления, неизбежных при пиковых нагрузках ИИ-кластера, решена с помощью аккумуляторов Tesla Megapack. Каждая такая батарея емкостью до 3,9 МВт·ч установлена между электросетью и суперкомпьютером, выполняя роль энергетического буфера. Это позволяет сглаживать скачки нагрузки и защищать дорогостоящее оборудование.
Скрытые компоненты: что осталось за кадром
Компания xAI не раскрывает полную спецификацию центральных процессоров и накопителей. На обнародованных видеоматериалах, прошедших цензуру, видны серверы на чипах x86 в корпусах Supermicro, также оснащенные жидкостным охлаждением. Они, по всей видимости, отвечают либо за работу хранилищ данных, либо за вычислительные нагрузки, ориентированные на CPU. Учитывая масштаб кластера, можно предположить, что речь идет о тысячах процессорных ядер, работающих в связке с графическими ускорителями.
Сборка 100 000 ускорителей Nvidia H100 заняла у инженеров всего три недели, что является рекордным сроком для подобных проектов. Обычно на развертывание такой инфраструктуры уходят годы. Colossus уже используется для обучения Grok 3 — следующего поколения языковой модели xAI, которая должна превзойти текущие аналоги по объему обрабатываемой информации и скорости генерации ответов.
Создание Colossus знаменует собой сдвиг в подходе к строительству ИИ-инфраструктуры. Отказ от специализированных сетевых протоколов в пользу Ethernet и применение стандартных серверных решений Supermicro вместо кастомных разработок может стать новым стандартом для отрасли. Это удешевляет и ускоряет масштабирование, что критически важно в гонке за созданием искусственного общего интеллекта. Однако остается открытым вопрос об энергоэффективности: гигантское потребление энергии и необходимость в таких буферах, как Megapack, указывают на то, что экстенсивный путь развития вычислительных мощностей имеет свои пределы.
