Анонсирован первый в мире суперкомпьютер на 4 Эфлопс — 54 млн ИИ-ядер Cerebras и 72 тыс. ядер AMD Zen 3

21 июл 2023, 17:07

1 670

Амбициозный проект по созданию девяти суперкомпьютеров для генеративного ИИ, анонсированный компанией Cerebras Systems и облачным провайдером G42, может кардинально изменить расстановку сил на рынке высокопроизводительных вычислений. Первая система, Condor Galaxy 1 (CG-1), станет не просто очередным рекордсменом по пиковой производительности, а первой в мире платформой, способной обеспечить 4 экзафлопса (Эфлопс) вычислительной мощности, ориентированной исключительно на задачи искусственного интеллекта. Однако ключевой вывод экспертов заключается не в цифрах, а в архитектурном решении: вместо традиционного соединения тысяч дискретных чипов, Cerebras предлагает использовать «монолитные» кластеры из целых кремниевых пластин, что обещает линейное масштабирование и резкое упрощение разработки ИИ-моделей.

Архитектура нового поколения: от пластины к суперкомпьютеру

В основе проекта лежит фирменная платформа Cerebras CS-2, построенная на процессоре Wafer-Scale Engine 2 (WSE-2). Этот чип, производящийся из целой кремниевой пластины, содержит 2,6 триллиона транзисторов и 850 тысяч тензорных ядер, оптимизированных под ИИ-нагрузки. Первый этап развертывания CG-1 предполагает установку 32 таких систем, что обеспечит производительность в 2 Эфлопс. К концу текущего года количество CS-2 в составе CG-1 удвоится, доведя мощность до заявленных 4 Эфлопс.

Технические характеристики Condor Galaxy 1

Спецификации системы говорят о том, что разработчики сделали ставку на пропускную способность и объем памяти, а не только на сырую производительность:

Пиковая производительность: 4 Эфлопс (FP16);
Количество вычислительных ядер: 54 млн, оптимизированных под ИИ;
Состав: 64 системы Cerebras CS-2;
Объем памяти для хранения параметров: 82 Тбайт;
Поддержка моделей: от 600 млрд параметров в базовой конфигурации с масштабированием до 100 трлн;
Внутренняя пропускная способность кластера: 386 Тбит/с;
Процессорная база: 72 804 ядра AMD EPYC Gen 3.

Линейное масштабирование как главное преимущество

В отличие от традиционных суперкомпьютеров, где производительность растет нелинейно из-за накладных расходов на синхронизацию тысяч GPU, кластеры Cerebras изначально проектировались как единый ускоритель. Единый блок памяти объемом 82 Тбайт позволяет размещать гигантские ИИ-модели напрямую, без использования сторонних библиотек для шардинга. Как отмечают в компании, это приводит к радикальному упрощению кода: стандартная реализация GPT на CG-1 требует всего 1200 строк — в 30 раз меньше, чем на традиционных архитектурах.

ы без потери производительности. Масштабирование ресурсов происходит по простому линейному принципу: модель с 40 млрд параметров будет обучаться ровно в 40 раз дольше, чем модель с 1 млрд, при тех же ресурсах. Если же выделить в 40 раз больше вычислительных мощностей, время обучения останется неизменным.

Амбиции Cerebras не ограничиваются одной системой. Уже в первой половине 2024 года планируется объединить CG-2 и CG-3 в первую распределенную сеть на базе 192 систем CS-2, что обеспечит совокупную производительность в 12 Эфлопс. Четвертый этап предполагает подключение к этой сети еще шести суперкомпьютеров, что доведет общую мощность до 36 Эфлопс и объединит 576 систем CS-2 в единый вычислительный кластер.

Ранее основным драйвером рынка ИИ-инфраструктуры выступали решения на базе GPU от NVIDIA, однако рост сложности моделей и стоимости их обучения заставил индустрию искать альтернативы. Cerebras и G42 предлагают не просто наращивание «сырой» производительности, а смену парадигмы: переход от распределенных систем с тысячами микросхем к архитектуре, где каждый кластер работает как один гигантский процессор. Если проект будет реализован в заявленные сроки, это создаст прецедент для пересмотра подходов к проектированию дата-центров для генеративного ИИ, особенно в сегменте моделей с более чем 100 миллиардами параметров. Упрощение кода и линейное масштабирование могут существенно снизить порог входа для разработки больших языковых моделей, сместив акцент с инженерных ухищрений на качество данных и алгоритмов.

Опубликовано: Мировое обозрение Источник