Китай создал 384-ядерный чип Sunway SW26010-Pro для суперкомпьютеров, который в 4 раза быстрее предшественника
Китайский суперкомпьютер на новых процессорах Sunway SW26010-Pro, недавно запущенный в Национальном суперкомпьютерном центре в Уси, демонстрирует четырехкратный прирост производительности по сравнению с предшественником. Однако, несмотря на впечатляющие пиковые показатели, эксперты указывают на системные ограничения в архитектуре памяти, которые могут серьезно снизить реальную эффективность машины при решении прикладных задач.
Архитектурный прорыв и скрытые компромиссы
Новый процессор Sunway SW26010-Pro, официально представленный на конференции SC23, базируется на полностью переработанной 64-разрядной RISC-архитектуре. Ключевое отличие от предшественника — увеличение тактовой частоты вычислительных ядер (CPE) до 2,25 ГГц и управляющих ядер (MPE) до 2,10 ГГц, тогда как предыдущая модель работала на частоте 1,45 ГГц. Это позволило поднять пиковую производительность FP64 каждого процессора до 13,8 Тфлопс, что заметно выше, чем у топовых западных аналогов, таких как 96-ядерный AMD EPYC 9654 с его 5,4 Тфлопс.
Структура вычислительного кластера
Каждый процессор объединяет шесть групп ядер (CG), в каждой из которых находится 64 вычислительных элемента (CPE) с 512-битным векторным движком и одно управляющее ядро (MPE). Для обеспечения когерентности данных между всеми 390 ядрами (384 вычислительных + 6 управляющих) используется протокол на основе директорий. Это критически важно для приложений с нерегулярным доступом к совместно используемым данным, где требуется точное взаимодействие между вычислительными узлами.
Разработчик также модернизировал подсистему памяти, заменив контроллеры DDR3 на DDR4. Объем поддерживаемой памяти на процессор вырос с 32 Гбайт до 96 Гбайт, а на каждый CG-кластер теперь приходится 16 Гбайт вместо прежних 8 Гбайт. Пропускная способность памяти увеличилась, но, как отмечают отраслевые специалисты, этого все еще может быть недостаточно.
Узкие места: кеш и пропускная способность
Несмотря на значительный прогресс, архитектура Sunway SW26010-Pro сохраняет наследственные проблемы. Объем сверхскоростного кеша для данных был увеличен с 64 до 256 Кбайт на каждое вычислительное ядро, однако при отсутствии полноценного кеша второго уровня (L2) этого объема все еще недостаточно для эффективной работы. Двухканальная подсистема памяти DDR4-3200 с пропускной способностью 51,2 Гбайт/с с трудом обслуживает 64 ядра, каждое из которых способно выдавать до 16 операций FP64 за цикл.
Проблема усугубляется тем, что программная оптимизация, способная частично компенсировать недостаток кеша, требует значительных трудозатрат и высокой квалификации разработчиков. В сочетании с ограниченной пропускной способностью оперативной памяти это ставит под вопрос способность обновленного процессора эффективно решать задачи, для которых и создаются экзафлопсные системы.
На протяжении последних двух лет Китай последовательно наращивает вычислительные мощности национальных суперкомпьютерных центров, стремясь сократить технологический разрыв с лидерами отрасли. Первые упоминания о процессоре Sunway SW26010-Pro появились еще в 2021 году, однако публичная демонстрация и раскрытие архитектурных деталей состоялись только сейчас. Предшествующая модель, SW26010, использовалась в суперкомпьютере Sunway TaihuLight, который до недавнего времени входил в тройку самых мощных систем мира.
Достижение четырехкратного прироста производительности на уровне процессора — безусловный инженерный успех. Однако реальная эффективность новой системы будет определяться не столько пиковыми показателями, сколько способностью разработчиков программного обеспечения адаптировать алгоритмы под специфическую архитектуру с ограниченной подсистемой памяти. Если эту задачу не удастся решить, значительная часть теоретической вычислительной мощности может остаться невостребованной, что поставит под сомнение конкурентоспособность китайских экзафлопсных проектов на международной арене.















