Google представила свой самый быстрый ИИ-ускоритель — Cloud v5p

07 дек 2023, 02:24

875

Корпорация Google официально представила новое поколение тензорных процессоров (TPU) v5p, которые станут аппаратной основой для обучения самых мощных моделей искусственного интеллекта, включая флагманскую языковую модель Gemini. Однако ключевой вывод из анонса — не просто появление более быстрого чипа, а кардинальное изменение правил игры в гонке ИИ-вооружений, где вычислительная мощность становится главной валютой.

Архитектура нового ускорителя: от гигафлопсов к реальным задачам

Новый процессор Cloud TPU v5p оснащен 95 Гбайт памяти HBM3 с пропускной способностью 2765 Гбайт/с. Заявленная производительность достигает 459 Тфлопс при работе с числами с плавающей запятой (BF16) и 918 TOPS для целочисленных операций INT8. Это делает его в полтора раза мощнее предшественника TPU v4, который выдавал лишь 275 Тфлопс.

Однако настоящий прорыв заключается не в сухих цифрах, а в эффективности на реальных рабочих нагрузках. По данным Google, кластер из 8960 чипов v5p, объединенных проприетарным интерконнектом со скоростью до 4800 Гбит/с на чип, способен обучать большие языковые модели (LLM) в 2,8 раза быстрее, чем аналогичная конфигурация на TPU v4. При этом энергопотребление снижается, что критически важно для операторов дата-центров, сталкивающихся с перегревом и дефицитом электроэнергии.

Сравнение поколений: почему v5p не всегда выгоднее v5e

Несмотря на очевидное превосходство флагманского чипа, в линейке появился любопытный нюанс. Младшая модель TPU v5e, представленная ранее, демонстрирует лучшую производительность на вложенный доллар. Однако её максимальная конфигурация ограничена кластером из 256 чипов, что дает всего 197 Тфлопс в BF16. Таким образом, v5p — это решение для задач, где масштабируемость и абсолютная скорость важнее экономической эффективности единичного вычисления.

Инженеры Google DeepMind и Google Research уже подтвердили двукратное ускорение рабочих нагрузок по обучению LLM на новых чипах по сравнению с TPU v4. Как отметил Джефф Дин (Jeff Dean), главный научный сотрудник Google DeepMind, ключевую роль в этом сыграло второе поколение технологии SparseCore, которая ускоряет работу с embedding-dense моделями в 1,9 раза.

Новое оборудование уже используется для тренировки модели Gemini, которая, по неофициальным данным, содержит более триллиона параметров. Без подобной вычислительной инфраструктуры поддержание конкурентоспособности на рынке ИИ становится практически невозможным.

В предшествующие годы Google делала ставку на развитие собственного софта (фреймворки JAX, TensorFlow, PyTorch) и специализированных чипов, отказываясь от доминирования видеокарт Nvidia. Сейчас эта стратегия приносит плоды: TPU v5p обеспечивает в четыре раза больше Флопс на кластер по сравнению с v4 за счет удвоения как производительности, так и масштабируемости.

Вывод очевиден: рынок ИИ-железа вступает в эпоху, когда выигрывает не тот, кто создал самый быстрый чип сам по себе, а тот, кто смог построить самую эффективную и масштабируемую сеть из тысяч таких чипов. Google, судя по характеристикам v5p, сделала ставку именно на это, и теперь конкурентам придется догонять её не только в алгоритмах, но и в инженерной инфраструктуре.

Опубликовано: Мировое обозрение Источник