IBM разработала ИИ-чип с внутренним хранением данных, и он на порядок быстрее ускорителей Nvidia

21 окт 2023, 13:29

657

Инженеры IBM завершили цикл испытаний экспериментального процессора NorthPole, предназначенного исключительно для задач искусственного интеллекта. Полученные данные ставят под сомнение доминирование традиционных GPU и CPU в сегменте высоконагруженных нейросетевых вычислений. Разработка, по сути, представляет собой аппаратный отказ от архитектуры фон Неймана, что позволило добиться кратного превосходства в скорости и энергопотреблении над всеми существующими коммерческими аналогами.

Архитектурный прорыв: «Сеть на чипе» против узкого места фон Неймана

Ключевое отличие NorthPole от классических процессоров — полная интеграция вычислительных блоков и оперативной памяти в одном кристалле. Вместо того чтобы постоянно обмениваться данными с внешними модулями RAM (что создает задержки и перерасход энергии), чип хранит всю необходимую информацию непосредственно в своих 256 ядрах. Это позволяет преодолеть так называемое «фон-неймановское узкое место», которое десятилетиями ограничивало производительность традиционных систем.

Изготовленный по 12-нм техпроцессу, NorthPole вмещает 22 миллиарда транзисторов на площади 800 квадратных миллиметров. За один такт каждое ядро способно выполнять 2048 операций с 8-битной точностью. При снижении точности до 4 или 2 бит производительность масштабируется линейно, что критически важно для задач машинного зрения, где высокая точность вычислений не всегда обязательна, но скорость обработки потока данных имеет первостепенное значение.

Цифры, которые меняют рынок: энергоэффективность и задержки

Испытания на эталонной модели ResNet50 (50-слойная сверточная нейросеть для классификации изображений) продемонстрировали радикальное превосходство новинки. По заявлениям разработчиков, энергоэффективность NorthPole в 25 раз выше, чем у лучших 12-нм графических процессоров и 14-нм центральных процессоров. Показатель задержек (латентности) оказался в 22 раза ниже, что критично для систем реального времени — автономного транспорта, роботизированной хирургии и промышленного компьютерного зрения.

Особенно впечатляет сравнение по плотности вычислений на единицу площади кристалла: архитектура IBM обошла даже современные 4-нм GPU, которые считаются вершиной полупроводниковой инженерии. По сути, NorthPole демонстрирует, что совершенствование техпроцесса — не единственный путь к росту производительности ИИ-систем.

Предыдущая архитектура IBM для нейросетей, TrueNorth, уступает новому чипу по совокупности показателей в 4000 раз. Такой скачок объясняется не эволюционным улучшением, а сменой парадигмы: вместо имитации работы мозга (как в TrueNorth) инженеры сосредоточились на инженерно-эффективной утилизации памяти и вычислительных ресурсов.

Первые упоминания о проекте NorthPole появились еще в 2020 году, когда IBM Research опубликовала теоретические выкладки. Однако до сих пор не раскрыты планы по коммерциализации технологии: неизвестно, пойдет ли чип в серийное производство или останется исследовательским прототипом для отработки решений в области «нейроморфных» вычислений.

Потенциальное внедрение NorthPole способно перераспределить рынок аппаратного обеспечения для ИИ. Если IBM удастся наладить выпуск таких процессоров по конкурентной цене, это создаст прямую угрозу NVIDIA, чьи GPU сейчас де-факто являются стандартом для обучения и инференса нейросетей. Однако ключевым ограничением остается узкая специализация чипа: он оптимизирован для логического вывода (inference), а не для обучения моделей, и его архитектура может оказаться негибкой для задач, не связанных с компьютерным зрением.

Опубликовано: Мировое обозрение Источник