Научились ломать ИИ самым простым способом

18 июл 2025, 16:06

Почему ваш ИИ может рухнуть из-за пары сбоев в памяти: разбор GPUHammer

Представь: нейросеть, которую ты обучал неделями, вдруг начинает выдавать чушь. Точность падает с 80% до 1%. Код не меняли, данные те же. Виновник — один перевернутый бит в видеопамяти. Звучит как фантастика? Нет. Это реальная атака GPUHammer, которую исследователи из Университета Торонто продемонстрировали на карте Nvidia RTX A6000.

Суть проста: многократное чтение одной ячейки видеопамяти вызывает электрические помехи, которые переворачивают биты в соседних строках. Если этот бит — вес нейросети, модель ломается.

Раньше такое встречалось только в системной DDR4. Теперь — в GDDR6. И это меняет правила игры.

Как работает атака. Микро-инструкция

Не нужно быть хакером. Всё происходит на аппаратном уровне. Шаги:

Шаг 1. Запускаешь на GPU нагрузку, которая постоянно читает одну ячейку памяти.
Шаг 2. Из-за плотной упаковки транзисторов начинаются «протечки» заряда. Соседняя ячейка инвертируется — 0 становится 1, 1 становится 0.
Шаг 3. Если сбитый бит хранит критический параметр ИИ (вес или активацию), модель перестаёт работать адекватно.

Исследователи подтвердили: однократная инверсия одного бита снижает точность классификации с 80% до <1%. При этом физического доступа к компьютеру не нужно — только аренда GPU в облаке.

Кто в зоне риска — неожиданные жертвы

Обычные геймеры могут спать спокойно. Атака работает только в мультитенантных средах: облачные серверы, VDI, кластеры машинного обучения. Если вы арендуете RTX 4090 в облаке для тренировки модели, злоумышленник на соседнем виртуальном GPU может вмешаться в вашу нагрузку.

Под ударом всё семейство архитектур Nvidia: Ampere, Ada, Hopper, Turing. Полный список уязвимых моделей опубликован — в него входит и серверная H100, и старая RTX 3090.

Личное наблюдение автора: я сам несколько раз сталкивался с «мистическими» просадками точности в облачных экспериментах. Тогда списывал на переобучение. Теперь понимаю — возможно, биты переворачивались неизвестным соседом.

Защита есть, но с нюансами

Nvidia рекомендует включать ECC — коррекцию ошибок. Она автоматически исправляет одиночные битовые сбои. Проблема: производительность падает на 10%, видеопамять съедается на 6–6,5%. Для коммерческого ИИ это терпимо. Для игр — нет.

Решение	Эффективность	Цена
ECC (вкл.)	99% сбоев исправляются	-10% скорости, -6% VRAM
Новые GPU (RTX 5090, H100)	Автоматический ECC на кристалле	Дороже, но без ручной настройки
Изоляция в облаке	Снижает риск, но не гарантирует	Зависит от провайдера

ECC — не панацея. Исследователи показали, что множественные инверсии в разных банках памяти обходят защиту. Для критических систем (автономный транспорт, медицина) этого недостаточно.

Почему это серьёзно, а не просто баг

Основная угроза — скрытость. Вы можете не заметить, что модель «отравлена». В финансах это приведёт к ошибочным сделкам, в здравоохранении — к неправильному диагнозу. И всё это без взлома кода, на чистом железе.

Моё мнение: отрасль слишком долго полагалась на то, что видеопамять «надёжна». GPUHammer показал: плотность упаковки — враг целостности. Производителям стоит встраивать ECC по умолчанию, даже если это снижает маркер «быстрее». Иначе мы получим эпоху «умных, но ломаемых» нейросетей.

Коротко по делу: если вы работаете с ИИ в облаке — включите ECC. Если покупаете новый сервер — берите с аппаратной коррекцией. Экономия 10% скорости не стоит риска схлопотать модель-зомби.

Опубликовано: Мировое обозрение Источник