В DeepSeek придумали новый способ экономить ресурсы при обучении ИИ
Почему DeepSeek переписывает правила обучения ИИ: разбор метода mHC
Китайская компания DeepSeek под конец 2025 года выложила статью, которая может перевернуть подход к обучению больших нейросетей. Речь о методе mHC (Manifold-Constrained Hyper-Connections) — гиперсвязях с ограничением на многообразие. Самое интересное: автором работы значится сам глава компании Лян Вэньфэн. Значит, тема для них — приоритетная.
Метод решает давнюю болячку: как обучать глубокие сети, не тратя бешеные ресурсы на память и вычисления. И, судя по тестам, работает. Давайте разбираться по порядку.
Проблема вырождения сигнала — и как её лечили раньше
С 2015 года доминирующая архитектура глубокого обучения — ResNet (остаточные сети). Она использует так называемые остаточные связи: информация передаётся через слои напрямую, минуя некоторые преобразования. Это позволяет обучать сети с сотнями слоёв. Но есть нюанс: чем больше слоёв, тем сильнее вырождается обучающий сигнал. Он превращается в «шум», одинаковый для всех слоёв. Информативность падает.
В 2024 году исследователи ByteDance предложили Hyper-Connections (HC) — модификацию ResNet, которая расширяет поток остаточных данных. HC повышает сложность сети без роста вычислительной нагрузки на отдельные блоки. Отлично? Не совсем. Как указывают в DeepSeek, у HC резко растёт потребление памяти. Скажем, при увеличении числа слоёв объём памяти на активации удваивается. И это мешает масштабировать такие сети до очень больших размеров.
«Hyper-Connections решают проблему вырождения, но создают новую — нехватку памяти при масштабировании. mHC устраняет это узкое место». — из работы DeepSeek
Что предложил DeepSeek: mHC — гиперсвязи с ограничением
Суть метода mHC в том, чтобы наложить дополнительное условие — ограничение на многообразие (manifold constraint). Простыми словами: вместо того чтобы хранить все расширенные потоки отдельно, метод проецирует их на пространство меньшей размерности. Это позволяет сохранить преимущества HC (борьба с вырождением), но резко снизить требования к памяти.
DeepSeek протестировала mHC на моделях с 3, 9 и 27 миллиардами параметров. Результаты: вычислительная нагрузка не выросла по сравнению с обычным HC, а вот расход памяти практически не увеличился при добавлении новых слоёв. Для сравнения: у стандартных HC память росла линейно, у mHC — почти константа.
Сравнительная таблица: HC против mHC
| Параметр | Hyper-Connections (HC) | Manifold-Constrained HC (mHC) |
|---|---|---|
| Изменение вычислительной нагрузки | Не увеличена | Не увеличена |
| Рост памяти при добавлении слоёв | Линейный | Практически отсутствует |
| Качество обучения (loss) | Отличное | Не хуже |
| Сложность реализации | Средняя | Чуть выше (требует ограничения) |
Как видите, главный выигрыш — по памяти. В эпоху, когда карты A100 стоят десятки тысяч долларов, экономия памяти означает возможность обучать более глубокие сети на том же железе. Или сократить количество ускорителей для модели заданной глубины.
Микро-инструкция: как использовать mHC на практике
Если вы разработчик нейросетей (скажем, на PyTorch) и хотите попробовать mHC, вот короткий план:
- 1. Замените стандартный Residual-блок на Hyper-Connection блок (есть реализации в открытых репозиториях).
- 2. Добавьте слой проецирования на многообразие (Manifold Projection) — это дополнительная линейная операция после каждого блока.
- 3. Обучите модель с тем же budget по FLOPs. Ожидайте снижения памяти на ~20-30% при той же точности.
- 4. Если работаете с обучением на нескольких GPU, уменьшится объём данных, которые нужно обменивать.
Важный момент: mHC не даёт прироста точности «из коробки», но позволяет нарастить глубину сети без взрывного роста потребления памяти. А значит — можно построить более качественную модель при фиксированном бюджете.
Личное наблюдение автора. Недавно я заметил, что китайские ИИ-компании всё чаще публикуют открытые исследования, причём не второстепенные, а фундаментальные. DeepSeek — яркий пример. Их стратегия: сначала поделиться наработками, а потом выпустить коммерческий продукт, который эти наработки использует. Это резко контрастирует с закрытостью некоторых западных гигантов. И даёт китайским командам быстрый фидбэк от сообщества.
Мнение: почему это важно для всего рынка ИИ
Метод mHC — не просто научная работа. Это практический инструмент для экономии ресурсов. Если раньше для обучения сети с сотней миллиардов параметров требовались тысячи GPU, то с mHC можно обойтись меньшим числом, не жертвуя качеством. Особенно это критично для средних лабораторий и стартапов — они получают шанс конкурировать с гигантами.
Кроме того, сама идея модификации гиперсвязей с ограничением на многообразие может быть применена и в других архитектурах, например в трансформерах. DeepSeek намекает, что их новая модель (ожидается в феврале) будет построена на этом принципе. Если так, то индустрия получит ещё один рабочий паттерн для снижения затрат.
«Эффективность обучения — вот главный вызов современного ИИ. Не нужно больше данных или вычислений, нужно умно использовать то, что есть. mHC — шаг в этом направлении.»
Резюме от автора: статья DeepSeek — не про теорию, а про инженерию. Они нашли способ обойти ограничение по памяти в Hyper-Connections, не потеряв их преимуществ. Если новая модель подтвердит масштабируемость mHC до сотен миллиардов параметров, мы увидим сдвиг: архитектура 2025 года станет более «лёгкой» на память, и это позволит обучать ИИ быстрее и дешевле.















