Российские учёные совершили прорыв в оптимизации ИИ-моделей — теперь их можно использовать без мощных серверов
Разработка, способная кардинально изменить ландшафт индустрии искусственного интеллекта, больше не является теоретической концепцией. Международная группа исследователей, включающая специалистов Yandex Research, НИУ ВШЭ, Массачусетского технологического института (MIT) и других ведущих центров, представила метод сжатия больших языковых моделей (LLM), который позволяет запускать их на обычных смартфонах и ноутбуках. Речь идет не просто об оптимизации, а о снятии ключевого барьера, десятилетиями удерживавшего ИИ в «серверной комнате». Теперь дорогостоящие графические ускорители и кластеры могут перестать быть обязательным условием для работы с передовыми нейросетями.
Квантование нового поколения: как работает HIGGS
В основе открытия лежит метод квантизации под названием Hadamard Incoherence with Gaussian MSE-optimal GridS (HIGGS). В отличие от существующих подходов, HIGGS не требует использования дополнительных данных для дообучения модели и не опирается на ресурсоемкие вычислительные процессы. Это принципиально меняет правила игры. Если раньше процесс подготовки модели к работе на мобильном устройстве мог занимать от нескольких часов до нескольких недель и требовал мощного сервера, то новая технология позволяет выполнить эту операцию непосредственно на самом устройстве — за считанные минуты.
Баланс качества и производительности
Главное достижение HIGGS — это способность сохранять высокое качество генерации текста при радикальном уменьшении размера модели. Разработчикам удалось найти оптимальную точку баланса между тремя критическими параметрами: точностью ответов, объемом занимаемой памяти и вычислительной сложностью. Это означает, что даже языковые модели с миллиардами параметров могут работать на устройствах с ограниченными ресурсами без заметной потери качества, что подтверждено тестами на популярных архитектурах Llama 3 и Qwen 2.5. Сравнительный анализ показал, что HIGGS превосходит такие известные методы, как 4-bit NormalFloat и Half-Quadratic Quantization, по соотношению «качество к размеру».
Эффект для рынка и разработчиков
Последствия появления HIGGS выходят далеко за рамки технического прогресса. Рынок ИИ-решений перестает быть прерогативой исключительно технологических гигантов. Небольшие компании, стартапы, университетские лаборатории и индивидуальные разработчики получают инструмент, который радикально снижает порог входа. Больше нет необходимости арендовать дорогостоящие серверные мощности или приобретать специализированное оборудование для тестирования и внедрения моделей. Это ускоряет инновационный цикл: от идеи до работающего прототипа на ноутбуке теперь можно пройти за один день, экономя время и значительные финансовые ресурсы.
Ранее основным препятствием для массового внедрения ИИ на периферийных устройствах (edge computing) была именно «тяжесть» моделей. Попытки сжать их приводили либо к критической потере качества, либо требовали сложной и длительной калибровки на серверах. HIGGS решает обе эти проблемы одновременно. Исследователи уже опубликовали код и документацию на открытых платформах, что позволяет любому разработчику немедленно начать интеграцию метода в свои проекты. Научная статья, описывающая алгоритм, прошла рецензирование и была принята на престижную конференцию NAACL 2025, что подтверждает высокий уровень работы.
Акцент на открытость и доступность инструментария — не случайность. Именно это способно превратить единичное технологическое достижение в отраслевой стандарт. В то время как крупные корпорации продолжают гонку за созданием все более мощных моделей, требующих все больше ресурсов, HIGGS предлагает альтернативный путь: сделать уже существующие модели по-настоящему доступными.


