Российские учёные совершили прорыв в оптимизации ИИ-моделей — теперь их можно использовать без мощных серверов

11 апр 2025, 16:51

Разработка, способная кардинально изменить ландшафт индустрии искусственного интеллекта, больше не является теоретической концепцией. Международная группа исследователей, включающая специалистов Yandex Research, НИУ ВШЭ, Массачусетского технологического института (MIT) и других ведущих центров, представила метод сжатия больших языковых моделей (LLM), который позволяет запускать их на обычных смартфонах и ноутбуках. Речь идет не просто об оптимизации, а о снятии ключевого барьера, десятилетиями удерживавшего ИИ в «серверной комнате». Теперь дорогостоящие графические ускорители и кластеры могут перестать быть обязательным условием для работы с передовыми нейросетями.

Квантование нового поколения: как работает HIGGS

В основе открытия лежит метод квантизации под названием Hadamard Incoherence with Gaussian MSE-optimal GridS (HIGGS). В отличие от существующих подходов, HIGGS не требует использования дополнительных данных для дообучения модели и не опирается на ресурсоемкие вычислительные процессы. Это принципиально меняет правила игры. Если раньше процесс подготовки модели к работе на мобильном устройстве мог занимать от нескольких часов до нескольких недель и требовал мощного сервера, то новая технология позволяет выполнить эту операцию непосредственно на самом устройстве — за считанные минуты.

Баланс качества и производительности

Главное достижение HIGGS — это способность сохранять высокое качество генерации текста при радикальном уменьшении размера модели. Разработчикам удалось найти оптимальную точку баланса между тремя критическими параметрами: точностью ответов, объемом занимаемой памяти и вычислительной сложностью. Это означает, что даже языковые модели с миллиардами параметров могут работать на устройствах с ограниченными ресурсами без заметной потери качества, что подтверждено тестами на популярных архитектурах Llama 3 и Qwen 2.5. Сравнительный анализ показал, что HIGGS превосходит такие известные методы, как 4-bit NormalFloat и Half-Quadratic Quantization, по соотношению «качество к размеру».

Эффект для рынка и разработчиков

Последствия появления HIGGS выходят далеко за рамки технического прогресса. Рынок ИИ-решений перестает быть прерогативой исключительно технологических гигантов. Небольшие компании, стартапы, университетские лаборатории и индивидуальные разработчики получают инструмент, который радикально снижает порог входа. Больше нет необходимости арендовать дорогостоящие серверные мощности или приобретать специализированное оборудование для тестирования и внедрения моделей. Это ускоряет инновационный цикл: от идеи до работающего прототипа на ноутбуке теперь можно пройти за один день, экономя время и значительные финансовые ресурсы.

Ранее основным препятствием для массового внедрения ИИ на периферийных устройствах (edge computing) была именно «тяжесть» моделей. Попытки сжать их приводили либо к критической потере качества, либо требовали сложной и длительной калибровки на серверах. HIGGS решает обе эти проблемы одновременно. Исследователи уже опубликовали код и документацию на открытых платформах, что позволяет любому разработчику немедленно начать интеграцию метода в свои проекты. Научная статья, описывающая алгоритм, прошла рецензирование и была принята на престижную конференцию NAACL 2025, что подтверждает высокий уровень работы.

Акцент на открытость и доступность инструментария — не случайность. Именно это способно превратить единичное технологическое достижение в отраслевой стандарт. В то время как крупные корпорации продолжают гонку за созданием все более мощных моделей, требующих все больше ресурсов, HIGGS предлагает альтернативный путь: сделать уже существующие модели по-настоящему доступными.

Опубликовано: Мировое обозрение Источник