Новая модель ИИ с открытым исходным кодом, более легкая, но такая же мощная, как и крупные модели OpenAI
Исследователи из некоммерческого института Allen Institute for Artificial Intelligence (Ai2) представили семейство мультимодальных моделей Molmo, которые бросают вызов гегемонии закрытых гигантов вроде GPT-4o. Главный сюрприз: их эффективность обусловлена не объемом данных, а их безупречным качеством. Пока индустрия гоняется за миллиардами параметров, Ai2 доказывает, что тщательно отобранные 600 000 изображений могут работать не хуже, чем хаотичные петабайты информации из интернета. Это открытие способно кардинально изменить экономику разработки ИИ, сместив акцент с масштаба на точность.
Секрет Molmo: ручная работа вместо «мусорного» датасета
Ключевое отличие Molmo от конкурентов — подход к обучению. Вместо того чтобы скармливать алгоритму миллиарды необработанных картинок из сети, команда Ai2 вручную аннотировала каждый кадр. Аннотаторы не просто описывали изображения текстом, а проговаривали их вслух, что затем преобразовывалось в код. Это позволило резко сократить вычислительные затраты и минимизировать «шум» в данных, который, по словам директора по исследованиям Ai2 Анируддхи Кембхави, является основной причиной галлюцинаций у крупных моделей. Самая мощная версия Molmo (72 млрд параметров) была обучена всего на 600 000 изображений, тогда как закрытые аналоги используют датасеты в тысячи раз больше.
Превосходство в точности: как Molmo обошел GPT-4o и Gemini
В бенчмарках по анализу изображений, графиков и документов модель с 72 млрд параметров показала результаты выше, чем у GPT-4o, Claude 3.5 и Gemini 1.5. Molmo не просто распознает объекты, но и точно определяет их пиксельные координаты на изображении. В тестовой демонстрации модель безошибочно подсчитала шезлонги, видимые из окна, хотя и не справилась с определением парковочных зон. Разработчики утверждают, что такая точность открывает путь к взаимодействию со сложными интерфейсами — например, для автоматического бронирования билетов по скриншоту.
Пока не ясно, как Ai2 будет решать вопросы безопасности, неизбежные при открытом доступе. Однако сам факт, что модель с открытым кодом обходит проприетарных монстров на узких задачах, заставляет пересмотреть стратегию развития ИИ: возможно, будущее не за гигантскими вычислительными кластерами, а за качественными данными и открытой коллаборацией.














