Xiaomi выпустила «самую мощную LLM с открытым исходным кодом для программной инженерии» — MiMo-V2-Flash
Почему новая ИИ-модель Xiaomi может изменить правила игры: честный разбор MiMo-V2-Flash
Xiaomi выкатила открытую ИИ-модель, которая уже заставила многих пересмотреть списки лидеров. MiMo-V2-Flash — не просто очередной «решатель задач». Это гибрид, который сочетает скорость молнии и точность, близкую к лучшим закрытым моделям. Причём доступна она всем — бесплатно, под лицензией MIT.
Архитектура без компромиссов: как MiMo-V2-Flash умудряется быть быстрой и точной
Модель построена на архитектуре «смеси экспертов». Всего у неё 309 млрд параметров, но для каждого запроса активируются лишь 15 млрд. Это как если бы у вас был штат из 309 суперспециалистов, но на работу каждый раз выходило только 15 самых нужных. Остальные молчат — экономят энергию.
Но главная фишка — гибридный механизм внимания. Представьте: модель смотрит на текст и бОльшую часть времени видит только окрестности текущего токена (скользящее окно). Но каждые 5 шагов она поднимает голову и оценивает весь контекст целиком (глобальное внимание). Соотношение — 1:5. Это даёт скорость почти как у чистого окна, а точность — как у полного обзора.
Скорость генерации — 150 токенов в секунду. Субъективно это «мгновенно». Для сравнения: многие открытые модели выдают 30–50 токенов. Xiaomi добилась этого ещё и за счёт многотокенного предсказания (MTP). Модель училась генерировать сразу по 2,8–3,6 токена параллельно, что ускоряет вывод в 2–2,6 раза. Крутой инженерный трюк.
Моё мнение: По скорости MiMo-V2-Flash реально обходит почти все открытые аналоги. Для продакшена это значит меньшие задержки и более дешёвый API. Например, через инфраструктуру Xiaomi стоимость — $0,1 за миллион входных токенов и $0,3 за выходные. Это в разы дешевле, чем у лидеров рынка.
Бенчмарки: где модель порвала конкурентов
Xiaomi заявляет, что MiMo-V2-Flash заняла первое место среди открытых моделей в SWE-bench Verified и Multilingual — тестах на умение программировать. На SWE-Bench Verified — 73,4%. Это почти уровень OpenAI GPT-5-High. В математическом AIME 2025 она вошла в топ-2 открытых моделей. В междисциплинарном GPQA-Diamond — туда же.
Особенно впечатляют результаты в агентных сценариях. В τ²-Bench для телекома — 95,3 балла, для ритейла — 79,5, для авиакомпаний — 66,0. Для поискового агента BrowseComp — 45,4 балла, а с управлением контекстом — 58,3.
| Тест | Результат MiMo-V2-Flash | Сравнение с лидерами |
|---|---|---|
| SWE-Bench Verified | 73,4% | На уровне OpenAI GPT-5-High |
| SWE-Bench Multilingual | 71,7% | Лучшая открытая модель |
| AIME 2025 (математика) | Топ-2 | Сравнима с DeepSeek V3.2 |
| BrowseComp (агент) | 45,4 / 58,3 | Выше K2 Thinking в длинном контексте |
Как учили: дистилляция знаний, которая переворачивает процесс
Вместо обычного SFT/RL Xiaomi применила Multi-Teacher Online Policy Distillation (MOPD). Грубо говоря, несколько моделей-наставников в реальном времени проверяют ответы ученика и не просто говорят «правильно/неправильно», а разбирают ошибки. Ученик при этом анализирует собственные выводы, а не действует по шаблонам.
Что это даёт? Расход вычислительных ресурсов — всего 2% от традиционного обучения с подкреплением. А после обучения «ученик» сам может стать наставником. То есть модель самосовершенствуется непрерывно. Личное наблюдение: недавно я заметил, как эта модель генерирует полноценные HTML-страницы в один клик. Субъективно — качество вёрстки на уровне среднего фронтендера. Для вайб-кодинга (интеграции с Claude Code, Cursor, Cline) это настоящий подарок.
Как попробовать: микро-инструкция для разработчика
- Скачайте веса модели на Hugging Face (лицензия MIT — можно использовать в коммерции).
- Для инференса используйте фреймворк SGLang — код уже адаптирован.
- Если не хотите разворачивать сами — попробуйте через Google Cloud AI Studio или API Xiaomi.
- Контекстное окно — 256 000 токенов. Этого хватит на сотни раундов диалога с агентом.
- Цена API Xiaomi: $0,1 за млн входных / $0,3 за млн выходных токенов.
Резюме: почему стоит обратить внимание
MiMo-V2-Flash — не просто очередная open-source модель. Это работающий кандидат на замену дорогим закрытым API в задачах программирования, математики и агентных сценариях. Она быстрая, дешёвая и открытая. Если Xiaomi продолжит развивать MOPD, через полгода мы можем увидеть модели, которые учатся сами, тратя копейки на вычислительные ресурсы. Я бы присмотрелся к этой нейросети уже сейчас — особенно если вы строите ИИ-агентов или автоматизируете разработку.















