На самом деле существует 9 видов осадков: ИИ проанализировал миллионы частиц ради самого точного прогноза погоды
Почему погода врет: как алгоритм UMAP учится отличать снег от дождя
Прогнозы осадков — штука капризная. Особенно при температуре около нуля. От -3° до +5°C компьютер легко путает снег с дождем. А последствия — дороги в ледяной корке, лавины, неверные запасы воды. Вроде бы простой вопрос: что падает с неба? Но внутри скрыта сложнейшая головоломка из 12 переменных.
Ученые из Университета Макгилла нашли способ её решить. Они применили алгоритм UMAP — метод, который обычно используется в биоинформатике. И получили четкую карту всех типов осадков. Никакой магии. Только математика и девять лет наблюдений.
Простая проверка температуры — грубейшая ошибка. При нуле градусов может идти и ледяной дождь, и мокрый снег, и даже град. Модели, которые смотрят только на столбик термометра, обречены врать.
Сложность данных: 12 параметров и девять лет наблюдений
Чтобы отличить снежинку от капли, нужно знать её размер, форму, скорость падения, плотность. Плюс температура, влажность, общее число частиц. Для каждого пятиминутного промежутка получается 12 показателей. Данные собирали с семи станций в США и Канаде целых девять лет. Итоговый массив — гигантский клубок взаимосвязей.
Обычные линейные методы пасуют. Они видят только прямые зависимости. А здесь всё нелинейно: при одной температуре могут быть разные типы осадков. Нужен был инструмент, который найдет скрытые закономерности, не потеряв структуру.
UMAP и HDBSCAN: как сжать информацию без потерь
UMAP (Uniform Manifold Approximation and Projection) — алгоритм снижения размерности. Он берет 12 измерений и сжимает их до трех главных осей. Похоже на то, как вы складываете вещи в чемодан: сохраняете самое важное, выбрасывая лишнее. Только UMAP делает это умно — сохраняет изогнутые, непрямые связи.
После сжатия данные обрабатываются алгоритмом кластеризации HDBSCAN. Он группирует точки на карте в компактные кластеры. Итог — девять четких групп. Каждая соответствует определенному типу осадков.
Личное наблюдение автора: я часто замечал, что прогноз погоды в межсезонье — лотерея. Синоптики говорят «дождь со снегом», а на деле выпадает крупа или ледяные иглы. Оказывается, внутри этой категории скрыто как минимум три разных состояния. UMAP их наконец-то разделил.
Результат: девять типов осадков и три смысловые оси
Три новые оси, полученные после сжатия, получили четкое физическое значение:
- Фаза осадков — от жидкого дождя до твердого снега.
- Интенсивность — от легкой мороси до ливня.
- Форма частиц — от идеальной сферы до сложных дендритов.
На этой трехмерной карте ученые выделили девять кластеров. Это не только чистый дождь и снег, но и пять видов смешанных осадков: мокрый снег, ледяная крупа, снежная крупа, переохлажденный дождь, ледяной дождь. Алгоритм показал, как один тип плавно перетекает в другой при изменении погоды. Например, как дождь при похолодании сначала становится мокрым снегом, потом крутой, а затем — пушистым снегом.
Сравнение: традиционный подход против UMAP
| Параметр | Традиционный метод (по температуре) | Метод UMAP + HDBSCAN |
|---|---|---|
| Число распознаваемых типов | 3–4 (дождь, снег, град, ледяной дождь) | 9 (включая 5 смешанных) |
| Учет формы частиц | Нет | Да (третья ось) |
| Точность при 0°C | Низкая (ошибка до 50%) | Высокая (кластеры чётко разделены) |
| Возможность отслеживать эволюцию | Нет | Да (плавные переходы на карте) |
Микро-инструкция: как это работает (пошагово)
1. Собираются данные с диздрометров и метеостанций за 5 минут: 12 параметров.
2. Алгоритм UMAP сжимает 12 измерений в 3 главные оси, сохраняя все взаимосвязи.
3. HDBSCAN находит на полученной 3D-карте плотные группы точек — кластеры.
4. Каждому кластеру присваивается физический тип осадков по средним значениям.
5. Новые наблюдения проецируются на эту карту — и мы сразу видим, какой тип сейчас.
Практическая польза: спутники и модели климата
Теперь спутники смогут сверять свои данные с этой картой. Для Арктики, где нет наземных станций, это прорыв. Погодные модели получат не жесткое правило «ниже нуля — снег», а вероятностные распределения. Они будут точнее предсказывать снежный покров, паводки и запасы пресной воды.
Но самое интересное — это масштабируемость. Метод применим не только к осадкам, но и к любым многомерным данным: качеству воздуха, океанским течениям, распространению загрязнений. UMAP и HDBSCAN — универсальные ключи к сложным наборам данных.
Алгоритм показал: смешанные осадки — не свалка, а упорядоченный набор физических состояний. Просто раньше мы не умели их различать.
Резюме от автора
Прогноз погоды станет точнее не потому, что компьютеры стали мощнее. А потому, что мы научились смотреть на данные иначе. UMAP вытащил структуру из хаоса. Теперь дело за внедрением — и, возможно, через пару лет вы перестанете удивляться внезапному снегу в апреле.














