Российские учёные обучили нейросети восстанавливать трёхмерную структуру ДНК
Почему обычная микроскопия не видит половины генома: как ИИ дорисовывает 3D-структуру ДНК
Ученые Сколтеха сделали то, что раньше казалось магией: заставили генеративные нейросети восстанавливать недостающие данные о трехмерной укладке хромосом. Теперь, чтобы понять пространственную организацию генома, не нужно метить каждую точку. Алгоритм DDRM сам дорисовывает картину по фрагментам. И это не фантастика — эксперимент на 21-й хромосоме человека подтвердил точность выше, чем у классических методов.
В чем суть? Геном — не плоский текст, а трехмерный клубок. От того, как уложена нить ДНК, зависит, какие гены работают, а какие спят. Изучать эту архитектуру пытаются много лет, но главный инструмент — FISH (флуоресцентная гибридизация in situ) — требует метить участки ДНК флуоресцентными зондами. Проблема: пометить все локусы технически невозможно. Получаются дырки в данных. И эти дырки — настоящая головная боль для биоинформатиков.
И вот российская группа впервые применила генеративный ИИ, чтобы заполнить пробелы. Идея простая: если нейросеть умеет дорисовывать недостающие части на фотографиях, почему бы не дать ей задачу восстановить межгенные расстояния? Адаптировали три архитектуры: DDPM, DDRM и DDNM. Лучше всех справилась DDRM — она превзошла традиционные биоинформатические методы по точности.
Что не так с обычным FISH?
FISH работает как подсветка. Ученые берут пробу клеток, добавляют зонды, которые связываются с конкретными участками ДНК. Проблема: количество доступных зондов ограничено. На 21-й хромосоме длиной 2 миллиона нуклеотидов можно одновременно «подсветить» не больше пары десятков участков. Остальные остаются в тени. А ведь нам нужно видеть всю картину — как гены переплетаются, какие пары сближаются, где образуются петли.
Без этой информации невозможно понять причины наследственных патологий. Например, некоторые мутации «выключают» ген только из-за того, что он оказался в неудобном месте хромосомной укладки. Фармацевтика тоже упирается в потолок: новые лекарства требуют точного знания, какие участки ДНК взаимодействуют друг с другом.
Как нейросеть дорисовывает геном: пошаговый совет
Процесс похож на реставрацию старой фотографии. Только вместо пикселей — расстояния между генами. Вот что делает алгоритм:
- Шаг 1. Берет известные межгенные дистанции — те, что удалось измерить методом FISH. Это как обрывки карты.
- Шаг 2. Обучается на структуре изученных фрагментов, выявляет закономерности укладки хромосом.
- Шаг 3. Генерирует недостающие расстояния, соблюдая физические ограничения — нить ДНК не может самопересекаться.
- Шаг 4. Сверяет результат с контрольными точками (часть данных была намеренно удалена для проверки). DDRM восстановил более 90% удаленной информации.
«Определение пространственных координат генов превращается в решаемую математическую задачу при наличии достаточного количества измеренных межгенных дистанций. Наша команда впервые продемонстрировала возможность применения генеративных алгоритмов в этой области», — Кирилл Половников, старший преподаватель Сколтеха.
Сравнение методов: FISH против ИИ-реконструкции
| Параметр | Традиционный FISH | Генеративный ИИ (DDRM) |
|---|---|---|
| Полнота данных | Только измеренные локусы (до 20-30%) | Восстановление до 100% карты |
| Скорость | Дни на подготовку и съемку | Минуты на генерацию после обучения |
| Точность | Высокая для маркированных участков | Выше классических методов экстраполяции |
| Стоимость | Дорогие реагенты и оборудование | Только вычислительные ресурсы |
| Применимость | Ограничена числом зондов | Любые участки генома при наличии базы известных дистанций |
Недавно я заметил любопытную параллель: точно такие же генеративные модели (DDPM, DDRM) используют для восстановления старых фотографий и удаления шума с аудиозаписей. Но перенос этой идеи на пространственную организацию хромосом — нетривиальный шаг. Физика укладки ДНК намного сложнее, чем простая двумерная картинка. Тем не менее, результат говорит сам за себя.
Мое мнение: это не очередная «нейросеть для всего», а прорыв именно в биоинформатике. Традиционные методы (например, интерполяция сплайнами) дают гладкую, но биологически бессмысленную картинку. Генеративный подход же учитывает сложные нелинейные зависимости — петли, топологические ассоциированные домены (TADs), слои компактизации. Без ИИ мы бы еще годы собирали геном по крупицам.
Резюме от автора: Генеративные нейросети перестают быть игрушкой для рисования котиков. Они уже сейчас позволяют увидеть невидимое — трехмерную архитектуру генома. В ближайшие 5 лет такой подход станет стандартом в фармацевтике и диагностике наследственных заболеваний. И главное — он работает на реальных данных, а не только в презентациях.

