Intel Labs представила нейросеть для генерации панорамных изображений с 360-градусным обзором
Революция в создании цифровых миров: Intel представила ИИ, способный «дорисовать» глубину и объем в текстовые описания. Новая латентная диффузионная модель LDM3D, разработанная Intel Labs совместно с Blockade Labs, впервые в отрасли позволяет генерировать не просто плоскую картинку, а полноценное 360-градусное панорамное изображение с точной картой глубины для каждого пикселя. Это означает, что из простого текстового запроса можно получить не фотографию, а готовую, детализированную виртуальную среду, пригодную для использования в метавселенных, играх и архитектурных визуализациях.
Как текстовые подсказки превращаются в объемные миры
В основе технологии лежит подход, кардинально отличающийся от стандартных генеративных моделей. Если обычные нейросети создают лишь двумерное изображение, LDM3D параллельно генерирует RGB-картинку и карту глубины. Это достигается за счет обучения на специальном наборе данных, созданном на базе подмножества из 10 000 образцов обширной базы LAION-400M. Для обеспечения высокой точности относительной глубины каждого пикселя исследователи применили собственную модель Dense Prediction Transformer (DPT).
Обучение проходило на суперкомпьютере Intel AI, использующем процессоры Intel Xeon и ускорители Intel Habana Gaudi AI. Результатом стал конвейер, который объединяет сгенерированное изображение и карту глубины в единую 360-градусную панораму. Такой подход не только повышает реализм, но и, по заявлению разработчиков, экономит память и ускоряет работу по сравнению с традиционными методами постобработки.
DepthFusion: мост между 2D-фотографией и виртуальной реальностью
Для демонстрации возможностей LDM3D исследователи создали приложение DepthFusion. Эта технология берет обычные 2D-снимки и, используя карты глубины, превращает их в интерактивные 360-градусные панорамы. В свою очередь, для генерации 3D-сред непосредственно из текста применяется среда визуального программирования TouchDesigner, что позволяет создавать интерактивный мультимедийный контент в реальном времени.
«Технология генеративного ИИ направлена на расширение человеческого творчества и экономию времени. Однако большинство сегодняшних моделей ограничены созданием 2D-изображений. LDM3D позволяет пользователям генерировать изображение и карту глубины из текстовой подсказки, обеспечивая более точную относительную глубину для каждого пикселя», — пояснил Васудев Лал, научный сотрудник Intel Labs.
Ранее создание подобных панорам требовало либо сложного 3D-моделирования, либо использования дорогостоящих камер с датчиками глубины. LDM3D и DepthFusion автоматизируют этот процесс, делая его доступным для широкого круга разработчиков и дизайнеров. Теперь текстовое описание «безмятежного тропического пляжа» или «научно-фантастической вселенной» может мгновенно превратиться в детализированную, готовую к использованию среду.
Это открывает путь к созданию инновационных приложений в самых разных отраслях: от виртуальных туров по недвижимости и интерактивных музейных экспозиций до реалистичных игровых локаций и инструментов для дизайна интерьеров. Возможность мгновенно «прочувствовать» глубину и масштаб сцены кардинально меняет взаимодействие с цифровым контентом.
Intel намерена продолжать исследования в области генеративного ИИ, делая упор на создание экосистемы с открытым исходным кодом. Сама модель LDM3D уже доступна сообществу через HuggingFace, что позволяет разработчикам по всему миру интегрировать технологию в свои проекты и экспериментировать с созданием нового поколения визуального контента.

