OpenAI обещает прорыв в создании видео с помощью искусственного интеллекта

28 окт 2024, 11:36

Исследователи OpenAI представили модель, способную генерировать видео в 50 раз быстрее аналогов. Прорывная архитектура sCM (Stochastic Consistency Model) сокращает процесс создания ролика с сотен шагов до двух, открывая путь для генеративного ИИ в реальном времени. Эта технология может кардинально изменить индустрию контента, снизив порог входа для создателей и радикально сократив энергопотребление.

Как работает ускорение: от сотен итераций к двум шагам

Традиционные диффузионные модели, лежащие в основе большинства современных генераторов изображений и видео, работают по принципу последовательного «очищения» шума. Алгоритм берет случайный набор пикселей и постепенно, шаг за шагом, приближает его к целевому изображению. Для видео этот процесс многократно усложняется: необходимо синхронизировать движение объектов, сохранять сцену и обеспечивать плавность переходов. Каждый такой шаг требует значительных вычислительных ресурсов, что делает генерацию длительного ролика делом нескольких минут даже на мощных серверах. Модель sCM, разработанная инженерами Ченгом Лу и Янгом Сонгом, решает эту проблему кардинально. Вместо того чтобы проходить через весь «маршрут» очистки, нейросеть обучается предсказывать финальный результат напрямую из начального шума. Фактически, система делает один «грубый» проход, а затем один «корректирующий». Этого оказывается достаточно, чтобы получить результат, сравнимый по качеству с продуктом многошаговых моделей, но за доли секунды.

Технические детали и доступность

Для достижения такой скорости sCM использует более 1,5 миллиарда параметров. Однако ключевое преимущество — это возможность работы на стандартном промышленном оборудовании. В тестах модель демонстрировала высокую производительность на графических процессорах NVIDIA A100, которые уже широко распространены в дата-центрах. Это означает, что для внедрения технологии не потребуется создавать специализированные и дорогостоящие вычислительные кластеры, что делает её доступной для малого и среднего бизнеса.

Рынок и перспективы: что изменится с появлением sCM

Потенциальное применение модели OpenAI выходит далеко за рамки простой генерации роликов. Прежде всего, это сдвиг в парадигме создания контента. Если раньше производство качественного видео требовало часов рендеринга и мощного программного обеспечения, то теперь создатели смогут получать результат за секунды. Это открывает новые горизонты для динамического маркетинга, где рекламный ролик может быть сгенерирован под конкретного пользователя в реальном времени, и для интерактивного образования. Энергоэффективность новой архитектуры также является критическим фактором. Современные дата-центры тратят колоссальные объемы энергии на обучение и инференс генеративных моделей. Снижение количества вычислительных шагов в 50 раз напрямую ведет к пропорциональному снижению энергопотребления. В условиях ужесточения экологических норм и роста стоимости электроэнергии это делает sCM коммерчески привлекательной альтернативой. Параллельно с этим открывается дорога для развития приложений дополненной (AR) и виртуальной реальности (VR). Текущие системы часто страдают от задержек при генерации окружения. Возможность генерировать фотореалистичное видео в реальном времени позволит создавать truly immersive среды, где виртуальные объекты будут неотличимы от реальных, а сцены будут меняться мгновенно, реагируя на действия пользователя. За последние два года рынок генеративного ИИ столкнулся с парадоксом: качество изображений и видео росло экспоненциально, но скорость генерации оставалась узким местом. Такие сервисы, как Sora от OpenAI, демонстрировали впечатляющие результаты, но требовали минут на создание даже короткого клипа. Модель sCM — это прямой ответ на этот запрос индустрии. Она не просто улучшает старую архитектуру, а предлагает новый математический подход к выборке данных. Это ставит под вопрос необходимость использования сложных многошаговых диффузионных моделей в задачах, где скорость критична. Вероятно, мы станем свидетелями перехода к гибридным системам, где sCM будет использоваться для быстрой генерации черновика, а классические модели — для финальной полировки сложных сцен.

Опубликовано: Мировое обозрение Источник