OmniHuman-1 от ByteDance генерирует наиболее реалистичные дипфейки на сегодняшний день

08 фев 2025, 16:31

Новая разработка ByteDance, создателя TikTok, под названием OmniHuman-1 знаменует собой качественный скачок в технологиях синтеза видео. Система способна генерировать дипфейки, которые, по оценкам экспертов, являются на сегодняшний день едва ли не самыми реалистичными в мире. Однако главный вопрос, который возникает в связи с этим прорывом, — не в том, насколько хорошо технология работает, а в том, как она изменит баланс сил в борьбе с цифровыми подделками.

Новый стандарт реализма: только фото и голос

Для работы OmniHuman-1 требуется минимальный набор исходных данных: одно качественное изображение человека и аудиозапись его голоса. Алгоритм самостоятельно достраивает мимику, жесты и пластику тела, синхронизируя их со звуковой дорожкой. Демонстрационные ролики, опубликованные компанией, показывают, что система особенно преуспела в передаче эмоций и мелкой моторики — тех аспектов, которые ранее выдавали подделку. Некоторые огрехи остаются при моделировании сложных движений корпуса, но в целом визуальный ряд стал настолько убедительным, что отличить его от реальной съемки невооруженным глазом практически невозможно.

Принцип работы и «омни-условия»

и генерировать адекватную невербалику. Примечательно, что для обучения нейросети потребовалось всего 18 700 часов видеоматериала — относительно скромный объем, который, тем не менее, обеспечил «существенно меньшее» количество ошибок по сравнению с предыдущими поколениями дипфейк-моделей. OmniHuman-1 также умеет редактировать готовые видео, меняя, например, пропорции тела человека, что открывает путь к созданию полностью сфабрикованных событий с участием любых лиц, включая давно умерших людей.

Теневой рынок мошенничества: от политики до бытового обмана

Пока инженеры ByteDance не раскрывают коммерческие планы относительно OmniHuman-1, предполагая, что текущая версия может быть лишь промежуточным этапом, угроза злоупотреблений становится все более осязаемой. Дипфейки уже активно используются в ходе предвыборных кампаний в США для дискредитации оппонентов, а рядовые мошенники все чаще применяют их для выманивания денег у населения, подделывая голоса и видео знаменитостей или родственников. Призывы профильных экспертов по ИИ к введению законодательного регулирования отрасли и ограничению на создание и распространение такого контента пока не находят масштабной поддержки у властей.

Текущая ситуация напоминает гонку вооружений: пока одни разрабатывают методы обнаружения дипфейков, другие создают все более совершенные инструменты для их генерации. В 2023 году мир столкнулся с лавиной поддельных аудиозвонков, а в начале 2024 года — с вирусными видео, где политики якобы делали скандальные заявления. OmniHuman-1 поднимает планку настолько высоко, что старые методы детекции, основанные на поиске артефактов сжатия или нестыковок в освещении, могут стать бесполезными. Это означает, что обществу придется в срочном порядке вырабатывать новые механизмы верификации информации, где ключевую роль будет играть не доверие к картинке, а криптографическая подпись источника и цепочка распространения контента.

Опубликовано: Мировое обозрение Источник