Члены коллегии Минобороны России возложили венки к Могиле Неизвестного Солдата

08 май 2023, 13:45

32 410

Российские разработчики представили нейросеть, способную в режиме реального времени синтезировать голос по тексту и изображению, что кардинально меняет подход к созданию видеоконтента и маркировке дипфейков. Внедрение этой технологии, по мнению аналитиков, может привести к пересмотру законодательства о цифровых следах уже в ближайшие два года.

Искусственный интеллект учится говорить: как работает новая модель

В основе разработки лежит мультимодальная архитектура, объединяющая обработку визуальной и текстовой информации. Нейросеть анализирует не только написанный пользователем сценарий, но и портрет человека, чьим голосом необходимо озвучить материал. В результате система генерирует аудиодорожку, синхронизированную с артикуляцией на изображении, с точностью до мимических микро-движений.

От анимации до кинопроизводства: сценарии применения

Технология уже нашла применение в нескольких индустриях. В игровой студии из Екатеринбурга с её помощью автоматизировали озвучку неигровых персонажей (NPC), сократив время пост-продакшна на 70%. В сфере онлайн-образования нейросеть позволяет генерировать лекции на разных языках, используя один и тот же видеоряд и голос преподавателя. Отдельный запрос поступил от маркетплейсов: алгоритм тестируют для создания персонализированных видеообзоров товаров, где виртуальный консультант обращается к покупателю по имени.

Оборотная сторона синтеза: риски и механизмы защиты

Несмотря на очевидные коммерческие перспективы, эксперты по кибербезопасности бьют тревогу. Качество синтеза достигло порога, когда неспециалист не способен отличить реальную запись от сгенерированной. В ответ на это разработчики встроили в модель «водяной знак» — скрытый цифровой код, изменяющий частотные характеристики сигнала. Однако хакерские группы уже тестируют методы удаления этой маркировки. Создатели алгоритма подчеркивают: система не предназначена для работы с реальными людьми без их согласия. Все тестовые образцы, демонстрирующие возможности нейросети, основаны на синтезированных изображениях и голосах, сгенерированных другой ИИ-моделью. Весной прошлого года аналогичные разработки представили компании из США и Китая, однако российская версия отличается меньшими требованиями к вычислительным мощностям. Предыдущие попытки регулирования контента, созданного нейросетями, в России ограничивались рекомендациями по маркировке, но теперь, с появлением коммерчески доступных инструментов синтеза, законодатели готовят пакет поправок к закону «О средствах массовой информации». Потенциальное ужесточение правил может затронуть не только крупные корпорации, но и блогеров, использующих синтезированные голоса для начитки рекламных интеграций.

Опубликовано: Мировое обозрение Источник