Новая нейросеть Fugatto от Nvidia может синтезировать звуки, которых никогда не существовало в природе

27 ноя 2024, 23:18

Компания Nvidia представила систему искусственного интеллекта Fugatto, которая способна не просто копировать, а генерировать звуки, не существовавшие ранее. В отличие от традиционных моделей, работающих с готовыми сэмплами, Fugatto создает аудио на основе текстового описания, комбинируя речь, музыку и шумовые эффекты. Это открывает новые возможности для индустрии развлечений, но ставит вопросы о границах творчества и роли человека в этом процессе.

Как работает генерация звука нового поколения

В основе Fugatto лежит метод синтетического обучения и композиционного логического вывода. Модель обучена на массиве из миллионов аудиозаписей с детальными текстовыми аннотациями. Это позволяет системе не просто распознавать, но и понимать взаимосвязи между акустическими характеристиками и их вербальным описанием. В результате Fugatto способна изолировать и комбинировать отдельные параметры звука — тембр, высоту, темп, динамику — по команде пользователя.

Практические сценарии: от видеоигр до рекламы

Наиболее перспективными сферами применения технологии выглядят интерактивные медиа. В видеоиграх Fugatto может динамически менять звуковой фон в зависимости от действий игрока, создавая уникальную атмосферу каждого прохождения. В рекламной индустрии модель способна генерировать персонализированные аудиодорожки, адаптируя музыкальное сопровождение и голос диктора под культурные особенности целевой аудитории.

Например, пользователь может запросить «звук саксофона, который лает, как собака», и система сгенерирует именно такой аудиофайл. Возможность создавать подобные гибриды, которые невозможно записать в реальности, расширяет палитру звукорежиссеров и композиторов.

Инструмент для творца, а не замена

Музыкальный продюсер Идо Змишлани, комментируя возможности Fugatto, подчеркивает, что модель не заменяет человека, а предоставляет ему новый инструмент. Fugatto берет на себя рутинную работу по поиску и комбинированию сэмплов, позволяя автору сосредоточиться на художественном замысле. Это сравнимо с появлением синтезаторов, которые не упразднили музыкантов, а дали им новые способы самовыражения.

До появления подобных систем звуковой дизайн в основном опирался на библиотеки готовых семплов и ручную обработку. Процесс создания нестандартного звука требовал значительных временных затрат и высокой квалификации инженера. Fugatto автоматизирует этот этап, делая сложные звуковые эксперименты доступными для более широкого круга специалистов.

С внедрением генеративных аудиомоделей индустрия столкнется с пересмотром стандартов авторского права. Если звук создан искусственным интеллектом на основе миллионов чужих записей, кому принадлежат права на результат? Кроме того, открывается вопрос о ценности ручного труда звукорежиссера: по мере того как ИИ будет учиться создавать все более качественные звуки, роль человека может сместиться от технического исполнителя к художнику-концептуалисту, формулирующему идеи для модели.

Опубликовано: Мировое обозрение Источник