Новый ИИ Fugatto от Nvidia может синтезировать звуки, которых никогда не существовало в природе

27 ноя 2024, 16:04

Искусственный интеллект перестал быть просто имитатором реальности. Новая разработка Nvidia, языковая модель Fugatto, переводит генерацию звука из плоскости копирования в плоскость конструирования невозможного. Технология способна не только воспроизвести звук саксофона, но и заставить его «лаять», смешивая тембры инструментов с голосами животных или спецэффектами. Это меняет правила игры для креативных индустрий, где отныне границей становится лишь фантазия, а не библиотека сэмплов.

Архитектура безграничного синтеза

В основе Fugatto лежит принципиально иной подход к обучению. Вместо простого запоминания акустических паттернов модель анализирует миллионы размеченных аудиозаписей, устанавливая причинно-следственные связи между физическим звуком и его семантическим описанием. Это позволяет системе оперировать не готовыми файлами, а абстрактными характеристиками: высотой тона, тембром, ритмом. Именно комбинирование на уровне логического вывода, а не поиск по базе данных, дает возможность создавать гибридные звуковые объекты, не имеющие аналогов в природе.

Как работает «звуковая алхимия»

Секрет кроется в мультимодальном синтезе. Пользователь может задать модели запрос вроде «звук дождя, который играет джаз» или «шаги великана по стеклянной крошке». Fugatto разлагает эти абстракции на составляющие, извлекает нужные атрибуты из своей базы знаний и собирает их в единый аудиопоток. Это не мэшап и не наложение дорожек — это создание новой материи, где каждая частота и гармоника подчинены единому замыслу.

Сдвиг парадигмы в контенте и геймдизайне

Практическое применение технологии выходит далеко за рамки экспериментальной музыки. В индустрии видеоигр Fugatto позволяет отказаться от статичных звуковых петель. Фоновое сопровождение может динамически меняться в зависимости от действий игрока, погоды в локации или его эмоционального состояния. Для рекламного рынка открывается возможность гиперперсонализации: один и тот же ролик будет звучать по-разному для аудитории в Токио, Берлине и Сан-Паулу, адаптируя не только голос диктора, но и музыкальное оформление под культурные коды региона.

Инструмент, а не замена

Важно подчеркнуть, что Fugatto не позиционируется как замена композиторам или звукорежиссерам. Как отмечают эксперты, в том числе продюсер Идо Змишлани, модель служит «умным инструментом» для расширения палитры творца. Она берет на себя рутинную работу по синтезу черновиков и поиску нестандартных сочетаний, оставляя человеку финальную драматургию и эмоциональную окраску. Речь идет о коллаборации, где машина генерирует сырье, а человек превращает его в искусство.

Разработка Nvidia стала закономерным этапом эволюции генеративных нейросетей. Ранее прорывы в этой области касались в основном текста (GPT) и изображений (Stable Diffusion). Теперь очередь дошла до аудиального контента — последнего рубежа, где ИИ долгое время оставался лишь «умным плеером». Fugatto знаменует переход от пассивного воспроизведения к активному творческому акту.

Влияние этой модели на рынок труда в креативных секторах будет двойственным. С одной стороны, она демократизирует доступ к сложному звуковому дизайну — теперь независимый разработчик игр сможет создать саундтрек уровня AAA-блокбастера без бюджета на оркестр. С другой — возрастут требования к самим специалистам: ценность будет представлять не умение перебирать сэмплы, а способность формулировать точные и сложные промты для ИИ. Технология не обнуляет профессию, но кардинально меняет ее инструментарий, ставя во главу угла концептуальное мышление вместо технической рутины.

Опубликовано: Мировое обозрение Источник