OpenAI представила функцию генерации точных изображений в ChatGPT на базе GPT-4o — она доступна бесплатно
Как работает новая генерация изображений в ChatGPT
В отличие от предыдущей версии DALL-E 3, которая генерировала изображение целиком, 4o Image Creation использует последовательный метод: изображение строится слева направо и сверху вниз. Как пояснил глава исследований OpenAI Габриэль Го, именно этот нестандартный подход объясняет превосходство системы в работе с текстом и сложными сценами. Например, при запросе нарисовать синюю звезду и красный треугольник большинство ИИ путаются, создавая красную звезду и нечто, отдаленно напоминающее треугольник. Новая система справляется с задачей без ошибок, корректно обрабатывая до 15–20 объектов.
Текст без артефактов: новая эра в дизайне
Одним из ключевых прорывов стала возможность генерации читаемого текста на изображениях без опечаток и искажений. В существующих инструментах для генерации изображений текст часто искажался, что делало изображения полностью непригодными для использования в коммерческих целях — будь то меню ресторанов, постеры или логотипы. 4o Image Generation успешно справляется с этой задачей, что подтверждают демонстрации научных диаграмм, комиксов и стикеров с прозрачным фоном.
Практические применения: от стикеров до научных иллюстраций
OpenAI продемонстрировала возможности системы на примере эксперимента Ньютона с призмой, комиксов и постеров. Система также способна редактировать загруженные пользователем изображения по простым запросам — добавлять или убирать элементы, менять фон. Практические применения включают создание изображений с прозрачным фоном для стикеров, меню ресторанов и логотипов. Все задания были выполнены без ошибок, что подтверждает высокую точность системы.
Компромисс скорости ради качества
Новая система генерирует изображения дольше, чем предыдущие версии, но OpenAI считает это оправданным компромиссом. В компании отметили: «Хотя у нас определённо есть возможности для улучшения времени отклика, качество этих изображений, возможности и знание о мире действительно компенсируют дополнительные секунды ожидания». Для бесплатных пользователей сохраняются те же лимиты, что и для DALL-E — три изображения в день.
Представитель OpenAI Тайя Кристиансон уточнила, что доступ к DALL-E по-прежнему возможен через пользовательский интерфейс ChatGPT, а новая функция становится основным инструментом для генерации изображений. Модель GPT-4o, лежащая в основе системы, работает с любыми типами данных — текстом, изображениями, аудио и видео.
Скандалы с дипфейками, вроде фальшивых изображений Тейлор Свифт, созданных с помощью модели Microsoft, или способность Grok от xAI изобразить Камалу Харрис с оружием, заставили индустрию задуматься о безопасности. OpenAI внедрила надежные механизмы защиты: инструмент предотвращает удаление водяных знаков, блокирует генерацию дипфейков, связанных с телом человека, и отказывает в запросах на создание материалов с насилием над детьми. Все сгенерированные изображения будут включать стандартные метаданные C2PA, чтобы отметить их как созданные OpenAI. Директор по дизайну компании Шеннон Джагер подчеркнула, что система разработана с учётом всех современных требований безопасности.
