среда, 26 марта 2025 г.

OpenAI представила прорывную систему генерации изображений в GPT-4o

OpenAI интегрировала в свою флагманскую модель GPT-4o новую систему генерации изображений, которая выводит возможности ChatGPT на принципиально новый уровень. Компания подчеркивает, что цель разработки — не просто создавать красивые картинки, а сделать генерацию изображений по-настоящему полезной для пользователей.

Прорыв в рендеринге текста

Главным преимуществом новой системы является беспрецедентный уровень рендеринга текста. GPT-4o превосходно справляется с задачами, в которых текст является неотъемлемой частью изображения — от дорожных знаков и меню ресторанов до свадебных приглашений и инфографики. Это открывает огромные возможности для визуальной коммуникации, делая генерацию изображений практичным инструментом для бизнеса, образования и креативных задач.

«От первых наскальных рисунков до современной инфографики люди использовали визуальные образы для общения, убеждения и анализа — а не только для украшения», — отмечает OpenAI в своем блоге.

Мультимодальный подход и контекстное понимание

Пишем промпт в GPT - selfie view of the photographer, as she turns around to high five him

GPT-4o работает не с отдельными модальностями, а с их объединенным распределением. Это позволяет модели понимать не только то, как изображения соотносятся с языком, но и как они соотносятся друг с другом. В результате получается система с удивительной визуальной беглостью, способная создавать изображения, которые являются полезными, согласованными и контекстно-зависимыми.

Новая система изначально встроена в GPT-4o, что позволяет уточнять изображения через естественный диалог. Модель может опираться на загруженные изображения и текст в контексте чата, обеспечивая последовательность на протяжении всего взаимодействия. Например, при разработке персонажа видеоигры внешний вид персонажа остается согласованным при многократных итерациях.

Точное следование инструкциям

GPT-4o демонстрирует высокую способность следовать детальным инструкциям с вниманием к деталям. В то время как другие системы генерации испытывают трудности с 5-8 объектами, GPT-4o может обрабатывать до 10-20 различных объектов в одном изображении. Более тесная привязка объектов к их характеристикам и взаимоотношениям обеспечивает лучший контроль над результатом.

Мировые знания в изображениях

Благодаря нативной интеграции в языковую модель, система генерации изображений GPT-4o может применять свою базу знаний при создании визуального контента. Это позволяет создавать точные инфографики о погоде, рецепты коктейлей, руководства по приготовлению чая матча или иллюстрированные руководства по видам китов — все с естественной точностью и богатыми деталями.

Фотореализм и стилизация

Обучение на изображениях, отражающих большое разнообразие визуальных стилей, позволяет модели убедительно создавать или трансформировать изображения в различных художественных направлениях — от фотореалистичных снимков и поляроидных фотографий до акварельных иллюстраций и рисографии.

Безопасность и происхождение контента

Все сгенерированные изображения содержат метаданные C2PA, которые идентифицируют их как созданные с помощью GPT-4o, обеспечивая прозрачность. OpenAI также разработала внутренний инструмент поиска, использующий технические атрибуты генераций для проверки происхождения контента.

В соответствии со своими политиками безопасности, компания блокирует запросы на генерацию изображений, которые могут нарушать правила контента, включая материалы о сексуальном насилии над детьми и сексуальные дипфейки. При работе с изображениями реальных людей действуют повышенные ограничения относительно типа создаваемых изображений, с особенно строгими мерами защиты от наготы и графического насилия.

Доступность

Генерация изображений в GPT-4o становится доступной с сегодняшнего дня для пользователей тарифов Plus, Pro, Team, а также бесплатных аккаунтов как основной генератор изображений в ChatGPT. Доступ для Enterprise и Edu появится в ближайшее время. Разработчики смогут генерировать изображения с помощью GPT-4o через API, доступ к которому будет открываться в течение ближайших недель.

Создание и настройка изображений так же просты, как общение с GPT-4o — достаточно описать, что вам нужно, включая любые особенности, такие как соотношение сторон, точные цвета с использованием шестнадцатеричных кодов или прозрачный фон. Поскольку эта модель создает более детализированные изображения, их рендеринг занимает больше времени, часто до одной минуты.

Ограничения

OpenAI открыто говорит о существующих ограничениях системы. Модель может иногда обрезать более длинные изображения, такие как плакаты, слишком сильно, особенно внизу. Как и другие текстовые модели, GPT-4o может выдумывать информацию, особенно при запросах с низким контекстом. При создании изображений, опирающихся на базу знаний, система может испытывать трудности с точным отображением более 10-20 различных концепций одновременно. Также отмечаются проблемы с рендерингом неевропейских языков и редактированием определенных частей уже сгенерированного изображения.

OpenAI представила прорывную систему генерации изображений в GPT-4o

Прорыв в рендеринге текста

Мультимодальный подход и контекстное понимание

Точное следование инструкциям

Мировые знания в изображениях

Фотореализм и стилизация

Безопасность и происхождение контента

Доступность

Ограничения

Adobe и NVIDIA объединяют силы на GTC: что внутри партнерства

Manus переехал на десктоп. И он там не один

Nvidia вложила $2 млрд в облачную компанию Nebius

Freepik запустил Speak: синхронизация губ наконец перестала быть болью?

Claude Code теперь управляется с телефона: Remote Control

Seedream 5.0 против Nano Banana Pro: первые впечатления