OpenAI представила ChatGPT Image 2.0: возможности и особенности

Habr AI 24 апр 2026

OpenAI представила ChatGPT Image 2.0, новую модель для генерации изображений, которая пришла на смену GPT Image 1.5. Эта модель обладает встроенными способностями к мышлению, может планировать изображение, сверять свой результат с промптом и загружать данные из Интернета.

Особенности ChatGPT Image 2.0

Модель может генерировать изображения с высоким разрешением, до 2K через API и 4K в бета-версии. Она также поддерживает соотношения сторон от 3:1 до 1:3 и может генерировать до 8 изображений на один промпт.

Применение ChatGPT Image 2.0

Модель может быть использована для создания маркетинговых и дизайнерских материалов, инфографики, афиш мероприятий, рекламы в социальных сетях и презентаций. Она также подходит для фотографов и может быть использована для создания реалистичных изображений.

Доступ и стоимость

Каждый пользователь ChatGPT и Codex, включая пользователей бесплатной версии, получает доступ к быстрому режиму. Режим мышления, пакетная обработка нескольких изображений и генерация с учетом контекста веб-страниц доступны только для тарифных планов Plus, Pro, Business и Enterprise.

OpenAI представила ChatGPT Image 2.0: как пользоваться, получить доступ и насколько она лучше конкурентов

Habr AI 24 апр 2026

Тогда как все думали, что крупные ИИ-лаборатории слишком заняты выпуском моделей для генерации видео и разработкой агентов для программирования, OpenAI незаметно представила новый флагманский продукт.

Он называетсяChatGPT Image 2.0и пришел на смену GPT Image 1.5 в качестве модели по умолчанию для генерации изображений в ChatGPT.

Настранице анонсапочти нет текста. В основном там представлены только примеры изображений, что, вероятно, является правильным решением. Можно целый день описывать рендеринг текста словами, а можно просто показать плакат, на котором каждая буква идеально отображена, и позволить пользователю самостоятельно принять решение.

Если открыть ChatGPT сейчас, вы увидите экран приветствия с описанием новой модели, а под полем ввода промпта расположена строка с шаблонами изображений.

На первый взгляд — незначительные изменения. Но то, что скрывается «под капотом», — это совершенно другая история. Еще одно обновление касается шаблонов изображений, которые можно выбрать под полем для ввода промпта.

На данный момент доступно 19 предустановок, и в будущем их количество, вероятно, увеличится.

Изменение названия, которое вы, скорее всего, не заметили

Прежде чем перейти к примерам, давайте поговорим о новом названии.

Если вы на протяжении нескольких лет следили за развитием сферы генерации изображений с помощью ИИ, то знаете, что OpenAI меняла название своей модели для генерации изображений практически каждый раз, когда выпускала новую версию.

История названий выглядит следующим образом.

DALL-E в январе 2021 года.
DALL-E 2 в 2022 году.
DALL-E 3 в 2023 году, который был интегрирован в ChatGPT на протяжении около восемнадцати месяцев.
В марте 2025 года OpenAI отказалась от бренда DALL-E в ChatGPT и представила собственную систему для генерации изображений под новым названием GPT Image 1.
В декабре 2025 года ее заменила GPT Image 1.5, более быстрая и дешевая.
И вот теперь, в апреле 2026 года, появилась ChatGPT Image 2.0.

Таким образом, менее чем за пять лет использовалось шесть названий, три разных схемы наименования и одна модельная линейка, которая незаметно прошла процесс слияния.

И чтобы окончательно закрыть эту эпоху, 12 мая 2026 годаDALL-E 2 и DALL-E 3 перестанут работать через API.Если вы до сих пор используете эти интерфейсы, у вас есть несколько недель на переход.

Что нового в ChatGPT Image 2?

ChatGPT Image 2.0 — это первая модель для генерации изображений от OpenAI, обладающая встроенными способностями к мышлению, что означает, что модель умеет планировать изображение, прежде чем его сгенерировать.

Она может сверять свой результат с промптом, перегенерировать несоответствующие части и даже загружать данные из Интернета в процессе генерации, если вы ее об этом попросите.

Еще одно важное нововведение — рендеринг текста. Все ИИ-модели изображений в истории испытывали сложности при генерациеи текстов. Искаженные буквы, слова с ошибками, перепутанные знаки. Images 2.0 — первая модель, при использовании которой, я могу попросить создать плакат с абзацем текста и действительно получить читаемый текст.

Посмотрите на это очень сложное изображение с огромным количеством текста и мелкими деталями. Я никогда не видел ни одной модели изображений, которая могла бы отобразить столько текста на одном изображении.

По информации OpenAI, модель была специально настроена для работы с небольшими текстами, элементами пользовательского интерфейса, диаграммами и сложными макетами, и это сразу видно.

Вот конкретные характеристики, о которых стоит знать:

Разрешение до 2Kчерез API, 4K — в бета-версии
Соотношения сторон от 3:1 до 1:3, благодаря чему без дополнительных настроек отображаются как сверхширокие баннеры, так и сверхвысокие мобильные экраны
До 8 изображений на один промпт, при этом персонажи и объекты остаются неизменными во всем пакете
Многоязычная визуализация текста, что было одним из самых слабых мест всех конкурирующих моделей
Ограничение знаний декабрем 2025 года, что важно для любого промпта, содержащего ссылки на недавние события, логотипы или людей

OpenAI описывает эту модель не как традиционную систему диффузии, а как «универсальную модель» или «GPT для изображений», и сознательно не раскрывает её архитектуру. В зависимости от того, с какой стороны API вы находитесь, это может быть либо целесообразно с коммерческой точки зрения, либо вызывать разочарование. Для тех, кто занимается тонкой настройкой или созданием инфраструктуры на основе моделей для обработки изображений, такая закрытость представляет собой реальное ограничение.

В режиме «thinking» модель меняет свой характер.

Включите эту функцию, и модель будет работать дольше, расходовать больше токенов и генерировать заметно более согласованный результат для любых задач, связанных с несколькими объектами, точными пространственными связями или многослойным текстом.
Отключите эту функцию, и вы получите быстрый режим, который ближе к тому, как раньше работал GPT Image 1.5, но при этом даёт более четкий результат.

Пример: Винтажная японская газета о волшебстве и фэнтези

Для чего можно использовать ChatGPT Image 2.0

Очевидный вариант применения — маркетинговые и дизайнерские материалы. Инфографика, афиши мероприятий, реклама в социальных сетях, обложки книг, презентации с настоящей типографикой.

Если вы разрабатываете интерфейс или страницу журнала, этот инструмент подойдет как нельзя лучше.

Это первая модель для создания изображений от OpenAI, которой я бы доверил создание готового материала для рекламной кампании без последующей доработки в Photoshop.

Еще одна группа пользователей, которой эта модель может показаться интересной, — это фотографы. Уровень реалистичности, которого с ее помощью можно достичь, просто потрясает. Вот пример:

Режим работы с несколькими изображениями — это именно тот режим, который незаметно станет самым важным. Если запросить восемь вариантов одного и того же персонажа в разных позах, модель сохранит согласованность во всех восьми. Одно это решает целую категорию задач, для приблизительного решения которых раньше требовались ControlNet, IP-Adapter и полный рабочий процесс ComfyUI.

Некоторые из конкретных примеров использования, которые OpenAI выделяет в документации для разработчиков, — это локализованная реклама, где текст переводится с одного языка на другой без повторного рендеринга всего изображения, образовательный контент с диаграммами, имеющими разборчивые подписи, и дизайнерские инструменты, позволяющие конечным пользователям генерировать готовые к использованию материалы.

Где это действительно полезно на практике:

Титульные слайды презентаций с читабельными заголовками
Макеты продуктов с элементами интерфейса и подписями к кнопкам, которые не выглядят бессмысленным набором букв
Научные постеры и диаграммы с точными подписями на осях
Кадры из манги и комиксов с персонажами, стиль которых остается неизменным на всех страницах
Многоязычные рекламные материалы для команд, работающих в разных регионах

В чем он по-прежнему не силен — это в том, с чем не справляются все модели обработки изображений. Руки в сложных позах. Точная анатомия в напряженных ситуациях. Отражения, подчиняющиеся законам физики. Эти аспекты улучшаются, но пока не решены.

С его помощью можно сделать просто огромное количество вещей. Лучший способ убедиться в этом — зайти на сайтchatgpt.comи создать изображение самостоятельно.

Как получить доступ и сколько он стоит

Каждый пользователь ChatGPT и Codex, включая пользователей бесплатной версии, получает доступ к быстрому режиму. Это настоящий прорыв. Бесплатные пользователи теперь имеют доступ к модели, которая еще год назад была бы доступна только по подписке.

Режим мышления, пакетная обработка нескольких изображений и генерация с учетом контекста веб-страниц доступны только для тарифных планов Plus (20 долларов в месяц), Pro (200 долларов в месяц), Business и Enterprise. Если вы используете бесплатный тарифный план и хотите протестировать возможности рассуждающей модели, вам придется перейти на платный тариф или воспользоваться API.

Что касается API, модель называетсяgpt-image-2. Плата за использование моделипроизводитсяза токены:

$8 за миллион входных токенов изображений
$2 за миллион кэшированных входных изображений
$30 за миллион выходных токенов изображений
$5 за миллион входных токенов текста, $10 за выходные

Если говорить о конкретных цифрах, тосайт The Decoder провел расчеты с помощью калькулятора OpenAIи сообщил, что создание изображения размером 1024x1024 стоит около 0,006 доллара с низким качеством, 0,053 доллара со средним и 0,211 доллара с высоким. Изображение размером 1024x1536 с высоким качеством обходится дешевле — примерно 0,165 доллара.

Стоит отметить одну вещь. При стандартной настройке генерация изображения высокого качества 1024x1024 вgpt-image-2на самом деле дороже, чем в GPT Image 1.5 ($0,211 против $0,133). При более высоких разрешениях она обходится дешевле. Поэтому, если вы переносите рабочий процесс, ваши расходы полностью зависят от того, какие размеры вы используете.

Полный API будет доступен всем разработчикам только в начале мая 2026 года.

Вот пример кода для генерации изображений на Javascript:

Также вы можете включить потоковую передачу результатов, чтобы наблюдать за процессом создания изображения в режиме реального времени. Вот пример кода:

Подробнее о различных способах создания изображений с помощью ChatGPT 2.0 через API можно узнать настранице с официальной документацией.

Ладно, на этом, пожалуй, всё.

На мой взгляд, внимание пользователей привлечёт именно рендеринг текста, и это вполне заслуженно. Но именно лежащая в основе этой технологии способность модели обрабатывать изображения и её умение анализировать собственные результаты позволяет увеличить варианты того, что можно создать с ее помощью.

Я бы хотел увидеть независимые тесты, прежде чем поверить утверждению, что это лучшая модель во всех категориях. Во многих публикациях, посвященных релизу, приводятся результаты Image Arena и собственные примеры OpenAI, а их легко подогнать под себя. Подождем месяц, пока люди попытаются найти в ней слабые места, и я смогу лучше понять, как она на самом деле выглядит по сравнению сMidjourney v7иImagen 4от Google.

Попробуйте ChatGPT Image 2.0 и поделитесь своим мнением в комментариях!

Читать оригинал