Тогда как все думали, что крупные ИИ-лаборатории слишком заняты выпуском моделей для генерации видео и разработкой агентов для программирования, OpenAI незаметно представила новый флагманский продукт.
Он называетсяChatGPT Image 2.0и пришел на смену GPT Image 1.5 в качестве модели по умолчанию для генерации изображений в ChatGPT.
Настранице анонсапочти нет текста. В основном там представлены только примеры изображений, что, вероятно, является правильным решением. Можно целый день описывать рендеринг текста словами, а можно просто показать плакат, на котором каждая буква идеально отображена, и позволить пользователю самостоятельно принять решение.
Если открыть ChatGPT сейчас, вы увидите экран приветствия с описанием новой модели, а под полем ввода промпта расположена строка с шаблонами изображений.
На первый взгляд — незначительные изменения. Но то, что скрывается «под капотом», — это совершенно другая история. Еще одно обновление касается шаблонов изображений, которые можно выбрать под полем для ввода промпта.
На данный момент доступно 19 предустановок, и в будущем их количество, вероятно, увеличится.
Изменение названия, которое вы, скорее всего, не заметили
Прежде чем перейти к примерам, давайте поговорим о новом названии.
Если вы на протяжении нескольких лет следили за развитием сферы генерации изображений с помощью ИИ, то знаете, что OpenAI меняла название своей модели для генерации изображений практически каждый раз, когда выпускала новую версию.
История названий выглядит следующим образом.
- DALL-E в январе 2021 года.
- DALL-E 2 в 2022 году.
- DALL-E 3 в 2023 году, который был интегрирован в ChatGPT на протяжении около восемнадцати месяцев.
- В марте 2025 года OpenAI отказалась от бренда DALL-E в ChatGPT и представила собственную систему для генерации изображений под новым названием GPT Image 1.
- В декабре 2025 года ее заменила GPT Image 1.5, более быстрая и дешевая.
- И вот теперь, в апреле 2026 года, появилась ChatGPT Image 2.0.
Таким образом, менее чем за пять лет использовалось шесть названий, три разных схемы наименования и одна модельная линейка, которая незаметно прошла процесс слияния.
И чтобы окончательно закрыть эту эпоху, 12 мая 2026 годаDALL-E 2 и DALL-E 3 перестанут работать через API.Если вы до сих пор используете эти интерфейсы, у вас есть несколько недель на переход.
Что нового в ChatGPT Image 2?
ChatGPT Image 2.0 — это первая модель для генерации изображений от OpenAI, обладающая встроенными способностями к мышлению, что означает, что модель умеет планировать изображение, прежде чем его сгенерировать.
Она может сверять свой результат с промптом, перегенерировать несоответствующие части и даже загружать данные из Интернета в процессе генерации, если вы ее об этом попросите.
Еще одно важное нововведение — рендеринг текста. Все ИИ-модели изображений в истории испытывали сложности при генерациеи текстов. Искаженные буквы, слова с ошибками, перепутанные знаки. Images 2.0 — первая модель, при использовании которой, я могу попросить создать плакат с абзацем текста и действительно получить читаемый текст.
Посмотрите на это очень сложное изображение с огромным количеством текста и мелкими деталями. Я никогда не видел ни одной модели изображений, которая могла бы отобразить столько текста на одном изображении.
По информации OpenAI, модель была специально настроена для работы с небольшими текстами, элементами пользовательского интерфейса, диаграммами и сложными макетами, и это сразу видно.
Вот конкретные характеристики, о которых стоит знать:
- Разрешение до 2Kчерез API, 4K — в бета-версии
- Соотношения сторон от 3:1 до 1:3, благодаря чему без дополнительных настроек отображаются как сверхширокие баннеры, так и сверхвысокие мобильные экраны
- До 8 изображений на один промпт, при этом персонажи и объекты остаются неизменными во всем пакете
- Многоязычная визуализация текста, что было одним из самых слабых мест всех конкурирующих моделей
- Ограничение знаний декабрем 2025 года, что важно для любого промпта, содержащего ссылки на недавние события, логотипы или людей
OpenAI описывает эту модель не как традиционную систему диффузии, а как «универсальную модель» или «GPT для изображений», и сознательно не раскрывает её архитектуру. В зависимости от того, с какой стороны API вы находитесь, это может быть либо целесообразно с коммерческой точки зрения, либо вызывать разочарование. Для тех, кто занимается тонкой настройкой или созданием инфраструктуры на основе моделей для обработки изображений, такая закрытость представляет собой реальное ограничение.
В режиме «thinking» модель меняет свой характер.
- Включите эту функцию, и модель будет работать дольше, расходовать больше токенов и генерировать заметно более согласованный результат для любых задач, связанных с несколькими объектами, точными пространственными связями или многослойным текстом.
- Отключите эту функцию, и вы получите быстрый режим, который ближе к тому, как раньше работал GPT Image 1.5, но при этом даёт более четкий результат.
Пример: Винтажная японская газета о волшебстве и фэнтези
Для чего можно использовать ChatGPT Image 2.0
Очевидный вариант применения — маркетинговые и дизайнерские материалы. Инфографика, афиши мероприятий, реклама в социальных сетях, обложки книг, презентации с настоящей типографикой.
Если вы разрабатываете интерфейс или страницу журнала, этот инструмент подойдет как нельзя лучше.
Это первая модель для создания изображений от OpenAI, которой я бы доверил создание готового материала для рекламной кампании без последующей доработки в Photoshop.
Еще одна группа пользователей, которой эта модель может показаться интересной, — это фотографы. Уровень реалистичности, которого с ее помощью можно достичь, просто потрясает. Вот пример:
Режим работы с несколькими изображениями — это именно тот режим, который незаметно станет самым важным. Если запросить восемь вариантов одного и того же персонажа в разных позах, модель сохранит согласованность во всех восьми. Одно это решает целую категорию задач, для приблизительного решения которых раньше требовались ControlNet, IP-Adapter и полный рабочий процесс ComfyUI.
Некоторые из конкретных примеров использования, которые OpenAI выделяет в документации для разработчиков, — это локализованная реклама, где текст переводится с одного языка на другой без повторного рендеринга всего изображения, образовательный контент с диаграммами, имеющими разборчивые подписи, и дизайнерские инструменты, позволяющие конечным пользователям генерировать готовые к использованию материалы.
Где это действительно полезно на практике:
- Титульные слайды презентаций с читабельными заголовками
- Макеты продуктов с элементами интерфейса и подписями к кнопкам, которые не выглядят бессмысленным набором букв
- Научные постеры и диаграммы с точными подписями на осях
- Кадры из манги и комиксов с персонажами, стиль которых остается неизменным на всех страницах
- Многоязычные рекламные материалы для команд, работающих в разных регионах
В чем он по-прежнему не силен — это в том, с чем не справляются все модели обработки изображений. Руки в сложных позах. Точная анатомия в напряженных ситуациях. Отражения, подчиняющиеся законам физики. Эти аспекты улучшаются, но пока не решены.
С его помощью можно сделать просто огромное количество вещей. Лучший способ убедиться в этом — зайти на сайтchatgpt.comи создать изображение самостоятельно.
Как получить доступ и сколько он стоит
Каждый пользователь ChatGPT и Codex, включая пользователей бесплатной версии, получает доступ к быстрому режиму. Это настоящий прорыв. Бесплатные пользователи теперь имеют доступ к модели, которая еще год назад была бы доступна только по подписке.
Режим мышления, пакетная обработка нескольких изображений и генерация с учетом контекста веб-страниц доступны только для тарифных планов Plus (20 долларов в месяц), Pro (200 долларов в месяц), Business и Enterprise. Если вы используете бесплатный тарифный план и хотите протестировать возможности рассуждающей модели, вам придется перейти на платный тариф или воспользоваться API.
Что касается API, модель называетсяgpt-image-2. Плата за использование моделипроизводитсяза токены:
- $8 за миллион входных токенов изображений
- $2 за миллион кэшированных входных изображений
- $30 за миллион выходных токенов изображений
- $5 за миллион входных токенов текста, $10 за выходные
Если говорить о конкретных цифрах, тосайт The Decoder провел расчеты с помощью калькулятора OpenAIи сообщил, что создание изображения размером 1024x1024 стоит около 0,006 доллара с низким качеством, 0,053 доллара со средним и 0,211 доллара с высоким. Изображение размером 1024x1536 с высоким качеством обходится дешевле — примерно 0,165 доллара.
Стоит отметить одну вещь. При стандартной настройке генерация изображения высокого качества 1024x1024 вgpt-image-2на самом деле дороже, чем в GPT Image 1.5 ($0,211 против $0,133). При более высоких разрешениях она обходится дешевле. Поэтому, если вы переносите рабочий процесс, ваши расходы полностью зависят от того, какие размеры вы используете.
Полный API будет доступен всем разработчикам только в начале мая 2026 года.
Вот пример кода для генерации изображений на Javascript:
Также вы можете включить потоковую передачу результатов, чтобы наблюдать за процессом создания изображения в режиме реального времени. Вот пример кода:
Подробнее о различных способах создания изображений с помощью ChatGPT 2.0 через API можно узнать настранице с официальной документацией.
Ладно, на этом, пожалуй, всё.
На мой взгляд, внимание пользователей привлечёт именно рендеринг текста, и это вполне заслуженно. Но именно лежащая в основе этой технологии способность модели обрабатывать изображения и её умение анализировать собственные результаты позволяет увеличить варианты того, что можно создать с ее помощью.
Я бы хотел увидеть независимые тесты, прежде чем поверить утверждению, что это лучшая модель во всех категориях. Во многих публикациях, посвященных релизу, приводятся результаты Image Arena и собственные примеры OpenAI, а их легко подогнать под себя. Подождем месяц, пока люди попытаются найти в ней слабые места, и я смогу лучше понять, как она на самом деле выглядит по сравнению сMidjourney v7иImagen 4от Google.
Попробуйте ChatGPT Image 2.0 и поделитесь своим мнением в комментариях!