Новая модель Images 2.0 от ChatGPT удивительно хорошо справляется с генерацией текста

TechCrunch AI 21 апр 2026

Раньше было легко отличить человеческое творчество от работы искусственного интеллекта. Всего два года назад модели для генерации изображений, создавая меню мексиканского ресторана, выдумывали блюда вроде «enchuita», «churiros», «burrto» и «margartas».

Сейчас новая модель ChatGPT Images 2.0 генерирует меню, которое можно сразу использовать в реальном заведении — ни один посетитель не заподозрит подвох. Хотя, возможно, цена на севиче — 13,50 долларов — заставит задуматься о качестве рыбы.

Для сравнения: вот что получилось у DALL-E 3 два года назад (тогда ChatGPT ещё не умел создавать изображения).

Исторически сложилось так, что генераторы изображений плохо справлялись с правильным написанием слов. Причина — в работе диффузионных моделей, которые воссоздают картинку из шума.

«Диффузионные модели […] восстанавливают заданный входной сигнал, — пояснил в 2024 году Асмелаш Тека Хадгу, основатель и CEO Lesan AI. — Можно считать, что текст на изображении занимает очень малую часть, поэтому генератор учится распознавать паттерны, покрывающие большую площадь пикселей».

С тех пор исследователи начали экспериментировать с другими подходами, например с автозависимыми (autoregressive) моделями, которые предсказывают следующую часть изображения — по аналогии с работой языковых моделей (LLM).

Однако OpenAI отказалась раскрыть на брифинге, какая именно архитектура стоит за Images 2.0.

«Мышление» в действии

Зато компания рассказала, что новая модель обладает способностью к «мышлению». Это позволяет ей искать информацию в интернете, создавать несколько изображений по одному запросу и проверять собственные результаты. Благодаря этому Images 2.0 может генерировать маркетинговые материалы в разных форматах, а также комиксы из нескольких панелей.

OpenAI также заявила, что модель лучше работает с нелатинскими алфавитами — например, с японским, корейским, хинди и бенгальским. При этом база знаний модели обновлена по декабрь 2025 года, что может повлиять на точность генерации по запросам, связанным с недавними событиями.

«Images 2.0 предлагает беспрецедентный уровень детализации и точности. Модель не просто придумывает сложные сцены, но и эффективно воплощает их — следует инструкциям, сохраняет мелкие детали и корректно отображает то, что раньше ломало генераторы: мелкий текст, иконки, элементы интерфейса, насыщенные композиции и тонкие стилистические требования — всё это вплоть до разрешения 2K», — говорится в пресс-релизе OpenAI.

Из-за такой сложности генерация изображений не такая мгновенная, как ответы ChatGPT, но даже создание многосекционного комикса занимает всего несколько минут.

Начиная со вторника, доступ к Images 2.0 получат все пользователи ChatGPT и Codex. Платные подписчики смогут генерировать более сложные изображения. Также компания запускает API под названием gpt-image-2, стоимость использования которого будет зависеть от качества и разрешения выводимых изображений.

Читать оригинал

Новая модель Images 2.0 от ChatGPT удивительно хорошо справляется с генерацией текста

«Мышление» в действии

ChatGPT’s new Images 2.0 model is surprisingly good at generating text

Meet your next investor or portfolio startup at Disrupt

Your next round. Your next hire. Your next breakout opportunity. Find it at TechCrunch Disrupt 2026, where 10,000+ founders, investors, and tech leaders gather for three days of 250+ tactical sessions, powerful introductions, and market-defining innovation. Register now to save up to $410.

Meet your next investor or portfolio startup at Disrupt

Your next round. Your next hire. Your next breakout opportunity. Find it at TechCrunch Disrupt 2026, where 10,000+ founders, investors, and tech leaders gather for three days of 250+ tactical sessions, powerful introductions, and market-defining innovation. Register now to save up to $410.