Новая модель Images 2.0 от ChatGPT удивительно хорошо справляется с генерацией текста

Раньше было легко отличить человеческое творчество от работы искусственного интеллекта. Всего два года назад модели для генерации изображений, создавая меню мексиканского ресторана, выдумывали блюда вроде «enchuita», «churiros», «burrto» и «margartas».

Сейчас новая модель ChatGPT Images 2.0 генерирует меню, которое можно сразу использовать в реальном заведении — ни один посетитель не заподозрит подвох. Хотя, возможно, цена на севиче — 13,50 долларов — заставит задуматься о качестве рыбы.

Для сравнения: вот что получилось у DALL-E 3 два года назад (тогда ChatGPT ещё не умел создавать изображения).

Исторически сложилось так, что генераторы изображений плохо справлялись с правильным написанием слов. Причина — в работе диффузионных моделей, которые воссоздают картинку из шума.

«Диффузионные модели […] восстанавливают заданный входной сигнал, — пояснил в 2024 году Асмелаш Тека Хадгу, основатель и CEO Lesan AI. — Можно считать, что текст на изображении занимает очень малую часть, поэтому генератор учится распознавать паттерны, покрывающие большую площадь пикселей».

С тех пор исследователи начали экспериментировать с другими подходами, например с автозависимыми (autoregressive) моделями, которые предсказывают следующую часть изображения — по аналогии с работой языковых моделей (LLM).

Однако OpenAI отказалась раскрыть на брифинге, какая именно архитектура стоит за Images 2.0.

«Мышление» в действии

Зато компания рассказала, что новая модель обладает способностью к «мышлению». Это позволяет ей искать информацию в интернете, создавать несколько изображений по одному запросу и проверять собственные результаты. Благодаря этому Images 2.0 может генерировать маркетинговые материалы в разных форматах, а также комиксы из нескольких панелей.

OpenAI также заявила, что модель лучше работает с нелатинскими алфавитами — например, с японским, корейским, хинди и бенгальским. При этом база знаний модели обновлена по декабрь 2025 года, что может повлиять на точность генерации по запросам, связанным с недавними событиями.

«Images 2.0 предлагает беспрецедентный уровень детализации и точности. Модель не просто придумывает сложные сцены, но и эффективно воплощает их — следует инструкциям, сохраняет мелкие детали и корректно отображает то, что раньше ломало генераторы: мелкий текст, иконки, элементы интерфейса, насыщенные композиции и тонкие стилистические требования — всё это вплоть до разрешения 2K», — говорится в пресс-релизе OpenAI.

Из-за такой сложности генерация изображений не такая мгновенная, как ответы ChatGPT, но даже создание многосекционного комикса занимает всего несколько минут.

Начиная со вторника, доступ к Images 2.0 получат все пользователи ChatGPT и Codex. Платные подписчики смогут генерировать более сложные изображения. Также компания запускает API под названием gpt-image-2, стоимость использования которого будет зависеть от качества и разрешения выводимых изображений.

Читать оригинал