В конце прошлого года на конференции AI Journey был представлен доступ к линейке моделей Kandinsky 5, включая Text-to-Image и Image Editing Lite. Сегодня анонсировано масштабное обновление — единая модель генерации и редактирования изображений Kandinsky 6.0 Image Pro.
Новая версия демонстрирует более высокое качество и стабильность в задачах генерации изображений по тексту. Особое внимание уделено редактированию: по результатам сравнений Kandinsky 6.0 Image Pro достигает уровня Flux 2 Max и превосходит GPT Image 1.5.
Благодаря переходу на архитектуру MoE, эффективному распараллеливанию инференса и оптимизации механизма внимания, скорость работы модели увеличена более чем на 40% по сравнению с предыдущей версией.
Image RAG: расширение знаний без переобучения
К релизу интегрирован механизм Image RAG. При запросе пользователя система ищет релевантные изображения в базе знаний и при необходимости добавляет их в контекст.
Это позволило значительно улучшить понимание тонкостей отечественного культурного кода. Теперь модель можно постоянно расширять и актуализировать без полного переобучения.
Image RAG работает как в режиме генерации по тексту, так и в режиме редактирования. Например, можно сгенерировать себя с любимым киногероем.
База знаний пополняется актуальными объектами, персонажами, стилями и тщательно отобранными референсами национальной культуры. Благодаря этому корректно генерируются, например, мезенская роспись или картуз.
Примеры и сценарии применения
Kandinsky 6.0 Image Pro поддерживает все основные виды редактирования изображений с высоким качеством:
- Сложное удаление объектов и надписей с сохранением консистентности.
- Замена объектов с учётом стиля изображения.
- Стилизация фото человека с сохранением черт лица.
- Обработка изображений не только людей, но и других объектов.
- Реставрация и колоризация старинных фотографий.
Модель уже интегрирована в сервис «Бессмертный полк онлайн», где помогает восстанавливать архивные фото ветеранов ВОВ.
С помощью одного промта можно создавать дизайн экстерьеров и фасадов зданий или формировать интерьер по схеме помещения.
Новые функции в ближайшем будущем
В ближайшее время на всех платформах станет доступно редактирование по трём референсам. Появится функция детального редактирования: с помощью специальной кисти можно будет точно указать, куда добавить объект или что удалить с изображения.
Kandinsky 6.0 Image Pro уже доступен во всех версиях GigaChat: в Telegram, мессенджере Max, на сайте giga.chat и в Android-приложении.