Люди набирают 100%, GPT-5.4 — 0,26%, а Google хватило всего 3 бита

Люди набирают 100%, GPT-5.4 — 0,26%, а Google хватило всего 3 бита

Седьмой выпуск еженедельных IT-новостей от OpenIDE: новый бенчмарк AGI, трёхбитная квантизация от Google, ACP-протокол в OpenIDE, GigaChat 3.1 и закрытие Sora.

Вышел ARC-AGI-3. Люди — 100%, модели — меньше 2%

Тест ARC-AGI-3 построен на наборе 2D-игр с полем 64×64 пикселя. Правила не объясняются — нужно самостоятельно понять, что происходит на экране, и пройти уровни. Люди справляются почти стопроцентно.

Топовые модели, включая GPT-5.4, набрали менее 1%. Самое спорное решение оргкомитета: в лидерборде учитываются только модели без «харнеса» — программных инструментов вроде доступа к браузеру или среде исполнения.

Логика понятна — измеряют не систему, а модель. Но человек без инструментов тоже мало на что способен. Такое ограничение слабо отражает реальные условия использования ИИ.

Google выпустили трёхбитную квантизацию KV-кэша

Google представили TurboQuant — алгоритм сжатия KV-кэша до 3 бит. Это не сжатие самой модели, а оптимизация хранения промежуточных векторов в памяти.

Ключевая идея: вместо декартовых координат («5 по X, 10 по Y») используются полярные («длина 10, угол 35°»). Это позволяет сократить объём данных без потери точности.

Сравнительные графики показывают минимальную деградацию при переходе с 4 до 3 бит. Если технология приживётся, это ускорит работу моделей без увеличения потребления памяти.

В OpenIDE Pro появится поддержка ACP

ACP (Agent Communication Protocol) — протокол от JetBrains, позволяющий ИИ-агентам понимать структуру IDE: какие файлы открыты, какая кодовая база, какие инструменты доступны.

Без ACP каждый агент интегрируется вручную. С протоколом агент «знает» среду с первого взаимодействия.

Пока поддержка ACP находится в бета-версии. Доступ предоставляется по заявке на info@openide.ru. Во время тестирования функция будет доступна и в обычной версии OpenIDE.

Anthropic готовит новую модель под кодовым названием Claude Mythos

Слухи о новой модели от Anthropic постепенно подтверждаются. По описаниям, она займет ценовой сегмент выше текущего Claude Opus.

Возможно, в ближайшее время появится подписка за 2000 долларов в месяц.

OpenAI закрывают Sora

Sora задумывалась как соцсеть, где пользователи не загружают контент, а генерируют его — видео, изображения, всё синтетическое.

Проблема в стоимости: генерация видео требует огромных ресурсов. При массовом использовании — десятки видео в день на пользователя — экономическая модель оказалась невыгодной.

История знакомая: Periscope, Clubhouse, теперь Sora — яркий старт, хайп, исчезновение. В отличие от них, MAX прижился с первых дней.

GigaChat 3.1: большое обновление от Сбера

Сбер выпустил обновлённую версию GigaChat. По заявлению компании, это не дообученная чужая модель, а разработка с нуля.

Конкурировать с современными флагманами она пока не может, но уверенно тягается с моделями предыдущего поколения.

Однако неясно, какая модель используется в интерфейсе. Нигде не указано, работает ли сейчас GigaChat 3.1 или более старая версия. Это неудобно и неинтуитивно.

Также в публичных анонсах встречаются технические детали вроде: «Исправлен критический баг в SGLang (0.5.3–0.5.9), из-за которого падало качество при dp > 1». Такие формулировки вряд ли понятны широкой аудитории.

Читать оригинал