Седьмой выпуск еженедельных IT-новостей от OpenIDE: новый бенчмарк AGI, трёхбитная квантизация от Google, ACP-протокол в OpenIDE, GigaChat 3.1 и закрытие Sora.
Вышел ARC-AGI-3. Люди — 100%, модели — меньше 2%
Тест ARC-AGI-3 построен на наборе 2D-игр с полем 64×64 пикселя. Правила не объясняются — нужно самостоятельно понять, что происходит на экране, и пройти уровни. Люди справляются почти стопроцентно.
Топовые модели, включая GPT-5.4, набрали менее 1%. Самое спорное решение оргкомитета: в лидерборде учитываются только модели без «харнеса» — программных инструментов вроде доступа к браузеру или среде исполнения.
Логика понятна — измеряют не систему, а модель. Но человек без инструментов тоже мало на что способен. Такое ограничение слабо отражает реальные условия использования ИИ.
Google выпустили трёхбитную квантизацию KV-кэша
Google представили TurboQuant — алгоритм сжатия KV-кэша до 3 бит. Это не сжатие самой модели, а оптимизация хранения промежуточных векторов в памяти.
Ключевая идея: вместо декартовых координат («5 по X, 10 по Y») используются полярные («длина 10, угол 35°»). Это позволяет сократить объём данных без потери точности.
Сравнительные графики показывают минимальную деградацию при переходе с 4 до 3 бит. Если технология приживётся, это ускорит работу моделей без увеличения потребления памяти.
В OpenIDE Pro появится поддержка ACP
ACP (Agent Communication Protocol) — протокол от JetBrains, позволяющий ИИ-агентам понимать структуру IDE: какие файлы открыты, какая кодовая база, какие инструменты доступны.
Без ACP каждый агент интегрируется вручную. С протоколом агент «знает» среду с первого взаимодействия.
Пока поддержка ACP находится в бета-версии. Доступ предоставляется по заявке на info@openide.ru. Во время тестирования функция будет доступна и в обычной версии OpenIDE.
Anthropic готовит новую модель под кодовым названием Claude Mythos
Слухи о новой модели от Anthropic постепенно подтверждаются. По описаниям, она займет ценовой сегмент выше текущего Claude Opus.
Возможно, в ближайшее время появится подписка за 2000 долларов в месяц.
OpenAI закрывают Sora
Sora задумывалась как соцсеть, где пользователи не загружают контент, а генерируют его — видео, изображения, всё синтетическое.
Проблема в стоимости: генерация видео требует огромных ресурсов. При массовом использовании — десятки видео в день на пользователя — экономическая модель оказалась невыгодной.
История знакомая: Periscope, Clubhouse, теперь Sora — яркий старт, хайп, исчезновение. В отличие от них, MAX прижился с первых дней.
GigaChat 3.1: большое обновление от Сбера
Сбер выпустил обновлённую версию GigaChat. По заявлению компании, это не дообученная чужая модель, а разработка с нуля.
Конкурировать с современными флагманами она пока не может, но уверенно тягается с моделями предыдущего поколения.
Однако неясно, какая модель используется в интерфейсе. Нигде не указано, работает ли сейчас GigaChat 3.1 или более старая версия. Это неудобно и неинтуитивно.
Также в публичных анонсах встречаются технические детали вроде: «Исправлен критический баг в SGLang (0.5.3–0.5.9), из-за которого падало качество при dp > 1». Такие формулировки вряд ли понятны широкой аудитории.