Cursor показал 5 графиков, которые ставят под сомнение все публичные ИИ-бенчмарки для кода

Habr AI 24 мар 2026

11 марта 2026 года Cursor опубликовал пост под названием «Как мы сравниваем качество моделей в Cursor». Без громких заявлений, без атак на конкурентов — просто пять графиков и спокойное объяснение внутренней системы оценки.

ИИ-сообщество в основном восприняло это как очередной рассказ о корпоративном бенчмарке. Это было ошибкой.

Эти пять графиков вскрывают пять фундаментальных допущений, заложенных в каждый публичный бенчмарк для кодинга. Каждое из них — неявное, неоспоримое и искажающее реальную картину.

Вот что на самом деле показал Cursor. И что он не стал говорить прямо.

График 1: диаграмма рассеяния, которую больше никто не публикует

Первый график — диаграмма рассеяния: по одной оси — корректность по CursorBench, по другой — медианное количество токенов на завершение задачи для каждой модели.

Ни один публичный бенчмарк так не делает. SWE-bench, Terminal-Bench, Aider Polyglot — все они ранжируют модели только по одному параметру: проценту решённых задач. Неявное допущение: главное — решить задачу. Как — неважно.

Cursor показывает: важны оба параметра. Сколько задач решено — и сколько токенов это стоило.

В реальности токены — это задержка и стоимость. Модель, решающая 72% задач за 3 000 токенов, лучше продукт, чем та, что решает 75% за 12 000. Первая отвечает за секунды, вторая — за минуты. Первая стоит копейки, вторая — доллары.

Публичные бенчмарки игнорируют путь к решению. SWE-bench не различает, решена задача за 500 или за 50 000 токенов. В результате индустрия оптимизирует процент, а модели становятся всё многословнее ради маргинального прироста.

«Рассуждающие» модели — яркий пример: они решают больше, но «думают» тысячами токенов, и каждый из них ощущается разработчиком как задержка.

Такие рейтинги — одномерная проекция двумерной реальности. Cursor показывает полную картину. Больше никто этого не делает.

График 2: бенчмарк, который усложняется сам

Второй график — распределение размеров правок (в строках кода) по трём версиям CursorBench. От v1 к v3 распределение смещается вправо: масштаб задач примерно удвоился.

На первый взгляд — просто методологическое обновление. Но смысл глубже.

Задачи в CursorBench берутся из реальных сессий через систему Cursor Blame, которая отслеживает, какой запрос породил закоммиченный код. Если задачи стали крупнее — значит, разработчики стали просить агентов делать больше.

Это коэволюция: агенты растут — растёт и уровень запросов. Бенчмарк адаптируется не по решению исследователей, а по поведению пользователей.

Публичные бенчмарки не могут этого. SWE-bench Verified заморожен на 500 задачах 2024 года. SWE-bench Pro — на 1 865 задачах 2025 года. Они фиксируют снимок прошлого, а не отслеживают, что разработчики просят сегодня.

Распределение задач — ключевая переменная. Если оно смещается, а бенчмарк остаётся прежним, его релевантность незаметно деградирует. Вы продолжаете получать баллы. Но они перестают что-либо значить.

График 3: инвертированная информационная плотность

Третий график — сравнение двух панелей. Слева: длина эталонного решения. Справа: длина описания задачи. CursorBench против SWE-bench Verified, Pro и Multilingual.

CursorBench: короткие описания, длинные решения. Публичные бенчмарки: длинные описания, короткие решения. Информационная плотность инвертирована.

Что это значит?

Длинное описание + короткое решение — задача на следование инструкциям. Проблема чётко описана, трейсбек есть, цель ясна. Модель должна точно исправить код. Это и измеряет SWE-bench.

Короткое описание + длинное решение — задача на понимание намерения. «Поправь логин», «отрефактори пайплайн». Нет детальной спецификации. Модель сама должна понять контекст, принять архитектурные решения, написать код.

Это фундаментально разные когнитивные задачи. Модель, сильная в одной, может провалиться в другой.

161 из 500 задач SWE-bench Verified требуют изменения одной-двух строк. В CursorBench-3 медианное решение крупнее и затрагивает несколько файлов. Вы измеряете не одно и то же. Вы никогда не измеряли одно и то же.

График 4: разделение как диагностика

Четвёртый график — разброс баллов между моделями на CursorBench и публичных бенчмарках. CursorBench даёт большее разделение на фронтире.

Многие видят в этом просто признак того, что бенчмарк сложнее. Но важнее другое — диагностическая ценность.

Если бенчмарк чётко разделяет модели, которые разработчики реально воспринимают как разные — значит, он измеряет что-то значимое. Это и есть дискриминативная валидность.

Если же модели, которые пользователи считают разными, получают близкие баллы (например, Haiku на уровне GPT-5) — бенчмарк теряет смысл. Он измеряет что-то, но не то, что важно.

Cursor утверждает: на CursorBench модели, которые разработчики оценивают выше, действительно набирают больше. На публичных — нет. Это критично, если вы выбираете между топовыми моделями для продакшена.

График 5: тест конструктной валидности, который никто не проводит

Пятый график — самый важный. Он показывает: рейтинги CursorBench лучше коррелируют с онлайн-метриками, чем рейтинги публичных бенчмарков.

В психометрике это называется конструктной валидностью: измеряет ли тест то, что заявляет?

Тест по математике, который предсказывает реальные математические способности, — валиден. Тест, где результат зависит от скорости чтения, — нет, даже если задачи математические.

Cursor показывает: их офлайн-бенчмарк предсказывает, как разработчики реально оценивают модель в продукте. Публичные бенчмарки — нет.

Следовательно, CursorBench обладает более высокой конструктной валидностью для главного — опыта разработчика с кодинг-агентом.

Ни один публичный бенчмарк не публикует доказательств такой валидности. Ни один не показывает, как их баллы связаны с реальной полезностью.

Почему? Потому что для этого нужно: и офлайн-бенчмарк, и онлайн-продукт с пользователями, и инфраструктура, связывающая баллы с поведением. У создателей публичных бенчмарков этого нет. У них есть тесты. Нет реальности.

Cursor опубликовал пять графиков. Позиционировал как методологию. На деле — это пятичастный аргумент: вся экосистема публичных бенчмарков измеряет не то.

Одномерные рейтинги вместо границ эффективности.
Замороженные задачи вместо коэволюционирующих.
Следование инструкциям вместо понимания намерений.
Неразличимые баллы вместо дискриминативных рейтингов.
Предполагаемая валидность вместо доказанной.

Ни одна другая команда не представила доказательств ни по одному из этих пунктов. Либо не задумывались. Либо не могут. В любом случае — разрыв реален.

Читать оригинал

Cursor показал 5 графиков, которые ставят под сомнение все публичные ИИ-бенчмарки для кода

График 1: диаграмма рассеяния, которую больше никто не публикует

График 2: бенчмарк, который усложняется сам

График 3: инвертированная информационная плотность

График 4: разделение как диагностика

График 5: тест конструктной валидности, который никто не проводит

Cursor показал 5 графиков, которые хоронят все публичные ИИ-бенчмарки для кода. Разбираемся

График 1: диаграмма рассеяния, которую больше никто не публикует

График 2: бенчмарк, который становится сложнее сам

График 3: инвертированная информационная плотность

График 4: разделение как диагностика

График 5: тест конструктной валидности, который никто не проводит