Cursor показал 5 графиков, которые ставят под сомнение все публичные ИИ-бенчмарки для кода

Cursor показал 5 графиков, которые ставят под сомнение все публичные ИИ-бенчмарки для кода

11 марта 2026 года Cursor опубликовал пост под названием «Как мы сравниваем качество моделей в Cursor». Без громких заявлений, без атак на конкурентов — просто пять графиков и спокойное объяснение внутренней системы оценки.

ИИ-сообщество в основном восприняло это как очередной рассказ о корпоративном бенчмарке. Это было ошибкой.

Эти пять графиков вскрывают пять фундаментальных допущений, заложенных в каждый публичный бенчмарк для кодинга. Каждое из них — неявное, неоспоримое и искажающее реальную картину.

Вот что на самом деле показал Cursor. И что он не стал говорить прямо.

График 1: диаграмма рассеяния, которую больше никто не публикует

Первый график — диаграмма рассеяния: по одной оси — корректность по CursorBench, по другой — медианное количество токенов на завершение задачи для каждой модели.

Ни один публичный бенчмарк так не делает. SWE-bench, Terminal-Bench, Aider Polyglot — все они ранжируют модели только по одному параметру: проценту решённых задач. Неявное допущение: главное — решить задачу. Как — неважно.

Cursor показывает: важны оба параметра. Сколько задач решено — и сколько токенов это стоило.

В реальности токены — это задержка и стоимость. Модель, решающая 72% задач за 3 000 токенов, лучше продукт, чем та, что решает 75% за 12 000. Первая отвечает за секунды, вторая — за минуты. Первая стоит копейки, вторая — доллары.

Публичные бенчмарки игнорируют путь к решению. SWE-bench не различает, решена задача за 500 или за 50 000 токенов. В результате индустрия оптимизирует процент, а модели становятся всё многословнее ради маргинального прироста.

«Рассуждающие» модели — яркий пример: они решают больше, но «думают» тысячами токенов, и каждый из них ощущается разработчиком как задержка.

Такие рейтинги — одномерная проекция двумерной реальности. Cursor показывает полную картину. Больше никто этого не делает.

График 2: бенчмарк, который усложняется сам

Второй график — распределение размеров правок (в строках кода) по трём версиям CursorBench. От v1 к v3 распределение смещается вправо: масштаб задач примерно удвоился.

На первый взгляд — просто методологическое обновление. Но смысл глубже.

Задачи в CursorBench берутся из реальных сессий через систему Cursor Blame, которая отслеживает, какой запрос породил закоммиченный код. Если задачи стали крупнее — значит, разработчики стали просить агентов делать больше.

Это коэволюция: агенты растут — растёт и уровень запросов. Бенчмарк адаптируется не по решению исследователей, а по поведению пользователей.

Публичные бенчмарки не могут этого. SWE-bench Verified заморожен на 500 задачах 2024 года. SWE-bench Pro — на 1 865 задачах 2025 года. Они фиксируют снимок прошлого, а не отслеживают, что разработчики просят сегодня.

Распределение задач — ключевая переменная. Если оно смещается, а бенчмарк остаётся прежним, его релевантность незаметно деградирует. Вы продолжаете получать баллы. Но они перестают что-либо значить.

График 3: инвертированная информационная плотность

Третий график — сравнение двух панелей. Слева: длина эталонного решения. Справа: длина описания задачи. CursorBench против SWE-bench Verified, Pro и Multilingual.

CursorBench: короткие описания, длинные решения. Публичные бенчмарки: длинные описания, короткие решения. Информационная плотность инвертирована.

Что это значит?

Длинное описание + короткое решение — задача на следование инструкциям. Проблема чётко описана, трейсбек есть, цель ясна. Модель должна точно исправить код. Это и измеряет SWE-bench.

Короткое описание + длинное решение — задача на понимание намерения. «Поправь логин», «отрефактори пайплайн». Нет детальной спецификации. Модель сама должна понять контекст, принять архитектурные решения, написать код.

Это фундаментально разные когнитивные задачи. Модель, сильная в одной, может провалиться в другой.

161 из 500 задач SWE-bench Verified требуют изменения одной-двух строк. В CursorBench-3 медианное решение крупнее и затрагивает несколько файлов. Вы измеряете не одно и то же. Вы никогда не измеряли одно и то же.

График 4: разделение как диагностика

Четвёртый график — разброс баллов между моделями на CursorBench и публичных бенчмарках. CursorBench даёт большее разделение на фронтире.

Многие видят в этом просто признак того, что бенчмарк сложнее. Но важнее другое — диагностическая ценность.

Если бенчмарк чётко разделяет модели, которые разработчики реально воспринимают как разные — значит, он измеряет что-то значимое. Это и есть дискриминативная валидность.

Если же модели, которые пользователи считают разными, получают близкие баллы (например, Haiku на уровне GPT-5) — бенчмарк теряет смысл. Он измеряет что-то, но не то, что важно.

Cursor утверждает: на CursorBench модели, которые разработчики оценивают выше, действительно набирают больше. На публичных — нет. Это критично, если вы выбираете между топовыми моделями для продакшена.

График 5: тест конструктной валидности, который никто не проводит

Пятый график — самый важный. Он показывает: рейтинги CursorBench лучше коррелируют с онлайн-метриками, чем рейтинги публичных бенчмарков.

В психометрике это называется конструктной валидностью: измеряет ли тест то, что заявляет?

Тест по математике, который предсказывает реальные математические способности, — валиден. Тест, где результат зависит от скорости чтения, — нет, даже если задачи математические.

Cursor показывает: их офлайн-бенчмарк предсказывает, как разработчики реально оценивают модель в продукте. Публичные бенчмарки — нет.

Следовательно, CursorBench обладает более высокой конструктной валидностью для главного — опыта разработчика с кодинг-агентом.

Ни один публичный бенчмарк не публикует доказательств такой валидности. Ни один не показывает, как их баллы связаны с реальной полезностью.

Почему? Потому что для этого нужно: и офлайн-бенчмарк, и онлайн-продукт с пользователями, и инфраструктура, связывающая баллы с поведением. У создателей публичных бенчмарков этого нет. У них есть тесты. Нет реальности.

Cursor опубликовал пять графиков. Позиционировал как методологию. На деле — это пятичастный аргумент: вся экосистема публичных бенчмарков измеряет не то.

  • Одномерные рейтинги вместо границ эффективности.
  • Замороженные задачи вместо коэволюционирующих.
  • Следование инструкциям вместо понимания намерений.
  • Неразличимые баллы вместо дискриминативных рейтингов.
  • Предполагаемая валидность вместо доказанной.

Ни одна другая команда не представила доказательств ни по одному из этих пунктов. Либо не задумывались. Либо не могут. В любом случае — разрыв реален.

Читать оригинал