11 марта 2026 года Cursor опубликовал пост под названием «Как мы сравниваем качество моделей в Cursor». Без громких заявлений, без атак на конкурентов — просто пять графиков и спокойное объяснение внутренней системы оценки.
ИИ-сообщество в основном восприняло это как очередной рассказ о корпоративном бенчмарке. Это было ошибкой.
Эти пять графиков вскрывают пять фундаментальных допущений, заложенных в каждый публичный бенчмарк для кодинга. Каждое из них — неявное, неоспоримое и искажающее реальную картину.
Вот что на самом деле показал Cursor. И что он не стал говорить прямо.
График 1: диаграмма рассеяния, которую больше никто не публикует
Первый график — диаграмма рассеяния: по одной оси — корректность по CursorBench, по другой — медианное количество токенов на завершение задачи для каждой модели.
Ни один публичный бенчмарк так не делает. SWE-bench, Terminal-Bench, Aider Polyglot — все они ранжируют модели только по одному параметру: проценту решённых задач. Неявное допущение: главное — решить задачу. Как — неважно.
Cursor показывает: важны оба параметра. Сколько задач решено — и сколько токенов это стоило.
В реальности токены — это задержка и стоимость. Модель, решающая 72% задач за 3 000 токенов, лучше продукт, чем та, что решает 75% за 12 000. Первая отвечает за секунды, вторая — за минуты. Первая стоит копейки, вторая — доллары.
Публичные бенчмарки игнорируют путь к решению. SWE-bench не различает, решена задача за 500 или за 50 000 токенов. В результате индустрия оптимизирует процент, а модели становятся всё многословнее ради маргинального прироста.
«Рассуждающие» модели — яркий пример: они решают больше, но «думают» тысячами токенов, и каждый из них ощущается разработчиком как задержка.
Такие рейтинги — одномерная проекция двумерной реальности. Cursor показывает полную картину. Больше никто этого не делает.
График 2: бенчмарк, который усложняется сам
Второй график — распределение размеров правок (в строках кода) по трём версиям CursorBench. От v1 к v3 распределение смещается вправо: масштаб задач примерно удвоился.
На первый взгляд — просто методологическое обновление. Но смысл глубже.
Задачи в CursorBench берутся из реальных сессий через систему Cursor Blame, которая отслеживает, какой запрос породил закоммиченный код. Если задачи стали крупнее — значит, разработчики стали просить агентов делать больше.
Это коэволюция: агенты растут — растёт и уровень запросов. Бенчмарк адаптируется не по решению исследователей, а по поведению пользователей.
Публичные бенчмарки не могут этого. SWE-bench Verified заморожен на 500 задачах 2024 года. SWE-bench Pro — на 1 865 задачах 2025 года. Они фиксируют снимок прошлого, а не отслеживают, что разработчики просят сегодня.
Распределение задач — ключевая переменная. Если оно смещается, а бенчмарк остаётся прежним, его релевантность незаметно деградирует. Вы продолжаете получать баллы. Но они перестают что-либо значить.
График 3: инвертированная информационная плотность
Третий график — сравнение двух панелей. Слева: длина эталонного решения. Справа: длина описания задачи. CursorBench против SWE-bench Verified, Pro и Multilingual.
CursorBench: короткие описания, длинные решения. Публичные бенчмарки: длинные описания, короткие решения. Информационная плотность инвертирована.
Что это значит?
Длинное описание + короткое решение — задача на следование инструкциям. Проблема чётко описана, трейсбек есть, цель ясна. Модель должна точно исправить код. Это и измеряет SWE-bench.
Короткое описание + длинное решение — задача на понимание намерения. «Поправь логин», «отрефактори пайплайн». Нет детальной спецификации. Модель сама должна понять контекст, принять архитектурные решения, написать код.
Это фундаментально разные когнитивные задачи. Модель, сильная в одной, может провалиться в другой.
161 из 500 задач SWE-bench Verified требуют изменения одной-двух строк. В CursorBench-3 медианное решение крупнее и затрагивает несколько файлов. Вы измеряете не одно и то же. Вы никогда не измеряли одно и то же.
График 4: разделение как диагностика
Четвёртый график — разброс баллов между моделями на CursorBench и публичных бенчмарках. CursorBench даёт большее разделение на фронтире.
Многие видят в этом просто признак того, что бенчмарк сложнее. Но важнее другое — диагностическая ценность.
Если бенчмарк чётко разделяет модели, которые разработчики реально воспринимают как разные — значит, он измеряет что-то значимое. Это и есть дискриминативная валидность.
Если же модели, которые пользователи считают разными, получают близкие баллы (например, Haiku на уровне GPT-5) — бенчмарк теряет смысл. Он измеряет что-то, но не то, что важно.
Cursor утверждает: на CursorBench модели, которые разработчики оценивают выше, действительно набирают больше. На публичных — нет. Это критично, если вы выбираете между топовыми моделями для продакшена.
График 5: тест конструктной валидности, который никто не проводит
Пятый график — самый важный. Он показывает: рейтинги CursorBench лучше коррелируют с онлайн-метриками, чем рейтинги публичных бенчмарков.
В психометрике это называется конструктной валидностью: измеряет ли тест то, что заявляет?
Тест по математике, который предсказывает реальные математические способности, — валиден. Тест, где результат зависит от скорости чтения, — нет, даже если задачи математические.
Cursor показывает: их офлайн-бенчмарк предсказывает, как разработчики реально оценивают модель в продукте. Публичные бенчмарки — нет.
Следовательно, CursorBench обладает более высокой конструктной валидностью для главного — опыта разработчика с кодинг-агентом.
Ни один публичный бенчмарк не публикует доказательств такой валидности. Ни один не показывает, как их баллы связаны с реальной полезностью.
Почему? Потому что для этого нужно: и офлайн-бенчмарк, и онлайн-продукт с пользователями, и инфраструктура, связывающая баллы с поведением. У создателей публичных бенчмарков этого нет. У них есть тесты. Нет реальности.
Cursor опубликовал пять графиков. Позиционировал как методологию. На деле — это пятичастный аргумент: вся экосистема публичных бенчмарков измеряет не то.
- Одномерные рейтинги вместо границ эффективности.
- Замороженные задачи вместо коэволюционирующих.
- Следование инструкциям вместо понимания намерений.
- Неразличимые баллы вместо дискриминативных рейтингов.
- Предполагаемая валидность вместо доказанной.
Ни одна другая команда не представила доказательств ни по одному из этих пунктов. Либо не задумывались. Либо не могут. В любом случае — разрыв реален.