Разбираем 14 самых популярных бенчмарков для LLM

Habr AI 6 апр 2026

Opus 4.5 набирает 80,6% на SWE-bench Verified. Opus 4 — 72,5%. Значит ли это, что Opus 4.5 лучше программирует, чем Opus 4?

Возможно. Но SWE-bench Verified этого не доказывает. Он проверяет, как модель чинит небольшие баги в 12 популярных open source Python-репозиториях, которые, скорее всего, уже были в её обучающих данных. Этот бенчмарк не оценивает, как модель справляется с вашим TypeScript-монорепо, Spring Boot-приложением или самописным ORM.

Я написал эту статью, потому что в релизах новых моделей постоянно мелькают одни и те же бенчмарки — и я не понимал, что они означают. Пришлось изучить статьи, код и критику. Результат — разбор 14 бенчмарков: что они тестируют, как устроены, в чём их слабые места и мои личные выводы.

1. SWE-bench Verified

Август 2024 · swebench.com

Что тестирует. Способность LLM исправлять мелкие баги в 12 популярных open source Python-репозиториях.

Как создавался. Исследователи из Princeton и University of Chicago собрали 12 репозиториев, отбирая PR с новыми passing-тестами и привязанными issue. Оригинальный SWE-bench содержал 2294 задачи, но часть оказалась неоднозначной. Люди-ревьюеры отобрали 500 решаемых — отсюда и «Verified» в названии.

Как тестирует. Каждый PR разделяют на тестовый и нетестовый код. Сначала тесты запускают в Docker-контейнере — чтобы убедиться, что они падают. Затем модели дают текст issue, часть контекста и просят написать diff. После применения diff тесты запускают снова — проверяют, проходят ли они.

Что означает результат. Процент задач, где код модели прошёл все тесты из оригинального PR и не сломал существующие.

Пример задачи. Из репозитория Django, ID django__django-16485:

Ticket#34272— floatformat падает на «0.00»
from decimal import Decimal
from django.template.defaultfilters import floatformat
floatformat('0.00', 0)
floatformat(Decimal('0.00'), 0)
Оба вызова бросают ValueError: valid range for prec is [1, MAX_PREC]

Критика. Статья от Scale AI показывает, что 161 из 500 задач решаются 1–2 строками кода. Исследование University of Waterloo предполагает, что многие LLM уже содержат SWE-bench в обучающих данных. Попытка расширить покрытие — SWE-bench Multilingual — всё ещё использует публичные данные. Перспективнее SWE-bench Pro: там используются приватные репозитории реальных компаний.

Мнение автора. SWE-bench Verified отжил своё. Я больше не смотрю на него и надеюсь, что его заменят более релевантные бенчмарки с разнообразием языков и уровней сложности.

2. Terminal-Bench 2.0

Ноябрь 2025 · tbench.ai

Что тестирует. Способность LLM использовать терминал в Linux для решения задач — от взлома архивов до компиляции ядра.

Как создавался. Laude Institute и Stanford University вручную составили 89 задач разной сложности.

Как тестирует. У каждой задачи есть описание и Dockerfile. Тесты на pytest проверяют результат. Используется собственный агентный фреймворк Terminus-2 с доступом к tmux — это обеспечивает одинаковые условия для всех LLM.

Что означает результат. Процент из 89 задач, где тесты прошли успешно.

Пример задачи. extract-moves-from-video:

Скачайте это видео с игрой в Zork: https://www.youtube.com/watch?v=ZCbvyPbhRfA. Затем транскрибируйте весь текст и создайте файл /app/solution.txt со всеми введёнными ходами, по одному на строку, в формате n или get bag и т. д.

Критика. LLM имеют доступ к интернету, что теоретически позволяет им найти информацию о бенчмарке. Авторы утверждают, что не наблюдали такого поведения, но призывают быть бдительными.

Мнение автора. Как человек, много работающий с терминалом, считаю этот бенчмарк одним из самых релевантных. Буду следить за ним в будущем.

3. τ² (tau-bench)

Июнь 2025 · github

Что тестирует. Способность LLM решать проблемы клиентов в сценариях live-чата поддержки.

Как создавался. Sierra Research создала задачи в трёх доменах: retail, авиакомпании и телеком. Схемы баз данных, инструменты и задачи генерировались с помощью LLM и проверялись людьми.

Как тестирует. Задача включает промпты для агента и пользователя — обе роли играет одна и та же LLM. В retail и авиа агент имеет доступ к инструментам (поиск, изменение бронирований). В телекоме и агент, и пользователь используют инструменты. Используется метрика pass^k — до pass^4 в лидерборде.

Пример задачи. Задача №5 из авиадомена:

Вы звоните с жалобой на задержку рейса HAT045 PHX→SEA. Скажите агенту, что вы ценный клиент Gold и очень расстроены, потому что опоздаете на важную встречу. Вы хотите получить максимальную компенсацию. Не принимайте первое предложение. Вы — Mei Brown, user id: mei_brown_7075.

Оценка включает вызов инструмента get_user_details и проверку LLM-судьёй: «Агент определил, что пользователь — не Gold, а Regular» и «Агент не предложил компенсацию».

Критика. Схемы данных слишком простые. Использование одной LLM для обеих ролей неясно: улучшилась ли модель как агент, как пользователь или в целом. System card Opus 4.5 описывает случаи, когда модель находила лазейки. OpenAI исключил авиадомен из GPT-5.2 «из-за низкого качества ground truth» — без пояснений.

Мнение автора. Хорошая инициатива, но бенчмарк пока не даёт уверенности для реального внедрения. Это отправная точка.

4. MCP Atlas

Декабрь 2025 · github

Что тестирует. Способность LLM вызывать несколько MCP-инструментов для ответов на запросы пользователей.

Как создавался. Scale AI создала 1000 запросов на естественном языке, каждый с однозначным ответом и требующий нескольких вызовов инструментов. 500 запросов публичны, 500 — закрыты. Все прошли два раунда ревью, чтобы исключить подсказки.

Как тестирует. Запрос передаётся модели с набором инструментов — полезных и отвлекающих. После ответа другая LLM проверяет утверждения (claims) на корректность.

Что означает результат. Процент запросов, где >75% утверждений верифицированы. Частично правильное утверждение даёт 0,5 балла — LLM-судья решает, что считать «частично правильным».

Пример задачи. ID 6896416f7b30e5d8ccd7c8c7, доступ к Open Library, arXiv, pubmed, Rijksmuseum, WHOIS, Twelve Data:

Я увлёкся вулканами, особенно активными. Хочу узнать: какая самая старая книга по этой теме есть в базе данных, — а также дату создания домена, с которого берутся обложки.

Критика. Почему 75% — успех? Система частичных баллов субъективна. Все инструменты — только для чтения. Также есть вопрос нейтральности: Meta владеет 49% Scale AI и конкурирует в AI-сегменте.

Мнение автора. Многие задачи похожи на загадки, а не на реальные запросы. Скорее буду смотреть на Terminal-Bench 2.0 для оценки работы с инструментами.

5. OSWorld

Апрель 2024 · os-world.github.io

Что тестирует. Способность LLM работать с компьютером через клавиатуру и мышь в графических приложениях.

Как создавался. Исследователи из University of Hong Kong вручную составили 369 задач. Каждую проверили два ревьюера. 30 задач — нерешаемые (для проверки распознавания невозможного). Около трети задач требуют переключения между приложениями.

Как тестирует. Задачи запускаются в виртуальной машине с графическим интерфейсом. LLM получает доступ к клавиатуре и мыши через pyautogui. На каждом шаге модель видит скриншот и может отправить команду ожидания. Проверка — по конечному состоянию.

Что означает результат. Сумма оценок по всем задачам (максимум 1 за задачу), делённая на их количество. Допускается частичный успех.

Пример задачи. Из набора для VSCode:

Установите предел длины строки для переноса кода в 50 символов в VS Code.

Критика. 13 из 46 задач в категории «chrome» сломаны из-за изменений на сайтах. Некоторые тесты проверяют только конечное состояние файла — агент мог изменить его через терминал, а не через VSCode.

Мнение автора. Computer use — важная область (особенно для меня, так как я использую голосовое управление Talon Voice). Хотелось бы более контролируемое окружение и чёткие критерии оценки.

6. ARC-AGI

Ноябрь 2019 · arcprize.org

Что тестирует. ARC-AGI отличается от других бенчмарков: он не тестирует конкретные навыки, а пытается измерить общий интеллект через визуальные головоломки, основанные на «базовых знаниях» — тех, что есть у людей с рождения.

Как создавался. ARC-AGI 1 (2019) — 1000 задач от François Chollet. ARC-AGI 2 (2025) — 1360 задач, каждая создана человеком и проверена. Версия 2 сложнее и устраняет уязвимость к brute-force.

Как тестирует. Каждая задача — сетка цветных квадратов. LLM видят 2–3 примера с решениями, затем решают новую сетку с той же закономерностью. Модель получает 3 попытки, после каждой узнаёт, верен ли ответ.

Критика. Умение решать головоломки плохо коррелирует с реальными задачами вроде агентного программирования. Есть признаки переобучения на задачи бенчмарка. Также отсутствует общепринятое определение AGI, что ставит под сомнение саму цель измерения.

Мнение автора. Ценю нестандартный подход. Я прочитал «On the Measure of Intelligence» — это другой взгляд на оценку LLM. Жду ARC-AGI 3.

7. GPQA Diamond

Ноябрь 2023 · epoch.ai/benchmarks/gpqa-diamond

Что тестирует. Способность LLM отвечать на сложные научные вопросы, доступные только экспертам — даже при наличии интернета (GP — «Google-Proof»).

Как создавался. Исследователи NYU привлекли 61 подрядчика с Upwork (все — PhD или аспиранты) для создания 448 вопросов по биологии, химии и физике. GPQA Diamond — подмножество из 198 вопросов, по которым согласились 2 эксперта и не более 1 неэксперта.

Как тестирует. Вопросы передаются LLM без доступа к интернету. Формат ответа строгий: Answer: (A|B|C|D).

Критика. Автор David Rein открыто признал ошибки в датасете. Топовые модели набирают >90% — бенчмарк насыщается.

Мнение автора. Нанять людей с Upwork — настораживает, но открытость к ошибкам — плюс. 198 вопросов — мало. Научные знания редко нужны в повседневной работе с LLM.

8. MMMU

Ноябрь 2023 · mmmu-benchmark.github.io

Что тестирует. Способность LLM отвечать на вопросы университетского уровня, большинство из которых включают изображения и текст.

Пример:

На рисунке 1 показаны таблица истинности и схема вычислительного устройства для сложения однозначных целых чисел. Как обычно называют простую схему, изображённую на диаграмме?

Как создавался. Исследователи и студенты собрали 11 550 вопросов из экзаменов, тестов и учебников. Охват: дизайн, бизнес, наука, медицина, инженерия. Право и лингвистика исключены — не хватает визуальных задач. 1050 — тренировочные, 10 500 — тестовые.

Критика. MMStar показал, что 42,9% вопросов Gemini Pro отвечает правильно без изображений — признак утечки данных или паттернов. MMMU основан на публичных данных, которые могли попасть в обучающие выборки. OpenAI перешли на MMMU-Pro.

Мнение автора. Хорошо, что кто-то измеряет мультимодальность — я сам часто использую изображения. Но критика серьёзная. MMMU-Pro тоже близится к насыщению.

9. MMLU

Январь 2021 · HuggingFace

Что тестирует. Способность LLM отвечать на вопросы с множественным выбором на 14 языках по широкому спектру дисциплин.

Используя теорему Ферма, найдите остаток от деления 3^47 на 23.
А. 1
Б. 2
В. 3
Г. 4

Как создавался. На основе MMLU 2020 — 15 908 вопросов из открытых источников (включая USMLE и GRE). Все 14 079 тестовых вопросов переведены на 14 языков — итого 196 588 вопросов.

Критика. 28% вопросов требуют культурно-специфичных знаний. 84,9% географических вопросов сосредоточены на Северной Америке и Европе — исключение меняет ранжирование моделей. Исследование University of Edinburgh нашло ошибки: 57% вопросов по вирусологии содержали неточности.

Мнение автора. В пресс-релизах доминируют математика и наука — мультиязычность и мультикультурность недопредставлены. Надеюсь, это изменится.

10. GDPVal

Сентябрь 2025 · openai.com/index/gdpval

Что тестирует. Способность LLM выполнять реальные экономически ценные задачи в разных отраслях.

Как создавался. OpenAI создали 1320 задач для 44 профессий из 9 секторов. Каждая включает запрос и результат (отчёт, код, Excel и т. д.). Задачи создавали профессиональные эксперты. Подмножество из 220 задач опубликовано с AI-оценщиком.

Как тестирует. Запрос передаётся LLM, модель генерирует результат. Люди-эксперты попарно сравнивают: человек против модели — и выбирают победителя.

Пример задачи. Задача 4122f866-01fa-400b-904d-fa171cdab7c7:

Вы разработчик с экспертизой в AWS и serverless. Создайте backend для контактной формы сайта: Lambda на Node.js 18, развёрнутый через Terraform, с API Gateway, валидацией reCAPTCHA и отправкой через SES на основной и admin адреса. Результат: Terraform-конфигурация, Lambda-функция exports.js, Markdown README.

Критика. Конфликт интересов: OpenAI создаёт и модели, и бенчмарк. Большинство задач и методология закрыты. One-shot подход не отражает реальное использование. В анонсе GDPVal Claude Opus 4.1 опередил GPT-5 — подозрительно.

Мнение автора. GDPVal — скорее маркетинговый инструмент, чем объективный бенчмарк.

11. CharXiv Reasoning

Июнь 2024 · charxiv.github.io

Что тестирует. Способность LLM отвечать на вопросы по графикам из arXiv-статей.

Как создавался. Исследователи Princeton скачали статьи за 2020–2023 годы, извлекли графики. Аспиранты отбирали их, удаляли дубликаты — итого 2323 графика. Для каждого — 4 описательных и 1 рассуждающий вопрос (выбирали из 10 вариантов от GPT-4V). 1000 — валидация, 1323 — тест.

Критика. ChartQAPro указывает на низкое визуальное разнообразие (все графики — из arXiv). Линейные графики — 40% выборки. Возможны нереалистичные вопросы из-за генерации через LLM.

Мнение автора. На сайте CharXiv есть AI-сгенерированный музыкальный клип — стоит посмотреть. Недостаток разнообразия источников — проблема. В будущем буду смотреть на ChartQA Pro.

12. AIME 2025

2025 · artificialanalysis.ai

Что тестирует. Способность LLM решать задачи математической олимпиады AIME с целочисленными ответами от 0 до 999.

Как создавался. AIME — школьный экзамен с 1983 года, путь к Международной математической олимпиаде. AIME 2025 содержит 30 вопросов. Artificial Analysis использует его как бенчмарк математических рассуждений.

Как тестирует. Вопросы в LaTeX с промптом. Ответы нормализуют через SymPy. Каждый вопрос повторяют 10 раз, итог — среднее.

Критика. Модели лучше справляются с вариантом 2024 — признак вхождения в обучающие данные. Числовой ответ можно угадать при неверных рассуждениях. Бенчмарк близится к насыщению: топовые модели набирают >90%.

Мнение автора. Не буду следить — вероятно, в 2026 году, когда модели начнут стабильно набирать 100%, он исчезнет.

13. FrontierMath

Ноябрь 2024 · epoch.ai/frontiermath

Что тестирует. Способность LLM решать «исключительно сложные» математические задачи из разных дисциплин.

Как создавался. Epoch AI (при финансировании OpenAI) и 18 университетов создали 350 оригинальных задач 4 уровней сложности. Уровень 4 — 50 задач от профессоров и постдоков. Публично доступны только 12, у OpenAI — доступ ко всем, кроме 73.

Как тестирует. Вопросы в LaTeX. LLM может выполнять Python-код с математическими библиотеками. Ответ — функция answer, возвращающая число за 30 секунд; иначе задача провалена.

Критика. Скандал: OpenAI финансировал создание, но Epoch AI был под NDA до анонса o3 в декабре 2024. Даже создатели задач не знали о финансировании. o3 показал подозрительно высокий результат, который не удалось воспроизвести. OpenAI не упоминали в статье до 5-й редакции. Fortune и TechCrunch осветили ситуацию. Epoch AI продолжает работу, но вопрос о результатах o3 остался открытым.

Мнение автора. История непрозрачная. Доверять результатам FrontierMath невозможно.

14. Humanity's Last Exam

Март 2025 · agi.safe.ai

Что тестирует. Способность LLM отвечать на закрытые экзаменационные вопросы по широкому спектру академических дисциплин.

Как создавался. Centre for AI Safety и Scale AI с участием 1000+ человек из 500+ организаций создали 2500 вопросов. 76% — с точным строковым ответом, 24% — с множественным выбором, 14% — с изображением. Все прошли «adversarial filtering»: если frontier-модель отвечала правильно, вопрос отклоняли. За топ-50 вопросов платили $5000, за следующие 500 — $500.

Как тестирует. Вопросы передаются LLM с системным промптом, ответ проверяется LLM-судьёй.

Критика. Future House утверждает, что ~29% вопросов по биологии и химии противоречат научным исследованиям. Авторы признали ошибочными 18%. Также критикуют сенсационное название — оно создаёт завышенные ожидания.

Мнение автора. После изучения темы мне сложно воспринимать бенчмарки, где LLM отвечают на научные вопросы с множественным выбором. Индустрия слишком сосредоточена на этом — хотя это мало связано с повседневным использованием.

Итоговые мысли

Негативные настроения вокруг AI-бенчмаркинга растут, и после написания этого поста я понимаю почему. Темп развития LLM ставит создателей бенчмарков в сложное положение: нужно успеть создать бенчмарк раньше, чем он мгновенно насытится. Это темп, к которому индустрия не привыкла.

Мы всё ещё в начале пути. Никто не знает, где окажутся модели через 12 месяцев. Это один из самых быстрых технологических трендов за мою карьеру с 2012 года.

Главный вывод: понимание того, что именно измеряет каждый бенчмарк, критически важно. Оценки сложно переводить в реальность. Если нужно оценить модель под конкретную задачу — нет замены собственным тестам.

Читать оригинал

Разбираем 14 самых популярных бенчмарков для LLM

1. SWE-bench Verified

2. Terminal-Bench 2.0

3. τ² (tau-bench)

4. MCP Atlas

5. OSWorld

6. ARC-AGI

7. GPQA Diamond

8. MMMU

9. MMLU

10. GDPVal

11. CharXiv Reasoning

12. AIME 2025

13. FrontierMath

14. Humanity's Last Exam

Итоговые мысли

Разбираем 14 самых популярных бенчмарков для LLM

1. SWE-bench Verified

2. Terminal-Bench 2.0

3. τ² (tau-bench)

4. MCP Atlas

5. OSWorld

6. ARC-AGI

7. GPQA Diamond

10. GDPVal

11. CharXiv Reasoning

12. AIME 2025

13. FrontierMath

14. Humanity's Last Exam

Итоговые мысли

Русскоязычное сообщество про AI в разработке