Разбираем 14 самых популярных бенчмарков для LLM

Разбираем 14 самых популярных бенчмарков для LLM

Opus 4.5 набирает 80,6% на SWE-bench Verified. Opus 4 — 72,5%. Значит ли это, что Opus 4.5 лучше программирует, чем Opus 4?

Возможно. Но SWE-bench Verified этого не доказывает. Он проверяет, как модель чинит небольшие баги в 12 популярных open source Python-репозиториях, которые, скорее всего, уже были в её обучающих данных. Этот бенчмарк не оценивает, как модель справляется с вашим TypeScript-монорепо, Spring Boot-приложением или самописным ORM.

Я написал эту статью, потому что в релизах новых моделей постоянно мелькают одни и те же бенчмарки — и я не понимал, что они означают. Пришлось изучить статьи, код и критику. Результат — разбор 14 бенчмарков: что они тестируют, как устроены, в чём их слабые места и мои личные выводы.

1. SWE-bench Verified

Август 2024 · swebench.com

Что тестирует. Способность LLM исправлять мелкие баги в 12 популярных open source Python-репозиториях.

Как создавался. Исследователи из Princeton и University of Chicago собрали 12 репозиториев, отбирая PR с новыми passing-тестами и привязанными issue. Оригинальный SWE-bench содержал 2294 задачи, но часть оказалась неоднозначной. Люди-ревьюеры отобрали 500 решаемых — отсюда и «Verified» в названии.

Как тестирует. Каждый PR разделяют на тестовый и нетестовый код. Сначала тесты запускают в Docker-контейнере — чтобы убедиться, что они падают. Затем модели дают текст issue, часть контекста и просят написать diff. После применения diff тесты запускают снова — проверяют, проходят ли они.

Что означает результат. Процент задач, где код модели прошёл все тесты из оригинального PR и не сломал существующие.

Пример задачи. Из репозитория Django, ID django__django-16485:

Ticket#34272— floatformat падает на «0.00»
from decimal import Decimal
from django.template.defaultfilters import floatformat
floatformat('0.00', 0)
floatformat(Decimal('0.00'), 0)
Оба вызова бросают ValueError: valid range for prec is [1, MAX_PREC]

Критика. Статья от Scale AI показывает, что 161 из 500 задач решаются 1–2 строками кода. Исследование University of Waterloo предполагает, что многие LLM уже содержат SWE-bench в обучающих данных. Попытка расширить покрытие — SWE-bench Multilingual — всё ещё использует публичные данные. Перспективнее SWE-bench Pro: там используются приватные репозитории реальных компаний.

Мнение автора. SWE-bench Verified отжил своё. Я больше не смотрю на него и надеюсь, что его заменят более релевантные бенчмарки с разнообразием языков и уровней сложности.

2. Terminal-Bench 2.0

Ноябрь 2025 · tbench.ai

Что тестирует. Способность LLM использовать терминал в Linux для решения задач — от взлома архивов до компиляции ядра.

Как создавался. Laude Institute и Stanford University вручную составили 89 задач разной сложности.

Как тестирует. У каждой задачи есть описание и Dockerfile. Тесты на pytest проверяют результат. Используется собственный агентный фреймворк Terminus-2 с доступом к tmux — это обеспечивает одинаковые условия для всех LLM.

Что означает результат. Процент из 89 задач, где тесты прошли успешно.

Пример задачи. extract-moves-from-video:

Скачайте это видео с игрой в Zork: https://www.youtube.com/watch?v=ZCbvyPbhRfA. Затем транскрибируйте весь текст и создайте файл /app/solution.txt со всеми введёнными ходами, по одному на строку, в формате n или get bag и т. д.

Критика. LLM имеют доступ к интернету, что теоретически позволяет им найти информацию о бенчмарке. Авторы утверждают, что не наблюдали такого поведения, но призывают быть бдительными.

Мнение автора. Как человек, много работающий с терминалом, считаю этот бенчмарк одним из самых релевантных. Буду следить за ним в будущем.

3. τ² (tau-bench)

Июнь 2025 · github

Что тестирует. Способность LLM решать проблемы клиентов в сценариях live-чата поддержки.

Как создавался. Sierra Research создала задачи в трёх доменах: retail, авиакомпании и телеком. Схемы баз данных, инструменты и задачи генерировались с помощью LLM и проверялись людьми.

Как тестирует. Задача включает промпты для агента и пользователя — обе роли играет одна и та же LLM. В retail и авиа агент имеет доступ к инструментам (поиск, изменение бронирований). В телекоме и агент, и пользователь используют инструменты. Используется метрика pass^k — до pass^4 в лидерборде.

Пример задачи. Задача №5 из авиадомена:

Вы звоните с жалобой на задержку рейса HAT045 PHX→SEA. Скажите агенту, что вы ценный клиент Gold и очень расстроены, потому что опоздаете на важную встречу. Вы хотите получить максимальную компенсацию. Не принимайте первое предложение. Вы — Mei Brown, user id: mei_brown_7075.

Оценка включает вызов инструмента get_user_details и проверку LLM-судьёй: «Агент определил, что пользователь — не Gold, а Regular» и «Агент не предложил компенсацию».

Критика. Схемы данных слишком простые. Использование одной LLM для обеих ролей неясно: улучшилась ли модель как агент, как пользователь или в целом. System card Opus 4.5 описывает случаи, когда модель находила лазейки. OpenAI исключил авиадомен из GPT-5.2 «из-за низкого качества ground truth» — без пояснений.

Мнение автора. Хорошая инициатива, но бенчмарк пока не даёт уверенности для реального внедрения. Это отправная точка.

4. MCP Atlas

Декабрь 2025 · github

Что тестирует. Способность LLM вызывать несколько MCP-инструментов для ответов на запросы пользователей.

Как создавался. Scale AI создала 1000 запросов на естественном языке, каждый с однозначным ответом и требующий нескольких вызовов инструментов. 500 запросов публичны, 500 — закрыты. Все прошли два раунда ревью, чтобы исключить подсказки.

Как тестирует. Запрос передаётся модели с набором инструментов — полезных и отвлекающих. После ответа другая LLM проверяет утверждения (claims) на корректность.

Что означает результат. Процент запросов, где >75% утверждений верифицированы. Частично правильное утверждение даёт 0,5 балла — LLM-судья решает, что считать «частично правильным».

Пример задачи. ID 6896416f7b30e5d8ccd7c8c7, доступ к Open Library, arXiv, pubmed, Rijksmuseum, WHOIS, Twelve Data:

Я увлёкся вулканами, особенно активными. Хочу узнать: какая самая старая книга по этой теме есть в базе данных, — а также дату создания домена, с которого берутся обложки.

Критика. Почему 75% — успех? Система частичных баллов субъективна. Все инструменты — только для чтения. Также есть вопрос нейтральности: Meta владеет 49% Scale AI и конкурирует в AI-сегменте.

Мнение автора. Многие задачи похожи на загадки, а не на реальные запросы. Скорее буду смотреть на Terminal-Bench 2.0 для оценки работы с инструментами.

5. OSWorld

Апрель 2024 · os-world.github.io

Что тестирует. Способность LLM работать с компьютером через клавиатуру и мышь в графических приложениях.

Как создавался. Исследователи из University of Hong Kong вручную составили 369 задач. Каждую проверили два ревьюера. 30 задач — нерешаемые (для проверки распознавания невозможного). Около трети задач требуют переключения между приложениями.

Как тестирует. Задачи запускаются в виртуальной машине с графическим интерфейсом. LLM получает доступ к клавиатуре и мыши через pyautogui. На каждом шаге модель видит скриншот и может отправить команду ожидания. Проверка — по конечному состоянию.

Что означает результат. Сумма оценок по всем задачам (максимум 1 за задачу), делённая на их количество. Допускается частичный успех.

Пример задачи. Из набора для VSCode:

Установите предел длины строки для переноса кода в 50 символов в VS Code.

Критика. 13 из 46 задач в категории «chrome» сломаны из-за изменений на сайтах. Некоторые тесты проверяют только конечное состояние файла — агент мог изменить его через терминал, а не через VSCode.

Мнение автора. Computer use — важная область (особенно для меня, так как я использую голосовое управление Talon Voice). Хотелось бы более контролируемое окружение и чёткие критерии оценки.

6. ARC-AGI

Ноябрь 2019 · arcprize.org

Что тестирует. ARC-AGI отличается от других бенчмарков: он не тестирует конкретные навыки, а пытается измерить общий интеллект через визуальные головоломки, основанные на «базовых знаниях» — тех, что есть у людей с рождения.

Как создавался. ARC-AGI 1 (2019) — 1000 задач от François Chollet. ARC-AGI 2 (2025) — 1360 задач, каждая создана человеком и проверена. Версия 2 сложнее и устраняет уязвимость к brute-force.

Как тестирует. Каждая задача — сетка цветных квадратов. LLM видят 2–3 примера с решениями, затем решают новую сетку с той же закономерностью. Модель получает 3 попытки, после каждой узнаёт, верен ли ответ.

Критика. Умение решать головоломки плохо коррелирует с реальными задачами вроде агентного программирования. Есть признаки переобучения на задачи бенчмарка. Также отсутствует общепринятое определение AGI, что ставит под сомнение саму цель измерения.

Мнение автора. Ценю нестандартный подход. Я прочитал «On the Measure of Intelligence» — это другой взгляд на оценку LLM. Жду ARC-AGI 3.

7. GPQA Diamond

Ноябрь 2023 · epoch.ai/benchmarks/gpqa-diamond

Что тестирует. Способность LLM отвечать на сложные научные вопросы, доступные только экспертам — даже при наличии интернета (GP — «Google-Proof»).

Как создавался. Исследователи NYU привлекли 61 подрядчика с Upwork (все — PhD или аспиранты) для создания 448 вопросов по биологии, химии и физике. GPQA Diamond — подмножество из 198 вопросов, по которым согласились 2 эксперта и не более 1 неэксперта.

Как тестирует. Вопросы передаются LLM без доступа к интернету. Формат ответа строгий: Answer: (A|B|C|D).

Критика. Автор David Rein открыто признал ошибки в датасете. Топовые модели набирают >90% — бенчмарк насыщается.

Мнение автора. Нанять людей с Upwork — настораживает, но открытость к ошибкам — плюс. 198 вопросов — мало. Научные знания редко нужны в повседневной работе с LLM.

8. MMMU

Ноябрь 2023 · mmmu-benchmark.github.io

Что тестирует. Способность LLM отвечать на вопросы университетского уровня, большинство из которых включают изображения и текст.

Пример:

На рисунке 1 показаны таблица истинности и схема вычислительного устройства для сложения однозначных целых чисел. Как обычно называют простую схему, изображённую на диаграмме?

Как создавался. Исследователи и студенты собрали 11 550 вопросов из экзаменов, тестов и учебников. Охват: дизайн, бизнес, наука, медицина, инженерия. Право и лингвистика исключены — не хватает визуальных задач. 1050 — тренировочные, 10 500 — тестовые.

Критика. MMStar показал, что 42,9% вопросов Gemini Pro отвечает правильно без изображений — признак утечки данных или паттернов. MMMU основан на публичных данных, которые могли попасть в обучающие выборки. OpenAI перешли на MMMU-Pro.

Мнение автора. Хорошо, что кто-то измеряет мультимодальность — я сам часто использую изображения. Но критика серьёзная. MMMU-Pro тоже близится к насыщению.

9. MMLU

Январь 2021 · HuggingFace

Что тестирует. Способность LLM отвечать на вопросы с множественным выбором на 14 языках по широкому спектру дисциплин.

Используя теорему Ферма, найдите остаток от деления 3^47 на 23.
А. 1
Б. 2
В. 3
Г. 4

Как создавался. На основе MMLU 2020 — 15 908 вопросов из открытых источников (включая USMLE и GRE). Все 14 079 тестовых вопросов переведены на 14 языков — итого 196 588 вопросов.

Критика. 28% вопросов требуют культурно-специфичных знаний. 84,9% географических вопросов сосредоточены на Северной Америке и Европе — исключение меняет ранжирование моделей. Исследование University of Edinburgh нашло ошибки: 57% вопросов по вирусологии содержали неточности.

Мнение автора. В пресс-релизах доминируют математика и наука — мультиязычность и мультикультурность недопредставлены. Надеюсь, это изменится.

10. GDPVal

Сентябрь 2025 · openai.com/index/gdpval

Что тестирует. Способность LLM выполнять реальные экономически ценные задачи в разных отраслях.

Как создавался. OpenAI создали 1320 задач для 44 профессий из 9 секторов. Каждая включает запрос и результат (отчёт, код, Excel и т. д.). Задачи создавали профессиональные эксперты. Подмножество из 220 задач опубликовано с AI-оценщиком.

Как тестирует. Запрос передаётся LLM, модель генерирует результат. Люди-эксперты попарно сравнивают: человек против модели — и выбирают победителя.

Пример задачи. Задача 4122f866-01fa-400b-904d-fa171cdab7c7:

Вы разработчик с экспертизой в AWS и serverless. Создайте backend для контактной формы сайта: Lambda на Node.js 18, развёрнутый через Terraform, с API Gateway, валидацией reCAPTCHA и отправкой через SES на основной и admin адреса. Результат: Terraform-конфигурация, Lambda-функция exports.js, Markdown README.

Критика. Конфликт интересов: OpenAI создаёт и модели, и бенчмарк. Большинство задач и методология закрыты. One-shot подход не отражает реальное использование. В анонсе GDPVal Claude Opus 4.1 опередил GPT-5 — подозрительно.

Мнение автора. GDPVal — скорее маркетинговый инструмент, чем объективный бенчмарк.

11. CharXiv Reasoning

Июнь 2024 · charxiv.github.io

Что тестирует. Способность LLM отвечать на вопросы по графикам из arXiv-статей.

Как создавался. Исследователи Princeton скачали статьи за 2020–2023 годы, извлекли графики. Аспиранты отбирали их, удаляли дубликаты — итого 2323 графика. Для каждого — 4 описательных и 1 рассуждающий вопрос (выбирали из 10 вариантов от GPT-4V). 1000 — валидация, 1323 — тест.

Критика. ChartQAPro указывает на низкое визуальное разнообразие (все графики — из arXiv). Линейные графики — 40% выборки. Возможны нереалистичные вопросы из-за генерации через LLM.

Мнение автора. На сайте CharXiv есть AI-сгенерированный музыкальный клип — стоит посмотреть. Недостаток разнообразия источников — проблема. В будущем буду смотреть на ChartQA Pro.

12. AIME 2025

2025 · artificialanalysis.ai

Что тестирует. Способность LLM решать задачи математической олимпиады AIME с целочисленными ответами от 0 до 999.

Как создавался. AIME — школьный экзамен с 1983 года, путь к Международной математической олимпиаде. AIME 2025 содержит 30 вопросов. Artificial Analysis использует его как бенчмарк математических рассуждений.

Как тестирует. Вопросы в LaTeX с промптом. Ответы нормализуют через SymPy. Каждый вопрос повторяют 10 раз, итог — среднее.

Критика. Модели лучше справляются с вариантом 2024 — признак вхождения в обучающие данные. Числовой ответ можно угадать при неверных рассуждениях. Бенчмарк близится к насыщению: топовые модели набирают >90%.

Мнение автора. Не буду следить — вероятно, в 2026 году, когда модели начнут стабильно набирать 100%, он исчезнет.

13. FrontierMath

Ноябрь 2024 · epoch.ai/frontiermath

Что тестирует. Способность LLM решать «исключительно сложные» математические задачи из разных дисциплин.

Как создавался. Epoch AI (при финансировании OpenAI) и 18 университетов создали 350 оригинальных задач 4 уровней сложности. Уровень 4 — 50 задач от профессоров и постдоков. Публично доступны только 12, у OpenAI — доступ ко всем, кроме 73.

Как тестирует. Вопросы в LaTeX. LLM может выполнять Python-код с математическими библиотеками. Ответ — функция answer, возвращающая число за 30 секунд; иначе задача провалена.

Критика. Скандал: OpenAI финансировал создание, но Epoch AI был под NDA до анонса o3 в декабре 2024. Даже создатели задач не знали о финансировании. o3 показал подозрительно высокий результат, который не удалось воспроизвести. OpenAI не упоминали в статье до 5-й редакции. Fortune и TechCrunch осветили ситуацию. Epoch AI продолжает работу, но вопрос о результатах o3 остался открытым.

Мнение автора. История непрозрачная. Доверять результатам FrontierMath невозможно.

14. Humanity's Last Exam

Март 2025 · agi.safe.ai

Что тестирует. Способность LLM отвечать на закрытые экзаменационные вопросы по широкому спектру академических дисциплин.

Как создавался. Centre for AI Safety и Scale AI с участием 1000+ человек из 500+ организаций создали 2500 вопросов. 76% — с точным строковым ответом, 24% — с множественным выбором, 14% — с изображением. Все прошли «adversarial filtering»: если frontier-модель отвечала правильно, вопрос отклоняли. За топ-50 вопросов платили $5000, за следующие 500 — $500.

Как тестирует. Вопросы передаются LLM с системным промптом, ответ проверяется LLM-судьёй.

Критика. Future House утверждает, что ~29% вопросов по биологии и химии противоречат научным исследованиям. Авторы признали ошибочными 18%. Также критикуют сенсационное название — оно создаёт завышенные ожидания.

Мнение автора. После изучения темы мне сложно воспринимать бенчмарки, где LLM отвечают на научные вопросы с множественным выбором. Индустрия слишком сосредоточена на этом — хотя это мало связано с повседневным использованием.

Итоговые мысли

Негативные настроения вокруг AI-бенчмаркинга растут, и после написания этого поста я понимаю почему. Темп развития LLM ставит создателей бенчмарков в сложное положение: нужно успеть создать бенчмарк раньше, чем он мгновенно насытится. Это темп, к которому индустрия не привыкла.

Мы всё ещё в начале пути. Никто не знает, где окажутся модели через 12 месяцев. Это один из самых быстрых технологических трендов за мою карьеру с 2012 года.

Главный вывод: понимание того, что именно измеряет каждый бенчмарк, критически важно. Оценки сложно переводить в реальность. Если нужно оценить модель под конкретную задачу — нет замены собственным тестам.

Читать оригинал