В области оценки языковых моделей (LLM) для кибербезопасности отсутствует единая система. Существующие бенчмарки часто противоречивы, а некоторые из них — небрежно составлены. Однако можно выделить два основных типа тестов: энциклопедические и скиловые.
Энциклопедические бенчмарки проверяют, что модель знает: термины, стандарты, протоколы, CVE. Обычно используются вопросы с выбором ответа (MCQ). В таких тестах даже небольшие модели давно превосходят людей.
Скиловые бенчмарки оценивают, что модель умеет делать: решать CTF-задачи, проводить расследования инцидентов, эксплуатировать уязвимости. Здесь различия между моделями значимы, а результаты зависят от агентских паттернов, RAG и веб-поиска.
Часть 1. Знания из книжек
1. CyberMetric
Arxiv:2402.07688
CyberMetric — один из самых качественных бенчмарков в категории энциклопедических знаний. Включает 10 000 вопросов по семи доменам: пентест, криптография, сетевая безопасность, информационная безопасность, комплаенс, облако, стандарты NIST и RFC. Вопросы соответствуют уровню вузовского курса.
Модели значительно превосходят людей: gpt-3.5-turbo — около 85%, опытные специалисты — 75%. Современные модели показывают ещё более высокие результаты.
Вывод: CyberMetric полезен для тестирования маленьких моделей или влияния квантизации. Для крупных моделей порог слишком низкий.
2. MAET/CWET/KCV
Arxiv:2405.20441v2
Этот бенчмарк использует вопросы, сгенерированные на основе реальных документов: MITRE ATT&CK, CVE, CWE, материалы CISA. Генерация — через GPT-4o с последующей проверкой экспертами.
Форматы задач включают:
- True/False по конкретным CVE (например: «CVE-2024-0011 допускает выполнение произвольного кода — правда или ложь?»).
- RERT — оценка риска по описанию уязвимости.
- CPST — вычисление CVSS по вектору атаки.
Результаты людей (аспиранты и специалисты с 2–10 годами опыта): 77% (MAET), 78% (CWET), 68% (KCV). LLM превосходят эти показатели.
Вывод: подходит для оценки средних задач ИБ, особенно в области threat intelligence.
3. DFIR-Metric
Arxiv:2505.19973
Бенчмарк состоит из трёх частей:
- Knowledge assessment — 700 MCQ из сертификаций и документации. По сложности близок к CyberMetric.
- Realistic forensic challenges — 150 задач в стиле CTF. Например, нужно расшифровать hex-дамп, выявив нетривиальный паттерн кодирования.
- Practical analysis — 500 кейсов из материалов NIST по цифровой форензике.
В знаниях модели показывают высокие результаты: GPT-4.1 — до 92,75%. Однако сложные задачи из второго и третьего модуля решаются плохо. Авторы не привели данные о результатах людей.
Вывод: знания даются легче, чем навыки.
4. SecBench
Arxiv:2412.20787
Самый масштабный бенчмарк в категории: 44 823 MCQ и 3 087 SAQ (вопросов с развёрнутым ответом). Охватывает девять доменов, два языка, два уровня сложности.
Большинство вопросов — на китайском. Англоязычная часть небольшая и работает неидеально. Разработан китайскими исследователями для китайской аудитории.
Топ-модели: Hunyuan-Turbo (94,28%), DeepSeek-V3 (92,79%), Qwen2-72B-Instruct (92,41%).
Вывод: полезен для китайской аудитории или тестирования на большом датасете. В остальных случаях есть лучшие альтернативы.
5. AthenaBench
Arxiv:2511.01144v1
Улучшенная версия CTIBench. Оценивает шесть типов задач в области cyber threat intelligence:
- CTI knowledge test — знания по тактикам и техникам.
- Attack technique extraction — маппинг описания атаки на технику MITRE.
- Root cause mapping — маппинг CVE на CWE.
- Vulnerability severity prediction — составление CVSS-строки.
- Risk mitigation strategy.
- Threat actor attribution.
Позволяет проверить, может ли модель понять, что атака соответствует T1562 (Impair Defenses), и предложить действия. Это ближе к реальной работе аналитика.
Результаты: GPT-5 — 66,1%, Gemini 2.5 Pro и GPT-4o — чуть ниже. Среди open-source — Llama 3.3 70B (46,5%).
Интересно, что GPT-5 с веб-поиском показал прирост на 24 п. п. Это отражает реальность: аналитики тоже ищут информацию в интернете.
Вывод: один из лучших бенчмарков для оценки CTI-способностей. Рекомендуется как минимум для тестирования аналитических навыков.
6. CyberSOCEval
Arxiv:2509.20166
Совместный проект CrowdStrike и Meta. Первый модуль — threat intelligence — использует необработанные PDF-отчёты с сайта CrowdStrike, включая артефакты и плохое качество. Данные извлекались с помощью Llama 3.2 90B, что неоптимально. Вопросы сгенерированы по этим данным.
Второй модуль — malware analysis — более ценен. Включает 609 образцов вредоносного ПО для Windows, запущенных в изолированной среде. Логи записаны в JSON и использованы для генерации вопросов, проверенных экспертами.
Логи — настоящие, подробные, с разнообразием семейств, цепочками поведения и промежуточными выводами.
Вывод: как бенчмарк — слабый. Но как датасет с реальными трейсами песочниц — потенциально полезен для разработчиков EDR, антивирусов и песочниц.
Часть 2. Умеет делать
7. CyBench
Arxiv:2510.14113
Разработан авторами из Stanford и опубликован на одной из ведущих ML-конференций. В лаборатории развёрнуто 40 реальных CTF-тасков от HackTheBox, HKCERT и других. Есть сабтаски для оценки промежуточных шагов.
Задачи охватывают шесть категорий: crypto, web, rev, forensics, misc, pwn. Сложность ранжируется по времени решения людьми.
Результаты: Claude Opus 4.6 — 93%, Claude 4.5 Sonnet — 60%, Grok 4 — 43%. GPT-4o — 17,5%.
За несколько поколений моделей процент решённых задач вырос с 20% до 82%. При этом задачи не тривиальные — некоторые люди решали их часами.
Вывод: один из лучших action-бенчмарков.
8. BountyBench
Arxiv:2505.15216
Уникален тем, что оценивает задачи не по сложности, а по их стоимости на багбаунти-платформах. Также рассчитывается стоимость запуска модели в токенах, что позволяет оценить экономическую эффективность LLM в кибербезопасности.
Три типа задач:
- Detect — найти уязвимость.
- Exploit — написать эксплойт по отчёту.
- Patch — написать патч по отчёту.
Лидеры: Claude Code, OpenAI Codex CLI o3-high, o4-mini. Среди open-source — C-Agent на Claude 3.7.
Патчинг даётся моделям легче, чем детектирование.
Вывод: лучший бенчмарк для оценки экономической ценности LLM-агентов в продуктовой безопасности.
9. ExCyTIn-Bench
Arxiv:2507.14201
Разработан совместно Microsoft Security AI Research, американскими и китайскими университетами. Наиболее близок к реальной работе SOC.
Моделировались восемь многоэтапных атак — от фишинга до APT. Из Microsoft Sentinel собрано 57 лог-таблиц, на основе которых автоматически сгенерировано 589 вопросов.
Агент получает доступ к MySQL-базе с логами и должен выполнять SQL-запросы. Пример вопроса: «Был зафиксирован вход с анонимного IP-адреса 170.54.121.63 в 11:01:27. Какой SID аккаунта был вовлечен в подозрительное правило манипуляции с входящими письмами?» Агент проходит цепочку из 16 шагов, включая шаги с пустыми или ошибочными результатами.
Результаты (avg reward, шкала 0–1): Claude Opus 4.5 — 0,606, GPT-5.1 — 0,582, GPT-5 — 0,562.
Метрика учитывает не только правильность ответа, но и эффективность пути: количество запросов, релевантность шагов.
Агентские паттерны (ReAct, Expel, Reflect, BoN) значительно улучшают результаты. Например, GPT-4o с ReAct поднимается с 0,293 до 0,354.
Вывод: самый реалистичный бенчмарк для автоматизации расследований. Аналог MITRE Evals, но для LLM-агентов. Обязателен к рассмотрению при создании SOC-продуктов.
Кратко о других бенчмарках
Также существуют CSEBenchmark, CS-Eval и SecEval — аналоги знаниевых тестов, но менее известные и не добавляющие принципиально нового.
Для наступательной безопасности и автономного редтиминга есть ArtBench.
Итоги и рекомендации
На начало 2026 года картина такова: в тестах на знания даже небольшие модели превосходят людей. Реальные различия проявляются в action-задачах, где важны агентские паттерны, веб-поиск и RAG.
Минимальный набор бенчмарков:
- Для знаний: CyberMetric (базовый уровень, проверка малых моделей) + AthenaBench (средняя сложность, CTI-задачи).
- Для навыков: CyBench (CTF, полноценная среда) + ExCyTIn-Bench (расследование инцидентов, если продукт связан с SOC).
- Для экономической оценки: BountyBench (ROI в задачах поиска и устранения уязвимостей).