Как измерить LLM для задач кибербезопасности: обзор открытых бенчмарков

Как измерить LLM для задач кибербезопасности: обзор открытых бенчмарков

В области оценки языковых моделей (LLM) для кибербезопасности отсутствует единая система. Существующие бенчмарки часто противоречивы, а некоторые из них — небрежно составлены. Однако можно выделить два основных типа тестов: энциклопедические и скиловые.

Энциклопедические бенчмарки проверяют, что модель знает: термины, стандарты, протоколы, CVE. Обычно используются вопросы с выбором ответа (MCQ). В таких тестах даже небольшие модели давно превосходят людей.

Скиловые бенчмарки оценивают, что модель умеет делать: решать CTF-задачи, проводить расследования инцидентов, эксплуатировать уязвимости. Здесь различия между моделями значимы, а результаты зависят от агентских паттернов, RAG и веб-поиска.

Часть 1. Знания из книжек

1. CyberMetric

Arxiv:2402.07688

CyberMetric — один из самых качественных бенчмарков в категории энциклопедических знаний. Включает 10 000 вопросов по семи доменам: пентест, криптография, сетевая безопасность, информационная безопасность, комплаенс, облако, стандарты NIST и RFC. Вопросы соответствуют уровню вузовского курса.

Модели значительно превосходят людей: gpt-3.5-turbo — около 85%, опытные специалисты — 75%. Современные модели показывают ещё более высокие результаты.

Вывод: CyberMetric полезен для тестирования маленьких моделей или влияния квантизации. Для крупных моделей порог слишком низкий.

2. MAET/CWET/KCV

Arxiv:2405.20441v2

Этот бенчмарк использует вопросы, сгенерированные на основе реальных документов: MITRE ATT&CK, CVE, CWE, материалы CISA. Генерация — через GPT-4o с последующей проверкой экспертами.

Форматы задач включают:

  • True/False по конкретным CVE (например: «CVE-2024-0011 допускает выполнение произвольного кода — правда или ложь?»).
  • RERT — оценка риска по описанию уязвимости.
  • CPST — вычисление CVSS по вектору атаки.

Результаты людей (аспиранты и специалисты с 2–10 годами опыта): 77% (MAET), 78% (CWET), 68% (KCV). LLM превосходят эти показатели.

Вывод: подходит для оценки средних задач ИБ, особенно в области threat intelligence.

3. DFIR-Metric

Arxiv:2505.19973

Бенчмарк состоит из трёх частей:

  1. Knowledge assessment — 700 MCQ из сертификаций и документации. По сложности близок к CyberMetric.
  2. Realistic forensic challenges — 150 задач в стиле CTF. Например, нужно расшифровать hex-дамп, выявив нетривиальный паттерн кодирования.
  3. Practical analysis — 500 кейсов из материалов NIST по цифровой форензике.

В знаниях модели показывают высокие результаты: GPT-4.1 — до 92,75%. Однако сложные задачи из второго и третьего модуля решаются плохо. Авторы не привели данные о результатах людей.

Вывод: знания даются легче, чем навыки.

4. SecBench

Arxiv:2412.20787

Самый масштабный бенчмарк в категории: 44 823 MCQ и 3 087 SAQ (вопросов с развёрнутым ответом). Охватывает девять доменов, два языка, два уровня сложности.

Большинство вопросов — на китайском. Англоязычная часть небольшая и работает неидеально. Разработан китайскими исследователями для китайской аудитории.

Топ-модели: Hunyuan-Turbo (94,28%), DeepSeek-V3 (92,79%), Qwen2-72B-Instruct (92,41%).

Вывод: полезен для китайской аудитории или тестирования на большом датасете. В остальных случаях есть лучшие альтернативы.

5. AthenaBench

Arxiv:2511.01144v1

Улучшенная версия CTIBench. Оценивает шесть типов задач в области cyber threat intelligence:

  • CTI knowledge test — знания по тактикам и техникам.
  • Attack technique extraction — маппинг описания атаки на технику MITRE.
  • Root cause mapping — маппинг CVE на CWE.
  • Vulnerability severity prediction — составление CVSS-строки.
  • Risk mitigation strategy.
  • Threat actor attribution.

Позволяет проверить, может ли модель понять, что атака соответствует T1562 (Impair Defenses), и предложить действия. Это ближе к реальной работе аналитика.

Результаты: GPT-5 — 66,1%, Gemini 2.5 Pro и GPT-4o — чуть ниже. Среди open-source — Llama 3.3 70B (46,5%).

Интересно, что GPT-5 с веб-поиском показал прирост на 24 п. п. Это отражает реальность: аналитики тоже ищут информацию в интернете.

Вывод: один из лучших бенчмарков для оценки CTI-способностей. Рекомендуется как минимум для тестирования аналитических навыков.

6. CyberSOCEval

Arxiv:2509.20166

Совместный проект CrowdStrike и Meta. Первый модуль — threat intelligence — использует необработанные PDF-отчёты с сайта CrowdStrike, включая артефакты и плохое качество. Данные извлекались с помощью Llama 3.2 90B, что неоптимально. Вопросы сгенерированы по этим данным.

Второй модуль — malware analysis — более ценен. Включает 609 образцов вредоносного ПО для Windows, запущенных в изолированной среде. Логи записаны в JSON и использованы для генерации вопросов, проверенных экспертами.

Логи — настоящие, подробные, с разнообразием семейств, цепочками поведения и промежуточными выводами.

Вывод: как бенчмарк — слабый. Но как датасет с реальными трейсами песочниц — потенциально полезен для разработчиков EDR, антивирусов и песочниц.

Часть 2. Умеет делать

7. CyBench

Arxiv:2510.14113

Разработан авторами из Stanford и опубликован на одной из ведущих ML-конференций. В лаборатории развёрнуто 40 реальных CTF-тасков от HackTheBox, HKCERT и других. Есть сабтаски для оценки промежуточных шагов.

Задачи охватывают шесть категорий: crypto, web, rev, forensics, misc, pwn. Сложность ранжируется по времени решения людьми.

Результаты: Claude Opus 4.6 — 93%, Claude 4.5 Sonnet — 60%, Grok 4 — 43%. GPT-4o — 17,5%.

За несколько поколений моделей процент решённых задач вырос с 20% до 82%. При этом задачи не тривиальные — некоторые люди решали их часами.

Вывод: один из лучших action-бенчмарков.

8. BountyBench

Arxiv:2505.15216

Уникален тем, что оценивает задачи не по сложности, а по их стоимости на багбаунти-платформах. Также рассчитывается стоимость запуска модели в токенах, что позволяет оценить экономическую эффективность LLM в кибербезопасности.

Три типа задач:

  • Detect — найти уязвимость.
  • Exploit — написать эксплойт по отчёту.
  • Patch — написать патч по отчёту.

Лидеры: Claude Code, OpenAI Codex CLI o3-high, o4-mini. Среди open-source — C-Agent на Claude 3.7.

Патчинг даётся моделям легче, чем детектирование.

Вывод: лучший бенчмарк для оценки экономической ценности LLM-агентов в продуктовой безопасности.

9. ExCyTIn-Bench

Arxiv:2507.14201

Разработан совместно Microsoft Security AI Research, американскими и китайскими университетами. Наиболее близок к реальной работе SOC.

Моделировались восемь многоэтапных атак — от фишинга до APT. Из Microsoft Sentinel собрано 57 лог-таблиц, на основе которых автоматически сгенерировано 589 вопросов.

Агент получает доступ к MySQL-базе с логами и должен выполнять SQL-запросы. Пример вопроса: «Был зафиксирован вход с анонимного IP-адреса 170.54.121.63 в 11:01:27. Какой SID аккаунта был вовлечен в подозрительное правило манипуляции с входящими письмами?» Агент проходит цепочку из 16 шагов, включая шаги с пустыми или ошибочными результатами.

Результаты (avg reward, шкала 0–1): Claude Opus 4.5 — 0,606, GPT-5.1 — 0,582, GPT-5 — 0,562.

Метрика учитывает не только правильность ответа, но и эффективность пути: количество запросов, релевантность шагов.

Агентские паттерны (ReAct, Expel, Reflect, BoN) значительно улучшают результаты. Например, GPT-4o с ReAct поднимается с 0,293 до 0,354.

Вывод: самый реалистичный бенчмарк для автоматизации расследований. Аналог MITRE Evals, но для LLM-агентов. Обязателен к рассмотрению при создании SOC-продуктов.

Кратко о других бенчмарках

Также существуют CSEBenchmark, CS-Eval и SecEval — аналоги знаниевых тестов, но менее известные и не добавляющие принципиально нового.

Для наступательной безопасности и автономного редтиминга есть ArtBench.

Итоги и рекомендации

На начало 2026 года картина такова: в тестах на знания даже небольшие модели превосходят людей. Реальные различия проявляются в action-задачах, где важны агентские паттерны, веб-поиск и RAG.

Минимальный набор бенчмарков:

  • Для знаний: CyberMetric (базовый уровень, проверка малых моделей) + AthenaBench (средняя сложность, CTI-задачи).
  • Для навыков: CyBench (CTF, полноценная среда) + ExCyTIn-Bench (расследование инцидентов, если продукт связан с SOC).
  • Для экономической оценки: BountyBench (ROI в задачах поиска и устранения уязвимостей).
Читать оригинал