Что не так с оценкой RAG-систем и как это исправляет динамический бенчмарк DRAGOn

Что не так с оценкой RAG-систем и как это исправляет динамический бенчмарк DRAGOn

Сегодня RAG-системы можно собрать за один вечер, но оценить их качество — задача несравнимо сложнее. Проблема в отсутствии надежных, актуальных и прозрачных методов тестирования. Ученые из MWS AI, Сбера и ряда университетов предложили решение — динамический бенчмарк DRAGOn (Designing RAG On Periodically Updated Corpus), представленный на EACL 2026.

Почему RAG сложно оценивать?

RAG (Retrieval-Augmented Generation) позволяет моделям использовать внешние данные при генерации ответов. Вместо опоры только на знания из обучения система извлекает релевантную информацию из подключённых источников и добавляет её в контекст.

На первый взгляд, всё просто: нашла хорошие документы — сгенерировала правильный ответ. Но на практике оценка сталкивается с системными проблемами:

  • Большинство бенчмарков используют фиксированные корпусы, которые со временем устаревают и перестают отражать реальность.
  • Невозможно точно определить, какой компонент — поиск или генерация — повлиял на результат.
  • Высокое качество может быть обусловлено не архитектурой, а тем, что языковая модель уже «знает» ответ из обучающих данных.
  • Сбор пар «вопрос — ответ» требует ручной разметки, что трудоёмко и плохо масштабируется.

В итоге RAG-системы быстро развиваются, но универсального способа их оценки до сих пор не существует.

Идея DRAGOn

Ключевая проблема — отсутствие независимости тестовой выборки. DRAGOn решает её, создавая бенчмарк на основе новых знаний. Методология включает три основных элемента:

  • Регулярно обновляемый корпус документов, отражающий актуальную информацию.
  • Автоматизированная генерация QA-пар для масштабируемости и непрерывного обновления.
  • Публичный лидерборд для прозрачного и единообразного сравнения систем.

DRAGOn объединяет эти аспекты в единую систему, делая оценку непрерывной, версионируемой и воспроизводимой.

Как строится бенчмарк

Данные регулярно парсятся из внешних источников, например, новостных агрегаторов. Затем проходят три этапа обработки:

  • Извлечение атомарных фактов.
  • Фильтрация уже известных знаний.
  • Генерация QA-пар разной сложности.

Извлечение знаний

С помощью LLM (LLaMa 3.3 70B Instruct) тексты преобразуются в триплеты вида «субъект — предикат — объект», например:

  • (Apple — выпустила — iPhone 15)
  • (Илон Маск — возглавляет — SpaceX)

Далее каждая сущность проверяется через Wikidata API: если факт уже есть в базе, он отбрасывается. Остаются только новые знания. После этого имена сущностей и отношений нормализуются той же LLM, чтобы обеспечить единообразие.

Генерация вопросов

Из графа новых фактов генерируются QA-пары четырёх типов:

  • Simple — вопросы по одному факту. Например: «Кто возглавляет SpaceX?» → «Илон Маск».
  • Set — вопросы с перечислением. Например: «Для каких фильмов Ханс Циммер писал музыку?» → «Пираты Карибского моря», «Интерстеллар».
  • Multi-hop — вопросы, требующие логического перехода через промежуточную сущность. Например: «В какой стране находится компания, продавшая 2139 автомобилей в 2023 году?» → «Китай».
  • Conditional — вопросы с двумя условиями. Например: «Кто выступал в M-bar и встречался с Дмитрием Дибровым?» → «Роман Мирошниченко».

Проверка качества QA

Сгенерированные вопросы проходят несколько этапов фильтрации:

  • Проверка на грамматику и естественность с помощью модели RuRoBERTa-large.
  • Анализ именованных сущностей с помощью библиотеки Natasha.
  • Отсеивание «слишком простых» вопросов: если небольшая модель (Qwen 2.5 7B или LLaMa 3 8B) отвечает правильно без контекста, вопрос исключается.
  • Финальная оценка с помощью модели POLLUX 7B, выступающей в роли судьи (LLM-as-a-Judge). Она оценивает каждую пару по шкале от 0 до 2 баллов по критериям: грамотность, естественность, правильность и зависимость от контекста.

Чтобы проверить надёжность автоматической оценки, 532 примера параллельно оценили модель и эксперты. POLLUX 7B показала высокую точность, но умеренную полноту: она строго отбирает качественные пары, иногда отбрасывая допустимые, но менее очевидные. Для бенчмарка это приемлемо — важнее качество, чем количество.

После всех этапов в финальный набор попадает по 150 высококачественных вопросов в каждой категории.

Оценка RAG-систем на бенчмарке DRAGOn

Авторы разделили оценку на два этапа: поиск и генерация.

Оценка качества поиска

Использовались метрики:

  • Hit Rate — доля запросов, где правильный документ попал в топ-N.
  • Mean Reciprocal Rank (MRR) — насколько высоко в списке находится релевантный документ.

Лучше всего показали себя модели Qwen 3 Embedding 8B и E5 Mistral7B Instruct. Они наиболее эффективно находили нужные факты — ключевой элемент для RAG.

Оценка качества генерации

Качество ответов измерялось через:

  • Классические метрики ROUGE-2 и ROUGE-L, оценивающие совпадение биграмм и наибольшей общей последовательности слов.
  • Судейский балл (Judge Score) от модели POLLUX 7B, которая оценивает правильность, полноту и опору на контекст, а не на «внутренние знания» модели.

Результат подтвердил основной принцип RAG: «какой контекст подашь, такой ответ и получишь». Системы с сильным поиском (Qwen, E5 Mistral) показали и наилучшую генерацию. Если поисковик нашёл правильные данные, модель легко формулирует корректный ответ.

Публичный лидерборд

Авторы запустили публичный лидерборд, доступный через библиотеку rag_bench на PyPi. Он разделён на две части:

  • Публичная — отображает результаты участников.
  • Приватная — используется для внутренней проверки и сопоставления с эталонами.

Это обеспечивает прозрачность, воспроизводимость и удобное сравнение решений. Платформа автоматически обновляется, способствуя быстрому обмену опытом.

Ограничения и выводы

У DRAGOn есть ограничения:

  • Пока бенчмарк ориентирован на русскоязычные новости. Хотя архитектура позволяет адаптацию к другим доменам (медицина, юриспруденция), текущая реализация привязана к новостному контенту.
  • Автоматическая оценка (LLM-as-a-Judge) ускоряет процесс, но не заменяет эксперта полностью. Модель-судья может быть излишне строгой.

Тем не менее, DRAGOn предлагает рабочее решение главной проблемы оценки RAG-систем. Вместо устаревающих статических датасетов — динамический, обновляемый бенчмарк, максимально приближённый к реальным условиям.

Читать оригинал