Что не так с оценкой RAG-систем и как это исправляет динамический бенчмарк DRAGOn

Habr AI 9 апр 2026

Сегодня RAG-системы можно собрать за один вечер, но оценить их качество — задача несравнимо сложнее. Проблема в том, что большинство существующих бенчмарков используют фиксированные наборы данных, которые со временем устаревают и перестают отражать реальную информационную среду.

Почему RAG сложно оценивать?

RAG (Retrieval-Augmented Generation) — это подход, при котором модель перед генерацией ответа получает доступ к внешним данным. Вместо опоры только на знания, полученные при обучении, система извлекает релевантную информацию из подключённых источников и использует её как контекст.

На первый взгляд, всё просто: если система находит хорошие документы и генерирует осмысленные ответы — значит, работает хорошо. Но на практике оценка осложняется рядом системных проблем:

Большинство бенчмарков основаны на устаревших корпусах, не отражающих актуальные данные.
Трудно определить, какой компонент — поиск или генерация — повлиял на результат.
Высокое качество может быть обусловлено не архитектурой, а тем, что базовая модель уже «знала» ответ.
Сбор пар «вопрос — ответ» вручную — медленный, дорогой и плохо масштабируемый процесс.

В итоге RAG-системы быстро развиваются, но универсального, надёжного и воспроизводимого способа их оценки до сих пор не существует.

Идея DRAGOn

Учёные из MWS AI, Сбера и ряда университетов предложили решение — методологию DRAGOn (Designing RAG On Periodically Updated Corpus), представленную на EACL 2026. Её цель — создать динамический, прозрачный и воспроизводимый бенчмарк.

Основа подхода — три ключевых элемента:

Регулярно обновляемый корпус документов, отражающий актуальное информационное поле.
Автоматизированная генерация QA-пар для масштабируемости и непрерывного обновления.
Публичный лидерборд, обеспечивающий прозрачное сравнение RAG-систем.

DRAGOn объединяет эти аспекты в единую систему, делая оценку непрерывной и версионируемой.

Как строится бенчмарк

DRAGOn использует парсеры, которые регулярно собирают данные из внешних источников, например, новостных агрегаторов. Затем тексты проходят три этапа обработки:

Извлечение атомарных фактов.
Фильтрация уже известных знаний.
Генерация QA-пар разной сложности.

Извлечение знаний

С помощью LLM (LLaMa 3.3 70B Instruct) из текстов извлекаются факты в виде триплетов: субъект — предикат — объект. Например:

(Apple — выпустила — iPhone 15)
(Илон Маск — возглавляет — SpaceX)

Чтобы убедиться, что факты действительно новые, система проверяет их наличие в Wikidata через API. Если факт уже есть — он отбрасывается.

Затем имена сущностей и отношений нормализуются той же LLM. В итоге в бенчмарк попадают только свежие, ранее не задокументированные знания.

Генерация вопросов

Из графа фактов генерируются QA-пары четырёх типов:

Simple — вопросы по одному факту. Например: «Кто возглавляет SpaceX?» → «Илон Маск».
Set — вопросы с множественными ответами. Например: «Для каких фильмов Ханс Циммер писал музыку?» → «Пираты Карибского моря», «Интерстеллар».
Multi-hop — вопросы, требующие логической цепочки. Например: «В какой стране находится компания, продавшая 2139 автомобилей в 2023 году?» → «Китай».
Conditional — вопросы с двумя условиями. Например: «Кто выступал в M-bar и встречался с Дмитрием Дибровым?» → «Роман Мирошниченко».

Проверка качества QA

Сгенерированные вопросы проходят несколько этапов фильтрации:

Проверка грамматики и естественности с помощью модели RuRoBERTa-large, обученной на RuCoLa.
Анализ именованных сущностей с помощью библиотеки Natasha.
Фильтрация «слишком простых» вопросов: если небольшая модель (например, Qwen 2.5 7B) отвечает правильно без контекста — вопрос исключается.
Финальная оценка с помощью POLLUX 7B по методу LLM-as-a-Judge. Модель выставляет от 0 до 2 баллов за грамотность, естественность, правильность и зависимость от контекста.

Чтобы проверить надёжность автоматической оценки, результаты сравнили с разметкой 532 экспертов. POLLUX 7B показала высокую точность, но умеренную полноту — она строго отбирает качественные пары, иногда отбрасывая корректные, но менее очевидные примеры. Это приемлемо: лучше меньше, но надёжнее.

В финальный бенчмарк включают по 150 высококачественных вопросов на каждую категорию.

Оценка RAG-систем на бенчмарке DRAGOn

Авторы протестировали RAG-системы, разделив оценку на два этапа: поиск и генерация.

Оценка качества поиска

Использовались две метрики:

Hit Rate — доля запросов, где правильный документ попал в топ-N.
Mean Reciprocal Rank (MRR) — насколько высоко в выдаче находится релевантный документ.

Лучшие результаты показали модели Qwen 3Embedding 8B и E5 Mistral7B Instruct — они наиболее эффективно находили нужные факты.

Оценка качества генерации

Качество ответов измеряли с помощью:

Классических метрик ROUGE-2 и ROUGE-L, оценивающих совпадение биграмм и наибольшей общей последовательности слов.
Судейской оценки от POLLUX 7B, которая анализирует правильность, полноту и опору на контекст.

Результат подтвердил ключевой принцип RAG: какой контекст подашь — такой ответ и получишь. Системы с сильным поиском (Qwen, E5 Mistral) показали наилучшее качество генерации. Если модель нашла правильные данные, она и ответ сформулирует корректно.

Публичный лидерборд

Авторы запустили публичный лидерборд, доступный через библиотеку rag_bench на PyPi. Он разделён на две части:

Публичная — отображает результаты участников.
Приватная — используется для внутренней проверки и сопоставления с эталонами.

Это обеспечивает прозрачность, воспроизводимость и удобство сравнения решений.

Ограничения и выводы

У DRAGOn есть ограничения:

Пока бенчмарк ориентирован на русскоязычные новости. Хотя архитектура позволяет адаптацию к другим доменам (медицина, юриспруденция), текущая реализация привязана к новостному контенту.
Автоматическая оценка с помощью LLM-as-a-Judge ускоряет процесс, но не заменяет эксперта полностью. Модель-судья может быть излишне консервативной.

Тем не менее DRAGOn предлагает рабочее решение главной проблемы оценки RAG-систем. Вместо устаревающих статических датасетов — динамический, постоянно обновляемый полигон, максимально приближённый к реальным условиям.

Читать оригинал

Что не так с оценкой RAG-систем и как это исправляет динамический бенчмарк DRAGOn

Почему RAG сложно оценивать?

Идея DRAGOn

Как строится бенчмарк

Извлечение знаний

Генерация вопросов

Проверка качества QA

Оценка RAG-систем на бенчмарке DRAGOn

Оценка качества поиска

Оценка качества генерации

Публичный лидерборд

Ограничения и выводы

Что не так с оценкой RAG-системи какое решение предлагает динамический бенчмарк DRAGOn

Почему RAG сложно оценивать?

Идея DRAGOn

Проверка качества QA

Оценка RAG-систем на бенчмарке DRAGOn

Ограничения, проблемы и практические выводы