Юридическое поле экспериментов для RAG

Юридическое поле экспериментов для RAG

Agentic RAG Legal Challenge, март 2026

А ответы на вопросы - под катом

Нам нравится тема RAG (retrieval augmented generation). Почему? Потому что без RAG никуда.

RAG — это когда есть свои документы и надо чтобы система их выучила.

Наш пайплайн индексации

Документы нужно нарезать на чанки— кусочки, по которым будет делаться поиск.

Пайплайн ответов

Для каждого вопроса делается:

  • Стадия Intent: согласно промпту LLM модель формулирует несколько вариантов вопросов для поиска
  • Стадия Select: каждый вопрос превращаем в вектора FRIDA и GTE ищем в Qdrant, делаем RRF, берем top N чанков из базы.
  • Стадия Answer: отфильтрованные чанки на Select снова отдаем LLM, но на этот раз с требованием ответить на вопрос плюс назвать номера чанков которые были использованы в ответе.

Как устроено соревнование

ARLC — это задача поиска ответов на вопросы по корпусу юридических документов.

Финальная фаза

Gold set и система валидации

Прогнали пайплайн на 900 вопросах. Получили 844 ответа, 56 null — модель не нашла информацию.

Матрёшка из проблем

Индексация 300 документов превратилась в инженерный квест.

900 вопросов и вскрытие

Разбираем ошибки с помощью Gold set и системы валидации.

Вместо заключения

Универсального RAG не существует. Чанкинг, который работает на коротких статьях, ломается на 537-страничном своде правил.

Читать оригинал