Оценка качества RAG-системы с помощью Claude Code

Оценка качества RAG-системы с помощью Claude Code

Оценка качества RAG-системы - важная задача, которая требует повторения простых операций. В этой статье мы расскажем, как использовать Claude Code для автоматизации этой задачи.

Шаг первый и первый фейл

Мы начали с использования собственного бенчмарка и таблицы с кейсами «вопрос; ответ; контекст». Однако Клод не смог определить разделитель полей и потребовал подсказку.

Шаг второй. Внешняя модель

Мы решили использовать внешнюю модель для оценки качества контекста. Выбрали gpt-4o-mini и использовали метрики Context Precision, Context Relevance и Context Recall.

Шаг третий. Сервис RAG и танцы вокруг MCP

Мы создали простую RAG-систему с векторным поиском и добавили Model Context Protocol. Однако возникли проблемы с транспортом, которые были решены с помощью MCP inspector и изменения кода.

Шаг четвертый. «Шумные» субагенты

Мы создали два субагента для оценки контекста, но они оказались слишком шумными. Клод предложил добавить инструкцию «Do not narrate your steps between tool calls», но это не очень помогло.

Шаг пятый. Легкий навык и инструменты

Мы создали инструмент с командной строкой для оценки контекста и навык для управления параметрами оценки. Использовали JSONL для отчетов и подготовили дашборд для оценок по всем трем метрикам.

Оценка качества для одной метрики занимает примерно 2-3 минуты, расход токенов минимальный. Рекомендуем использовать модель не хуже 27b в качестве судьи.

Читать оригинал