На работе часто приходится разбирать десятки PDF — регламенты, отчёты, спецификации. Раньше это занимало полдня: открытие файлов, чтение по диагонали, ручное копирование фрагментов в гугл-док. Теперь есть инструмент, который делает это за минуты.
Что это такое
LiteParse Samples — набор демо-инструментов от LlamaIndex, построенных на основе их парсера документов LiteParse. В комплекте три компонента:
- Parser Comparison — визуальное сравнение LiteParse, PyPDF и PyMuPDF на реальных документах
- Visual Citations — поиск по документам с подсветкой совпадений на изображении страницы
- Research Docs — скилл для Claude Code, анализирующий документы и генерирующий HTML-отчёт с цитатами
Research-docs — это расширение для Claude Code. Устанавливается одной командой и работает локально.
Как работает research-docs
Ключевая особенность — цитаты с визуальной привязкой к исходному документу. Это не просто «страница 5 документа X». Это интерактивная ссылка, которая показывает точное место на странице PDF, обведённое рамкой. В отчёте можно открыть встроенный просмотрщик и проверить, откуда взята информация.
Для работы с юридическими, финансовыми или регуляторными документами это критично. Галлюцинации недопустимы, а возможность мгновенно проверить каждый факт по источнику решает эту проблему.
Установка простая — одна команда в терминале. После этого в Claude Code появляется слэш-команда. Указываете папку с документами и задаёте вопрос — получаете готовый HTML-отчёт.
Поддерживаемые форматы
LiteParse работает с:
- PDF (основной формат)
- DOCX (Word)
- PPTX (PowerPoint)
- XLSX (Excel)
- Изображениями (через OCR)
- Plaintext
Можно загрузить микс из PDF, Word-документов и Excel-таблиц и задать вопрос по всей коллекции. Например: «Найди противоречия между договором и спецификацией».
Parser Comparison — зачем это нужно
В комплекте — визуальное сравнение парсеров на реальных документах (FDIC, Federal Reserve, CMS, IRS, WHO). Слева — исходный PDF, справа — текст, извлечённый каждым инструментом.
Цель — показать, где PyPDF теряет таблицы, где PyMuPDF путает колонки, и как LiteParse справляется лучше. Для тех, кто выбирает парсер для своего пайплайна, это полезная демонстрация. Достаточно открыть comparison/output/comparison.html в браузере.
На сложных таблицах и многоколоночных макетах LiteParse заметно выигрывает. На простых текстовых PDF все три парсера работают одинаково.
Visual Citations — поиск с подсветкой
Отдельная демка: вводите ключевое слово — система показывает все его вхождения в документах с bounding box’ами на изображении страницы. Это точное совпадение, а не семантический поиск. Но для быстрой навигации по объёмным документам — очень удобно.
Пример: прислали 500-страничный регламент, нужно найти все упоминания «персональные данные». Visual Citations покажет каждое вхождение с контекстом и точной привязкой к странице.
Что внутри: LiteParse
LiteParse — локальный парсер от LlamaIndex. Данные не уходят наружу, что важно для конфиденциальных документов. Главное отличие от PyPDF и PyMuPDF — сохранение координат каждого текстового элемента на странице. Благодаря этому работают визуальные цитаты.
LiteParse — model-free парсер. Не использует машинное обучение для извлечения текста (в отличие от Unstructured или Amazon Textract). Плюсы: быстро, стабильно, не требует GPU. Минус: хуже справляется с рукописными текстами и низкокачественными сканами.
Ограничения
Нужен Claude Code. Research-docs — это скилл для Claude Code, а не самостоятельный инструмент. Без Claude Code не работает. Однако LiteParse и Visual Citations можно использовать отдельно на чистом Python.
Качество зависит от модели. Скилл использует Claude для анализа. На простых вопросах («какая сумма на стр. 3?») отвечает точно. На сложных аналитических задачах возможны ошибки — и тут цитаты особенно важны для проверки.
Стоимость. Каждый запрос расходует токены Claude Code. Анализ 30 документов с развёрнутым вопросом может стоить $5–10. Это не бесплатное решение.
Точное совпадение, не семантика. Visual Citations ищет только точные вхождения, а не схожие по смыслу. Для полноценного RAG-пайплайна нужна отдельная настройка.
Кому подойдёт
- Юристам и аналитикам, работающим с большими пакетами документов
- Разработчикам, строящим RAG-системы и ищущим надёжный парсер
- Студентам, которым нужно быстро разобрать десятки статей
- Всем, кто устал терять время на ручной анализ PDF