Гибрид IDP и VLM экономит миллионы на верификации данных

Гибрид IDP и VLM экономит миллионы на верификации данных

Последние 2 года мы в Content AI активно тестируем Vision Language Models (VLM) для обработки документов. Модели вроде Qwen2.5-VL или Gemini 2.5 отлично работают с простыми формами — чеками, типовыми договорами.

В экспериментах участвовали VLM-модели Google Gemini 2.5 Flash и Pro, линейка Qwen2.5-VL (от 7B до 72B), Mistral-Small-3.1-24B-Instruct.

Паспорта: контекст IDP повышает точность VLM

Распознавание паспортов без MRZ — сложная задача для нейросетей. Без дополнительного контекста локальные и некоторые облачные VLM часто ошибаются и начинают галлюцинировать.

Практические рекомендации по использованию локальных моделей для верификации первички

На основе экспериментов мы составили рекомендации по локальным open-source моделям для корпоративного использования

Экономический эффект автоматизации верификации

В крупных компаниях верификацией документов занимаются десятки операторов. Средний верификатор проверяет 120-150 документов в день, его зарплата с налогами составляет около 150 тыс. ₽ в месяц.

Итоги эксперимента

Связка IDP и VLM решает проблему нестабильного качества нейросетей на сложной верстке.

Читать оригинал