Как Авито научился находить нужные объявления с помощью мультимодальных моделей

Как Авито научился находить нужные объявления с помощью мультимодальных моделей

Команда Авито разработала систему, которая позволяет находить нужные объявления даже если в них нет соответствующего запросу текста. Для этого была создана мультимодальная модель A-Vision, которая генерирует текстовые описания на основе изображений.

Модель была дообучена на дата-сетах с Авито и показала высокие результаты в бенчмарках Bert Score, MMMU-RU и RealWorldQA.

Архитектура системы

Система состоит из нескольких компонентов: сервиса создания и обновления объявлений, шины данных, базы данных и поискового движка.

Когда на Авито появляется новое объявление, сервис получает из шины данных сообщение о его создании и отправляет сообщение в шину данных для сервиса, который обогащает объявления данными и раскладывает их по шардам поискового движка.

Мультимодальная модель A-Vision

Модель A-Vision была создана на основе опенсорсной модели Qwen2.5-VL-7B-Instruct и дообучена на дата-сетах с Авито.

Модель показала высокие результаты в бенчмарках и позволяет генерировать текстовые описания на основе изображений.

Тюнинг модели A-Vision

Для повышения качества модели A-Vision была использована технология LoRA (Low-Rank Adaptation), которая позволяет добавлять новые параметры к модели без необходимости полного дообучения.

Это позволяет сократить время дообучения модели и улучшить ее качество.

Фреймворк vLLM

Для повышения скорости и эффективности инференса LLM была использована специальный фреймворк vLLM.

Фреймворк позволяет более эффективно управлять памятью, производить батчинг запросов, параллельно выполнять инференс на нескольких GPU и оптимизировать примитивные операции.

Благодаря использованию фреймворка vLLM и технологии LoRA удалось найти точку равновесия, где технология приносит реальный профит бизнесу, не превращаясь в чёрную дыру для бюджета на инфраструктуру.

Читать оригинал