EVGeoQA: Оценка LLM в динамическом, многоцелевом геопространственном поиске

EVGeoQA: Оценка LLM в динамическом, многоцелевом геопространственном поиске

Хотя большие языковые модели (LLM) демонстрируют выдающиеся способности к рассуждению, их потенциал в динамичных геопространственных средах остаётся слабо изученным. Существующие бенчмарки для геопространственных вопросно-ответных систем (GSQA) в основном ориентированы на статический поиск, игнорируя сложность реального планирования, включающего динамическое местоположение пользователя и составные ограничения.

Для устранения этого пробела представлен EVGeoQA — новый бенчмарк, основанный на сценариях зарядки электромобилей (EV). Он отличается привязкой к реальному местоположению пользователя и наличием двух целей: потребности в зарядке и предпочтений по сопутствующей активности рядом со станцией.

Для оценки моделей в таких условиях предложена система GeoRover — архитектура агента с инструментами, позволяющая проводить активный, многошаговый геопространственный поиск. Эксперименты показывают, что LLM успешно справляются с локальными задачами, но сталкиваются с серьёзными трудностями при поиске на больших расстояниях. Например, средние значения Hits@2 падают с 50% до 38% при расширении радиуса.

При этом обнаружена эмержентная способность: LLM способны обобщать историю поиска, чтобы повышать его эффективность, даже без явных инструкций. Это делает EVGeoQA сложной и содержательной тестовой площадкой для будущих разработок в области геопространственного ИИ.

Ключевые вклады

  • EVGeoQA — первый GSQA-бенчмарк для динамического многоцелевого геопространственного поиска, сочетающий реальное местоположение пользователя и двойные цели.
  • GeoRover — общая система оценки на основе агентной архитектуры с интерактивными геопространственными инструментами для активного исследования.
  • Эмпирический анализ выявил критические ограничения LLM в поиске на больших дистанциях, а также скрытую способность к обобщению траекторий, указывающую на потенциал для улучшений.

Дизайн и реализация EVGeoQA

Датасет охватывает три китайских города — Ханчжоу, Циндао и Линьи, представляющих разные уровни урбанизации. Вместо случайной генерации координат использована стратегия синтеза на основе кластеризации K-Means с учётом плотности населения и дорожной сети, что повышает реалистичность распределения пользователей.

Запросы генерируются по шаблонам, отражающим двойную цель: зарядка + сопутствующая активность (например, «зарядить машину и выпить кофе»). Для повышения естественности языка применяется перефразирование с помощью LLM (qwen2.5-72B) с использованием методов Few-Shot и Chain-of-Thought.

Эталонные ответы формируются через исчерпывающий поиск по зарядным станциям с проверкой соответствия POI (точек интереса) по косинусному сходству (порог 0.85). Учитываются до пяти оптимальных станций, ранжированных по расстоянию до пользователя. Ручная проверка 1000 пар обеспечивает лингвистическую и логическую корректность.

Фреймворк оценки GeoRover

GeoRover предоставляет четыре геопространственных инструмента для моделирования частичной наблюдаемости и активного поиска:

  • SearchStations — поиск зарядных станций в радиусе 5 км.
  • SearchPOIs — анализ точек интереса в пределах 1 км от станции.
  • ChangeLocation — перемещение агента в одном из четырёх направлений для расширения зоны поиска.
  • CalculateDistance — расчёт точного расстояния на автомобиле между точками.

Агент самостоятельно решает, когда и какие инструменты вызывать, что позволяет оценивать его способность к автономному планированию. Для стабилизации рассуждений используются промпты с Chain-of-Thought и Few-Shot.

Эксперименты и результаты

Тестирование проводилось на моделях Qwen, GPT-OSS и Gemini. Основная метрика — Hits@K, с разбиением по расстоянию: <10 км, <20 км и «без ограничений».

Ключевые выводы:

  • «Ленивый поиск»: LLM склонны преждевременно завершать исследование на больших дистанциях, выдавая правдоподобные, но ошибочные ответы.
  • Режим «размышления»: модели с явным логическим выводом (Thinking) показывают лучшие результаты, активно анализируя историю поиска и продолжая исследование при недостатке данных.
  • Масштабирование помогает: крупные модели (Qwen2.5-72B, Gemini-2.5-Pro) стабильнее справляются с высоконагруженными городскими контекстами.

Анализ ошибок

Основные проблемы:

  • Недостаточное исследование среды из-за «лени» агентов.
  • Феномен «потери в середине» (Lost in the Middle) — путаница в атрибутах при работе с длинными контекстами.
  • Ошибки в аргументах вызова инструментов, за исключением Gemini-2.5-Pro.

Ограничения

EVGeoQA основан на данных трёх китайских городов и преимущественно на китайском языке, что может вносить языковое и географическое смещение. В будущем планируется расширение до многоязычных и международных данных. Также текущая оценка фокусируется на базовых способностях LLM, тогда как дообучение (SFT) может значительно улучшить результаты — это направление требует дальнейшего изучения.

Читать оригинал