EVGeoQA: Оценка LLM в динамическом, многоцелевом геопространственном поиске

Habr AI 9 апр 2026

Хотя большие языковые модели (LLM) демонстрируют выдающиеся способности к рассуждению, их потенциал в динамичных геопространственных средах остаётся слабо изученным. Существующие бенчмарки для геопространственных вопросно-ответных систем (GSQA) в основном ориентированы на статический поиск, игнорируя сложность реального планирования, включающего динамическое местоположение пользователя и составные ограничения.

Для устранения этого пробела представлен EVGeoQA — новый бенчмарк, основанный на сценариях зарядки электромобилей (EV). Он отличается привязкой к реальному местоположению пользователя и наличием двух целей: потребности в зарядке и предпочтений по сопутствующей активности рядом со станцией.

Для оценки моделей в таких условиях предложена система GeoRover — архитектура агента с инструментами, позволяющая проводить активный, многошаговый геопространственный поиск. Эксперименты показывают, что LLM успешно справляются с локальными задачами, но сталкиваются с серьёзными трудностями при поиске на больших расстояниях. Например, средние значения Hits@2 падают с 50% до 38% при расширении радиуса.

При этом обнаружена эмержентная способность: LLM способны обобщать историю поиска, чтобы повышать его эффективность, даже без явных инструкций. Это делает EVGeoQA сложной и содержательной тестовой площадкой для будущих разработок в области геопространственного ИИ.

Ключевые вклады

EVGeoQA — первый GSQA-бенчмарк для динамического многоцелевого геопространственного поиска, сочетающий реальное местоположение пользователя и двойные цели.
GeoRover — общая система оценки на основе агентной архитектуры с интерактивными геопространственными инструментами для активного исследования.
Эмпирический анализ выявил критические ограничения LLM в поиске на больших дистанциях, а также скрытую способность к обобщению траекторий, указывающую на потенциал для улучшений.

Дизайн и реализация EVGeoQA

Датасет охватывает три китайских города — Ханчжоу, Циндао и Линьи, представляющих разные уровни урбанизации. Вместо случайной генерации координат использована стратегия синтеза на основе кластеризации K-Means с учётом плотности населения и дорожной сети, что повышает реалистичность распределения пользователей.

Запросы генерируются по шаблонам, отражающим двойную цель: зарядка + сопутствующая активность (например, «зарядить машину и выпить кофе»). Для повышения естественности языка применяется перефразирование с помощью LLM (qwen2.5-72B) с использованием методов Few-Shot и Chain-of-Thought.

Эталонные ответы формируются через исчерпывающий поиск по зарядным станциям с проверкой соответствия POI (точек интереса) по косинусному сходству (порог 0.85). Учитываются до пяти оптимальных станций, ранжированных по расстоянию до пользователя. Ручная проверка 1000 пар обеспечивает лингвистическую и логическую корректность.

Фреймворк оценки GeoRover

GeoRover предоставляет четыре геопространственных инструмента для моделирования частичной наблюдаемости и активного поиска:

SearchStations — поиск зарядных станций в радиусе 5 км.
SearchPOIs — анализ точек интереса в пределах 1 км от станции.
ChangeLocation — перемещение агента в одном из четырёх направлений для расширения зоны поиска.
CalculateDistance — расчёт точного расстояния на автомобиле между точками.

Агент самостоятельно решает, когда и какие инструменты вызывать, что позволяет оценивать его способность к автономному планированию. Для стабилизации рассуждений используются промпты с Chain-of-Thought и Few-Shot.

Эксперименты и результаты

Тестирование проводилось на моделях Qwen, GPT-OSS и Gemini. Основная метрика — Hits@K, с разбиением по расстоянию: <10 км, <20 км и «без ограничений».

Ключевые выводы:

«Ленивый поиск»: LLM склонны преждевременно завершать исследование на больших дистанциях, выдавая правдоподобные, но ошибочные ответы.
Режим «размышления»: модели с явным логическим выводом (Thinking) показывают лучшие результаты, активно анализируя историю поиска и продолжая исследование при недостатке данных.
Масштабирование помогает: крупные модели (Qwen2.5-72B, Gemini-2.5-Pro) стабильнее справляются с высоконагруженными городскими контекстами.

Анализ ошибок

Основные проблемы:

Недостаточное исследование среды из-за «лени» агентов.
Феномен «потери в середине» (Lost in the Middle) — путаница в атрибутах при работе с длинными контекстами.
Ошибки в аргументах вызова инструментов, за исключением Gemini-2.5-Pro.

Ограничения

EVGeoQA основан на данных трёх китайских городов и преимущественно на китайском языке, что может вносить языковое и географическое смещение. В будущем планируется расширение до многоязычных и международных данных. Также текущая оценка фокусируется на базовых способностях LLM, тогда как дообучение (SFT) может значительно улучшить результаты — это направление требует дальнейшего изучения.

EVGeoQA: Оценка LLM в динамическом, многоцелевом геопространственном поиске

Habr AI 9 апр 2026

Перевод подготовил автор каналаДруг Опенсурса, приятного прочтения, заранее благодарю за подписку

Авторы:Jianfei Wu1, Zhichun Wang1,2,3†, Zhensheng Wang1, Zhiyu He4

1 Школа искусственного интеллекта, Пекинский педагогический университет, Пекин 100875, Китай

2 Пекинская ключевая лаборатория искусственного интеллекта в образовании, Пекин 100875, Китай

3 Инженерно-исследовательский центр интеллектуальных технологий и образовательных приложений, Министерство образования, Пекин 100875, Китай

4 Колледж компьютерных наук и технологий, Национальный университет оборонных технологий, Чанша 410073, Китай

{jianfeiwu,jensenwang}@mail.bnu.edu.cn,zcwang@bnu.edu.cn, hezhiyu99@nudt.edu.cn

† Автор, ответственный за переписку

Хотя большие языковые модели (LLM) демонстрируют выдающиеся способности к рассуждению, их потенциал для целенаправленного поиска в динамичных геопространственных средах остается малоизученным. Существующие бенчмарки для геопространственных вопросно-ответных систем (GSQA) в основном сосредоточены на статическом поиске информации, упуская из виду сложность реального планирования, которое включает динамическое местоположение пользователя и составные ограничения. Чтобы восполнить этот пробел, мы представляемEVGeoQA— новый бенчмарк, построенный на сценариях зарядки электромобилей (EV), который отличается уникальной привязкой к местоположению и наличием двух целевых условий. В частности, каждый запрос в EVGeoQA явно привязан к координатам пользователя в реальном времени и объединяет две цели: саму потребность в зарядке и предпочтения по совмещенной активности (рядом со станцией). Для систематической оценки моделей в таких сложных условиях мы также предлагаемGeoRover— общую систему оценки на основе архитектуры агента, дополненного инструментами, чтобы проверить способность LLM к динамическому многоцелевому пространственному исследованию. Наши эксперименты показывают, что, хотя LLM успешно используют инструменты для решения подзадач, они испытывают серьезные трудности с пространственным поиском на больших расстояниях. Примечательно, что мы обнаружили эмерджентную способность: LLM могут обобщать исторические траектории поиска для повышения его эффективности. Эти результаты делают EVGeoQA сложной тестовой площадкой для будущего геопространственного искусственного интеллекта. Датасет и промпты доступны по ссылке:https://github.com/Hapluckyy/EVGeoQA/.

1. Введение

(Рисунок 1: Иллюстративный запрос EVGeoQA. Определение оптимальной цели требует объединения семантического понимания с информацией о местоположении в реальном времени и точками интереса (POI).)

Стремительное развитие LLM дало толчок разработке автономных агентов, способных к сложному планированию и использованию инструментов (Yao et al., 2022; Schick et al., 2023; Xi et al., 2025). Хотя LLM отлично справляются с обработкой текстовых знаний, их интеграция в динамичные геопространственные среды представляет собой уникальную проблему, в первую очередь из-за присущей реалистичным пространственным сценариям сложности и огромного разнообразия (Mai et al., 2023). Недавние работы в области GSQA попытались преодолеть этот разрыв, однако большинство существующих бенчмарков по-прежнему ограничиваются статическим поиском (Feng et al., 2023; Li et al., 2025). Например, типичный запрос может звучать так: «Каково расстояние от аэропорта до центрального железнодорожного вокзала?». Такие задачи опираются исключительно на статическую пространственную топологию, игнорируя сложность реальной мобильности, где принятие решений ограничено динамическим местоположением пользователя и его комплексными запросами (Zheng et al., 2014).

Сфера зарядки электромобилей (EV) служит отличным примером такой сложности и является идеальной, хотя и недостаточно изученной, тестовой площадкой. Из-за длительного времени ожидания, связанного с зарядкой EV по сравнению с традиционной заправкой топливом (Philipsen et al., 2018), пользователи склонны совмещать эту услугу с второстепенными занятиями, чтобы провести время с пользой. Как показано на Рисунке 1, типичный запрос иллюстрирует это комбинированное требование: «Я хочу поехать зарядить машину и выпить кофе». Следовательно, оптимальное решение зависит не только от самой зарядной станции, но и от удовлетворения составной цели, включающей расположение станции относительно текущих координат пользователя и наличие подходящих точек интереса (POI) поблизости.

Для систематической оценки способностей LLM к геопространственному рассуждению в этих строгих условиях мы представляем EVGeoQA — бенчмарк, созданный на основе домена зарядки EV и предназначенный для целенаправленного геопространственного поиска. В отличие от традиционных наборов данных GSQA (Li et al., 2025; Kefalidis et al., 2023; Punjani et al., 2018), каждый запрос в EVGeoQA явно привязан к координатам пользователя в реальном времени и объединяет потребность в зарядке с предпочтением сопутствующей активности. Благодаря такому уникальному дизайну, EVGeoQA смещает фокус со статической проверки фактов на динамическое планирование.

Наш датасет охватывает три репрезентативных китайских города — Ханчжоу, Циндао и Линьи, представляющих собой иерархический градиент от крупного мегаполиса до развивающегося города. Кроме того, для генерации местоположений пользователей, вместо использования традиционной случайной выборки координат, мы предлагаем стратегию синтеза на основе кластеризации K-Means (Ahmed et al., 2020), которая интегрирует данные о плотности населения и дорожной сети. Взвешивая эти факторы, мы моделируем координаты пользователей, которые статистически соответствуют реальному пространственному распределению запросов, тем самым смягчая пространственное смещение, присущее случайной выборке.

Создав эту реалистичную тестовую среду, мы также предлагаем GeoRover — общую систему оценки на основе архитектуры агента с инструментами для исследования способностей LLM к геопространственному поиску. В частности, мы разработали четыре интерактивных геопространственных инструмента, позволяющих агенту итеративно исследовать среду, синтезировать исторические траектории перемещений и находить окончательные ответы.

Наши эксперименты показывают, что, хотя точность остается относительно высокой, когда ответ находится на небольшом расстоянии, она значительно ухудшается по мере увеличения радиуса поиска. Например, средние показатели Hits@2 падают примерно с 50% до 38% по мере расширения зоны исследования. Это снижение производительности подчеркивает критические ограничения LLM в пространственном поиске на больших дистанциях. Интересно, что мы наблюдаем спонтанный феномен: даже в отсутствие явных инструкций LLM активно обобщают историю своих перемещений, чтобы повысить эффективность поиска. Эти результаты делают EVGeoQA сложным бенчмарком для будущего геопространственного интеллекта.

Подводя итог, наши вклады заключаются в следующем:

Мы представляемEVGeoQA— первый GSQA-бенчмарк, разработанный для динамического многоцелевого геопространственного поиска. Он уникальным образом объединяет динамические местоположения пользователей с условиями двойной цели для оценки работы LLM в геопространственных задачах.
Мы предлагаемGeoRover— общую платформу оценки, использующую агента, оснащенного интерактивными геопространственными инструментами. Это позволяет проводить активный, многошаговый поиск, тем самым оценивая производительность LLM в этой распространенной, но ранее игнорируемой области многоцелевого геопространственного рассуждения.
Наша эмпирическая оценка показывает, что, хотя современные LLM с трудом справляются с пространственным анализом на больших расстояниях, они демонстрируют скрытую способность к обобщению исторических траекторий. Это позиционирует EVGeoQA как строгий бенчмарк для будущих исследований.

2. Связанные работы

2.1 Бенчмарки для GSQA

Ландшафт GSQA был сформирован такими фундаментальными бенчмарками, как GeoQA201 (Punjani et al., 2018), GeoQA1809 (Kefalidis et al., 2023), и последующими работами, такими как MapQA (Li et al., 2025) и GeoQAMap (Feng et al., 2023). Они в основном сосредоточены на статическом извлечении данных из автономных баз, игнорируя сложность реальных условий. Благодаря быстрому развитию воплощенного ИИ (Embodied AI), бенчмарки вроде OpenEQA (Majumdar et al., 2024), SQA3D (Ma et al., 2022) и ScanQA (Azuma et al., 2022) также стимулировали развитие области GSQA. Однако они в основном ограничены небольшими внутренними (indoor) сценариями со статичным представлением сцен. Для эффективного решения задач геопространственного поиска в больших масштабах LLM должны обладать синергией навыков планирования (Xie et al., 2024; Song et al., 2023), активного исследования (Zhou et al., 2024) и обобщения информации (Chen et al., 2023; Liang et al., 2023). Эти многогранные требования значительно повышают сложность задачи.

2.2 Применение LLM в области GSQA

Опираясь на исключительные способности к индуктивному рассуждению и синтезу информации, LLM широко применяются в самых разных практических задачах, включая финансовый анализ (Singh et al., 2024; Wang et al., 2025a), аннотацию данных (Wu et al., 2025; Wang et al., 2024) и интеллектуальное образование (Sun et al., 2024; Lu et al., 2026). Эти навыки управления сложными логическими задачами естественным образом распространяются на геопространственную область для решения проблем интерпретации географической информации. Чтобы справиться с уникальными пространственными ограничениями и разнородными данными, исследователи интегрируют LLM с проверенными фреймворками автономных агентов, такими как ReAct (Yao et al., 2022), Toolformer (Schick et al., 2023) и ToolLLM (Qin et al., 2023). Эти интеграции позволяют LLM функционировать в качестве автономных агентов, способных принимать самостоятельные решения и взаимодействовать с географическими средами с помощью инструментов. В этом контексте недавно появилось несколько специализированных работ. Например, Spatial-RAG (Yu et al., 2025) представляет систему генерации с дополненным пространственным поиском, которая использует стратегию двойного поиска для ответов на реальные вопросы пространственного мышления. CityGPT (Feng et al., 2025) фокусируется на улучшении пространственного восприятия в масштабах города путем внедрения структурных знаний об уличных сетях и функциональных зонах в параметры модели посредством специализированного тюнинга инструкций. Наш бенчмарк фундаментально опирается на эти значительные достижения и предлагает специализированную адаптацию для сценариев GSQA.

3. Датасет EVGeoQA

Таблица 1: Статистика датасета EVGeoQA.

3.1 Постановка задачи

Основная философия этой задачи динамического поиска отличается от традиционных GSQA-бенчмарков: она воплощает поведенческий паттерн «пойти в одно место, чтобы сделать два дела». Формально, в отличие от традиционных GSQA-запросов, зависящих только от геопространственного взаимодействия, запросв EVGeoQA явно привязан к координатам пользователя в реальном времени. Цель состоит в том, чтобы найти целевую зарядную станцию $S$, которая одновременно удовлетворяет двум условиям:

Потребность в зарядке:Основная задача, при которой пользователю явно требуются услуги зарядки его электромобиля.
Совмещенная активность:Станция должна находиться в пределах пешей доступности от объекта POI $P$, который удовлетворяет второстепенное намерение пользователя.

3.2 Сбор и предварительная обработка данных

Чтобы обеспечить разнообразие городских масштабов, мы выбрали три репрезентативных города в Китае: Ханчжоу (столица провинции), Циндао (региональный экономический центр) и Линьи (город окружного значения). Для создания геопространственной основы QA-пар в этих регионах мы объединили записи о зарядных станциях от Государственной электросетевой корпорации Китая с данными о POI в радиусе 1 км от каждой станции, полученными через API Gaode. На Рисунке 2(b) представлено категориальное распределение этих контекстных POI.

3.3 Синтез местоположения пользователя путем слияния данных из нескольких источников

Для генерации реалистичных локаций пользователей мы синтезируем координаты, используя данные о потоках населения и дорожных сетях на основе тепловых карт Baidu, как показано на Рисунке 2(a). Формально мы рассматриваем исходное изображение тепловой карты как набор пикселей, где каждыйпредставляет собой RGB-вектор-го пикселя. Мы применяем алгоритм K-Means (Ahmed et al., 2020) для разделения этих пикселей на $K$ семантических кластеров, представляющих различные уровни плотности населения и контуры дорог, минимизируя внутрикластерную сумму квадратов:

гдеобозначает центроид кластера. Затем, чтобы смоделировать реалистичное распределение людей, мы присваиваем каждому кластеру оценку плотностина основе его семантической важности. После этого координаты пользователя выбираются из этих кластеров, причем вероятностьвыборки локации из кластераопределяется функцией Softmax:

Подробное описание назначения весов

приведено в Приложении A.1.

3.4 Генерация запросов с двумя целями

Вдохновляясь предыдущими работами по генерации вопросов и ответов (QA) на основе шаблонов (Johnson et al., 2017; Li et al., 2025; Wang et al., 2025b; Pampari et al., 2018), мы разработали шаблонный пайплайн для создания запросов на естественном языке, отражающих двойственную природу этой задачи

Сначала мы генерируем структурированные базовые запросы, заполняя заранее заданные шаблоны уточненным набором семантически значимых категорий POI (определенных в Разделе 3.2). Более подробно этот процесс описан в Приложении A.2.

Однако необработанным шаблонным базовым запросам часто не хватает языкового разнообразия и целенаправленного контекста. Для решения этой проблемы мы используем мощную LLM (qwen2.5-72B (QwenTeam, 2024)), применяя методы промптинга Few-Shot (Brown et al., 2020) и Chain-of-Thought (CoT) (Wei et al., 2022) для перефразирования этих основ. Важно отметить, что на этом этапе происходит функциональное сопоставление статических категорий POI с реалистичными намерениями. Например, слот шаблона, содержащий «Стадион», сопоставляется с такими активностями, как «бег» или «тренировка». Более подробно это функциональное отображение описано в Приложении A.5.

3.5 Генерация ответов и контроль качества

Для формирования эталонных ответов (ground truth) мы выполняем исчерпывающий поиск по всем зарядным станциям, чтобы выявить всех возможных кандидатов. Мы проверяем соответствие вторичному намерению, вычисляя косинусное сходство между слотом POI в запросе и реальными POI у станции с использованием модели эмбеддингов CoNAN, применяя строгий порог в 0.85 для минимизации ложных срабатываний.

Более того, понимая, что в реальном пространственном планировании часто бывает несколько оптимальных решений, мы ранжируем все семантически подходящие станции по расстоянию (на автомобиле) до локации пользователя и сохраняем до пяти различных станций в качестве эталонного набора.

Наконец, мы провели ручную проверку около 1000 QA-пар, отобранных по всем категориям POI, чтобы гарантировать лингвистическую естественность и логическую корректность датасета.

3.6 Масштабируемость и репрезентативность

Наш пайплайн генерации QA обладает высокой расширяемостью, что позволяет легко адаптировать его к более широким областям геопространственного поиска за пределами контекста зарядки EV. Кроме того, как показано в Приложении A.3, пространственное распределение зарядных станций охватывает широкий спектр плотности, что способствует оценке как тонкой детализации, так и поиска на больших расстояниях, обеспечивая тем самым высокую универсальность.

4. Фреймворк оценки GeoRover

Хотя EVGeoQA закладывает основу для многоцелевого геопространственного поиска, эффективная оценка LLM в этой области требует специализированного фреймворка. В этом разделе мы представляем GeoRover — общую систему оценки на основе архитектуры агента с инструментами, предназначенную для систематического изучения возможностей геопространственного поиска LLM.

4.1 Определение набора геопространственных инструментов

Мы отдаем приоритет оценке способностей LLM именно к геопространственному исследованию, а не простому извлечению информации (Lewis et al., 2020; Fan et al., 2024). Следовательно, чтобы создать реалистичные условия частичной наблюдаемости (partial observability), мы разработали четыре атомарных инструмента, которые ограничивают агента получением только локальной информации за каждое взаимодействие. Такая конфигурация заставляет агента выполнять итеративные рассуждения для выполнения запроса. Определения этих инструментов таковы:

Инструмент SearchStations:Решение задачи пользователя по зарядке EV является фундаментальным шагом. Агент должен изучить среду, чтобы найти зарядные станции рядом с пользователем. Для этого мы создали инструментSearchStations, который позволяет агенту оценивать распределение зарядных станций в локальном радиусе 5 км вокруг заданных координат.
Инструмент SearchPOIs:Для проверки условий совмещенной активности агент должен изучить локальный контекст станций-кандидатов. ИнструментSearchPOIsпозволяет агенту осматривать POI-окружение конкретных координат, извлекая объекты в пределах 1 км пешей доступности.
Инструмент ChangeLocation:Этот инструмент выступает основным механизмом нашего фреймворка, позволяя агенту активно перемещаться по среде для сбора данных с более широкой площади. В частности, он позволяет агенту сдвигаться от текущих координат в одном из четырех направлений по сторонам света на произвольное расстояние. После выполнения он возвращает новые координаты, которые служат базой для дальнейших решений агента. Используя новую позицию для повторного вызоваSearchStationsиSearchPOIs, агент расширяет свой радиус восприятия, добиваясь автономного пространственного исследования.
Инструмент CalculateDistance:Чтобы упростить количественный пространственный анализ, мы снабдили агента инструментомCalculateDistance. Он вычисляет точное расстояние пути на автомобиле между двумя точками, помогая агенту точнее оценивать экономическую эффективность станций-кандидатов.

Как показано на Рисунке 3, важно подчеркнуть, что последовательность и частота вызовов этих четырех инструментов не предопределены, а динамически решаются самим агентом. Агент автономно направляет исследование, синтезируя историю наблюдений, чтобы оценить достаточность информации и решить, когда пора остановиться.

Для дальнейшего улучшения понимания задачи и стабильности рассуждений агента мы используем методы Few-Shot (Brown et al., 2020) и Chain-of-Thought (CoT) (Wei et al., 2022). С точки зрения реализации, все API разработаны на платформе Gaode. Для обеспечения строгости экспериментов мы применяем жесткие механизмы фильтрации сырых данных от API. Этот процесс устраняет нерелевантный шум и согласовывает извлеченные данные с эталонным распределением EVGeoQA, максимизируя точность результатов оценки.

5. Эксперимент

5.1 Выбор LLM

Для всесторонней оценки способностей геопространственного поиска LLM с использованием бенчмарка EVGeoQA мы выбрали разнообразный набор моделей, представляющих различные масштабы параметров и парадигмы рассуждений. В частности, мы включили серию Qwen (Qwen3-8B, Qwen3-30B-a3b и Qwen2.5-72B) (QwenTeam, 2024, 2025), серию GPT-OSS (20B и 120B) (OpenAI, 2025) и семейство Gemini-2.5 (Flash и Pro) (Comanici et al., 2025). Кроме того, чтобы изучить конкретное влияние явного логического вывода на эту задачу, мы протестировали варианты с режимом «Thinking» (размышления) для части этих моделей, включая Qwen3-8B, Qwen3-30B-a3b, GPT-OSS-20B, GPT-OSS-120B и Gemini-2.5-Pro.

5.2 Метрики оценки

Учитывая природу множественных решений в реальном пространственном планировании, в качестве основной метрики точности рекомендованных зарядных станций мы используемHits@K(). Предсказание считается корректным «попаданием» (hit), если оно совпадает с любой станцией из набора эталонных ответов. Для систематического анализа производительности на разных пространственных масштабах мы разбиваем набор данных по геодезическому расстоянию между локацией пользователя и оптимальной целевой станцией на три уровня сложности:

< 10 км(удвоенный радиус поиска инструмента SearchStations): Сценарии, где цель находится в пределах небольшого радиуса езды.
< 20 км(учетверенный радиус поиска): Сценарии, требующие планирования на средние дистанции.
No Limit (Без ограничений):Наиболее сложная настройка без ограничений по дистанции.

5.3 Основные результаты и их анализ

<10km Hits@1

<10km Hits@2

<10km Hits@3

<20km Hits@1

<20km Hits@2

<20km Hits@3

No Limit Hits@1

No Limit Hits@2

No Limit Hits@3

Qwen3-30B-a3b

Qwen3-30B-a3b*

Qwen25-72b

GPT-OSS-20B*

GPT-OSS-120B*

Gemini-2.5-Flash

Gemini-2.5-Pro*

Qwen3-30B-a3b

Qwen3-30B-a3b*

Qwen25-72b

GPT-OSS-20B*

GPT-OSS-120B*

Gemini-2.5-Flash

Gemini-2.5-Pro*

Qwen3-30B-a3b

Qwen3-30B-a3b*

Qwen25-72b

GPT-OSS-20B*

GPT-OSS-120B*

Gemini-2.5-Flash

Gemini-2.5-Pro*

Таблица 2: Результаты экспериментов на датасете EVGeoQA (лучшие результаты выделены жирным). LLM, использующие механизм Thinking, отмечены символом *

Как показано в Таблице 2, несмотря на то что крупномасштабные модели работают относительно неплохо в сценариях ближнего радиуса, их производительность резко падает с увеличением дистанции поиска. Очевидно, что существует явный разрыв между текущей производительностью моделей и требованиями к надежным геопространственным агентам. Мы резюмируем три основных вывода ниже:

«Лень» LLM приводит к недостаточному исследованию и снижению производительности.Во всех LLM наблюдается последовательное и выраженное снижение производительности по мере расширения радиуса поиска. Например, в Ханчжоу средний показатель Hits@2 падает с 0.5252 до 0.3527 при переходе от локального поиска к режиму No Limit. Мы связываем это падение в первую очередь с широко распространенным явлением «лени»: сталкиваясь с необходимостью пространственного поиска на большие расстояния, LLM часто преждевременно прекращают процесс исследования. Вместо проведения тщательного поиска они склонны выдумывать правдоподобные ответы на основе ограниченной информации, полученной на предыдущих шагах.
Механизмы «размышления» (Thinking) увеличивают глубину поиска за счет ретроспективной рефлексии.Мы обнаружили, что LLM, оснащенные явными режимами размышления (Thinking), неизменно превосходят свои стандартные аналоги. Например, в Ханчжоу в режиме No Limit Qwen3-8B-thinking* достигает оценки Hits@2 в 0.3452, демонстрируя явное преимущество перед стандартной Qwen3-8B (0.2889). Мы связываем эту эффективность со способностью модели анализировать свои исторические траектории поиска. В отличие от стандартных моделей, склонных к преждевременному завершению, «думающие» модели активно оценивают достаточность собранной информации на соответствие двойным условиям и предпринимают дополнительные шаги поиска, если данных недостаточно. Мы количественно анализируем это явление в Разделе 5.4.
Закон масштабирования (Scaling Law) работает и в задачах геопространственного поиска.Крупные базовые модели, такие как Qwen2.5-72B и Gemini-2.5-Pro, неизменно доминируют по всем метрикам. Напротив, модели меньшего размера (например, Qwen3-8B) демонстрируют более резкое падение производительности при увеличении сложности задачи. Это говорит о том, что ограниченное количество параметров сужает их способность обрабатывать высоконагруженные пространственные контексты, характерные для плотной городской застройки.

5.4 Анализ использования инструмента ChangeLocation

Qwen3-30b-a3b

Qwen3-30b-a3b*

Gemini-2.5-Flash

Gemini-2.5-Pro*

Таблица 3: Средняя частота вызова инструмента ChangeLocation на разных уровнях дистанции в Линьи.

Как обсуждалось в Разделе 4, инструментChangeLocationявляется основным механизмом для расширения зоны поиска. Чтобы количественно оценить, как LLM используют эту возможность, мы фиксируем среднюю частоту его вызова на разных уровнях сложности в Линьи. Данная метрика определяется как среднее количество вызововChangeLocationагентом в течение одного эпизода исследования.

Результаты в Таблице 3 показывают, что частота вызовов значительно ниже ожидаемой, особенно в задачах на дальние расстояния. Мы связываем это с двумя основными факторами. Во-первых, в соответствии с упомянутым узким местом «лени», агенты часто прекращают поиск преждевременно, не исследуя среду досконально. Во-вторых, у продвинутых моделей наблюдается эмерджентная способность синтезировать пространственные контексты из истории взаимодействий и определять новые координаты без прямого использования инструмента.

Несмотря на эти нюансы, существует четкая положительная корреляция между частотой использования инструмента и производительностью агента в сложных сценариях. Усиление активного поиска напрямую совпадает с более высокой точностью, отраженной в наших основных результатах в Таблице 2, что подтверждает: активное исследование является определяющим фактором успеха в крупномасштабных задачах пространственного планирования.

5.5 Анализ ошибок

Как показано на Рисунке 4, значительная часть сбоев проистекает из недостаточного исследования среды. Все агенты на базе LLM демонстрируют существенную степень «лени» при столкновении со сложными задачами планирования. Это свидетельствует о том, что современным LLM не хватает способности поддерживать долгосрочную стратегию поиска без явного руководства или подкрепления.

Кроме того, мы наблюдаем, что интеграция разнородных данных (траекторий поиска, зарядных станций и деталей POI) провоцирует феномен «потери в середине» (Lost in the Middle) (Liu et al., 2024; Li et al., 2024). Агенты часто путают атрибуты в этих сложных длинных контекстах, генерируя лингвистически беглые, но фактически ошибочные ответы.

Наконец, за исключением Gemini2.5-Pro, все оцениваемые LLM в той или иной степени сталкиваются с ошибками, связанными с аргументами вызовов. Это указывает на то, что эффективное использование геопространственных инструментов остается серьезной проблемой.

Подробные определения и настройки для этих категорий ошибок приведены в Приложении A.4.

5.6 Анализ конкретного примера (Case Study)

Мы также провели качественный анализ того, как агенты ориентируются и рассуждают в этих сложных геопространственных средах. Как показано на Рисунке 5, высокопроизводительные LLM могут активно обобщать исторические траектории перемещений для оптимизации будущих шагов поиска.

В частности, сначала агент выполняет локальный поиск вокруг координат запроса пользователя (Шаги 1–4). Определив, что в близлежащем районе нет зарядных станций, удовлетворяющих двум условиям, агент автономно совершает пространственные переходы на большие расстояния (Шаг 5 и 9), чтобы расширить область обзора. Хотя дизайн нашего промпта не задает никаких заранее определенных правил навигации, агент, по-видимому, синтезирует свою историческую траекторию, выбирая новые опорные точки, которые максимизируют пространственный охват и позволяют избежать избыточного поиска в уже проверенных местах. В конце агент использует инструментCalculateDistanceдля получения точных метрик расстояния, синтезируя все накопленные наблюдения для формулирования итоговой рекомендации.

Это эмерджентное поведение подчеркивает потенциал LLM к пониманию пространственных планировок и проведению целенаправленного поиска. Однако процесс исследования агента имеет определенные ограничения. Как видно в левом квадранте Рисунка 5, подходящая зарядная станция, расположенная ближе к начальной позиции, игнорируется в процессе поиска. Это упущение коррелирует с явлением «лени», обсуждавшимся в Разделе 5.3. Это говорит о том, что хотя LLM и обладают потенциалом пространственного мышления, их способность гарантировать глобальную оптимальность при геопространственном поиске остается критическим узким местом, требующим будущей оптимизации.

6. Заключение и обсуждение

В этой статье мы представилиEVGeoQA— первый бенчмарк, предназначенный для оценки возможностей целенаправленного поиска LLM в динамичных геопространственных средах. Чтобы облегчить систематическую оценку, мы также предложилиGeoRover, общую систему оценки, использующую архитектуру агента с инструментами для исследования возможностей LLM в области пространственного поиска.

Наши экспериментальные результаты показывают, что, хотя LLM эффективно работают в локализованных сценариях на малых расстояниях, они страдают от выраженного падения производительности в задачах на большие расстояния. Хотя между текущей производительностью моделей и требованиями к надежным геопространственным агентам существует явный разрыв, скрытая способность к обобщению траекторий подчеркивает значительный потенциал сложного геопространственного мышления на базе LLM.

Выявляя ключевые узкие места, такие как недостаточный поиск и путаница в атрибутах, EVGeoQA служит строгой тестовой площадкой для создания более надежных и стратегически подкованных геопространственных агентов для задач в открытом мире.

Ограничения

Бенчмарк EVGeoQA построен на основе городских данных из трех различных китайских городов разного масштаба, а пары вопросов-ответов преимущественно представлены на китайском языке. Эта языковая специфика может привносить внутренние смещения (bias). В будущей работе мы планируем смягчить эту проблему путем добавления многоязычных данных и более широкого круга городов мира.

Кроме того, наша текущая оценка в первую очередь измеряет внутренние (базовые) способности LLM к рассуждениям. Мы признаем, что передовые методы, такие как предметно-ориентированное дообучение (SFT) (Gururangan et al., 2020; Zheng et al., 2024; Hu et al., 2022), обладают значительным потенциалом для повышения производительности моделей в специализированных пространственных задачах, и исследование целесообразности и эффективности таких стратегий оптимизации является ключевым направлением наших последующих исследований. Двигаясь вперед, мы остаемся привержены области геопространственного поиска, стремясь совершенствовать наши бенчмарки и фреймворки для дальнейшего развития воплощенного пространственного интеллекта.

Перевод подготовил автор каналаДруг Опенсурса, заранее благодарю за подписку

Читать оригинал