[Анализ статьи] О теоретических ограничениях поиска на основе встраивания (предупреждение: напыщенная речь)
Статья: https://arxiv.org/abs/2508.21038.
Аннотация:
На протяжении многих лет перед векторными встраиваниями ставится задача постоянно растущего набора поисковых задач, при этом наблюдается рост их использования для рассуждений, выполнения инструкций, кодирования и многого другого. Эти новые тесты заставляют встраивания работать для любого запроса и любого понятия релевантности, которое может быть задано. Хотя предыдущие работы указывали на теоретические ограничения векторных вложений, существует распространенное предположение, что эти трудности возникают исключительно из-за нереалистичных запросов, а те, которые не являются таковыми, можно преодолеть с помощью лучших обучающих данных и более крупных моделей. В этой работе мы демонстрируем, что мы можем столкнуться с этими теоретическими ограничениями в реалистичных условиях с чрезвычайно простыми запросами. Мы связываем известные результаты теории обучения, показывающие, что количество top-k подмножеств документов, которые могут быть возвращены в результате некоторого запроса, ограничено размерностью встраивания. Мы эмпирически показываем, что это справедливо, даже если мы ограничимся k = 2 и оптимизируем непосредственно на тестовом наборе со свободными параметризованными вложениями. Затем мы создаем реалистичный набор данных под названием LIMIT, который проводит стресс-тестирование моделей, основанных на этих теоретических результатах, и наблюдаем, что даже самые современные модели терпят неудачу в этом наборе данных, несмотря на простой характер задачи. Наша работа показывает ограничения встраивания моделей в рамках существующей одновекторной парадигмы и призывает к будущим исследованиям по разработке методов, которые смогут устранить это фундаментальное ограничение.
Авторы: Орион Веллер, Майкл Боратко, Ифтехар Наим, Джинхёк Ли
Ссылки:
Домашняя страница: https://ykilcher.com
Мерч: https://ykilcher.com/merch
Ютуб: https://www.youtube.com/c/yannickilcher
Твиттер: https://twitter.com/ykilcher
Дискорд: https://ykilcher.com/discord
LinkedIn: https://www.linkedin.com/in/ykilcher
Если вы хотите поддержать меня, лучше всего поделиться контентом :)
Если вы хотите поддержать меня материально (совершенно необязательно и добровольно, но многие об этом просили):
Подпишитесь на звезду: https://www.subscribestar.com/yannickilcher
Патреон: https://www.patreon.com/yannickilcher
Биткойн (BTC): bc1q49lsw3q325tr58ygf8sudx2dqfguclvngvy2cq
Эфириум (ETH): 0x7ad3513E3B8f66799f507Aa7874b1B0eBC7F85e2
Лайткоин (LTC): LQW2TRyKYetVC8WjFkhpPhtpbDM4Vw7r9m
Monero (XMR): 4ACL8AGrEo5hAir8A9CeVrW8pEauWvnp1WnSDZxW7tziCDLhZAGsgzhRQABDnFy8yuM9fWJDviJPHKRjV4FWt19CJZN9D4n