[Анализ статьи] О теоретических ограничениях поиска на основе встраивания (предупреждение: напыщенная речь)

Статья: https://arxiv.org/abs/2508.21038. Аннотация: На протяжении многих лет перед векторными встраиваниями ставится задача постоянно растущего набора поисковых задач, при этом наблюдается рост их использования для рассуждений, выполнения инструкций, кодирования и многого другого. Эти новые тесты заставляют встраивания работать для любого запроса и любого понятия релевантности, которое может быть задано. Хотя предыдущие работы указывали на теоретические ограничения векторных вложений, существует распространенное предположение, что эти трудности возникают исключительно из-за нереалистичных запросов, а те, которые не являются таковыми, можно преодолеть с помощью лучших обучающих данных и более крупных моделей. В этой работе мы демонстрируем, что мы можем столкнуться с этими теоретическими ограничениями в реалистичных условиях с чрезвычайно простыми запросами. Мы связываем известные результаты теории обучения, показывающие, что количество top-k подмножеств документов, которые могут быть возвращены в результате некоторого запроса, ограничено размерностью встраивания. Мы эмпирически показываем, что это справедливо, даже если мы ограничимся k = 2 и оптимизируем непосредственно на тестовом наборе со свободными параметризованными вложениями. Затем мы создаем реалистичный набор данных под названием LIMIT, который проводит стресс-тестирование моделей, основанных на этих теоретических результатах, и наблюдаем, что даже самые современные модели терпят неудачу в этом наборе данных, несмотря на простой характер задачи. Наша работа показывает ограничения встраивания моделей в рамках существующей одновекторной парадигмы и призывает к будущим исследованиям по разработке методов, которые смогут устранить это фундаментальное ограничение. Авторы: Орион Веллер, Майкл Боратко, Ифтехар Наим, Джинхёк Ли Ссылки: Домашняя страница: https://ykilcher.com Мерч: https://ykilcher.com/merch Ютуб: https://www.youtube.com/c/yannickilcher Твиттер: https://twitter.com/ykilcher Дискорд: https://ykilcher.com/discord LinkedIn: https://www.linkedin.com/in/ykilcher Если вы хотите поддержать меня, лучше всего поделиться контентом :) Если вы хотите поддержать меня материально (совершенно необязательно и добровольно, но многие об этом просили): Подпишитесь на звезду: https://www.subscribestar.com/yannickilcher Патреон: https://www.patreon.com/yannickilcher Биткойн (BTC): bc1q49lsw3q325tr58ygf8sudx2dqfguclvngvy2cq Эфириум (ETH): 0x7ad3513E3B8f66799f507Aa7874b1B0eBC7F85e2 Лайткоин (LTC): LQW2TRyKYetVC8WjFkhpPhtpbDM4Vw7r9m Monero (XMR): 4ACL8AGrEo5hAir8A9CeVrW8pEauWvnp1WnSDZxW7tziCDLhZAGsgzhRQABDnFy8yuM9fWJDviJPHKRjV4FWt19CJZN9D4n
Читать оригинал