Разрушение контекста: как увеличение входных токенов влияет на производительность LLM (анализ статьи)

Бумага: https://research.trychroma.com/context-rot. Аннотация: Обычно предполагается, что модели большого языка (LLM) обрабатывают контекст единообразно, то есть модель должна обрабатывать 10 000-й токен так же надежно, как и 100-й. Однако на практике это предположение не выполняется. Мы наблюдаем, что производительность модели значительно меняется при изменении длины входных данных даже при выполнении простых задач. В этом отчете мы оцениваем 18 LLM, включая современные модели GPT-4.1, Claude 4, Gemini 2.5 и Qwen3. Наши результаты показывают, что модели не используют свой контекст единообразно; вместо этого их производительность становится все более ненадежной по мере увеличения длины входных данных. Авторы: Келли Хонг, Антон Тройников, Джефф Хубер Ссылки: Домашняя страница: https://ykilcher.com Мерч: https://ykilcher.com/merch Ютуб: https://www.youtube.com/c/yannickilcher Твиттер: https://twitter.com/ykilcher Дискорд: https://ykilcher.com/discord LinkedIn: https://www.linkedin.com/in/ykilcher Если вы хотите поддержать меня, лучше всего поделиться контентом :) Если вы хотите поддержать меня материально (совершенно необязательно и добровольно, но многие об этом просили): Подпишитесь на звезду: https://www.subscribestar.com/yannickilcher Патреон: https://www.patreon.com/yannickilcher Биткойн (BTC): bc1q49lsw3q325tr58ygf8sudx2dqfguclvngvy2cq Эфириум (ETH): 0x7ad3513E3B8f66799f507Aa7874b1B0eBC7F85e2 Лайткоин (LTC): LQW2TRyKYetVC8WjFkhpPhtpbDM4Vw7r9m Monero (XMR): 4ACL8AGrEo5hAir8A9CeVrW8pEauWvnp1WnSDZxW7tziCDLhZAGsgzhRQABDnFy8yuM9fWJDviJPHKRjV4FWt19CJZN9D4n
Читать оригинал