Разрушение контекста: как увеличение входных токенов влияет на производительность больших языковых моделей

Обычно считается, что большие языковые модели (LLM) обрабатывают контекст равномерно — то есть 10 000-й токен должен восприниматься так же надёжно, как и 100-й. Однако на практике это не так. Исследование показывает, что производительность моделей значительно падает с увеличением длины входных данных, даже при выполнении простых задач.

Тестирование 18 современных моделей

В анализе участвовали 18 LLM, включая новейшие версии ДжиПиТи-4.1 (GPT-4.1), Клод 4 (Claude 4), Джемини 2.5 (Gemini 2.5) и Кьюэн3 (Qwen3). Результаты продемонстрировали, что ни одна из моделей не использует контекст равномерно. По мере увеличения объёма входных данных их способность корректно обрабатывать информацию становится всё менее предсказуемой.

Проблема «разрушения контекста»

Явление, получившее название «разрушение контекста» (context rot), проявляется в том, что модель начинает игнорировать или искажать информацию, расположенную в начале длинного текста. Это ставит под сомнение эффективность использования моделей в сценариях с большим объёмом входных данных — например, при анализе документов или ведении длительных диалогов.

Производительность моделей становится всё более ненадёжной по мере роста длины контекста, несмотря на заявленную поддержку сотен тысяч токенов.

Исследование подчёркивает необходимость пересмотра подходов к оценке и применению LLM. Текущие метрики часто не отражают реальное поведение моделей при работе с длинными последовательностями, что может приводить к ошибкам в критически важных приложениях.

Читать оригинал