Длина контекстного окна: как работает память нейросетей

Длина контекстного окна (Context window) — это максимальный объем информации (текста, кода, изображений или других данных), который искусственный интеллект способен удержать в своей «краткосрочной памяти», проанализировать и учесть за один раз при формировании ответа.

Чтобы лучше понять суть этого термина, представьте себе человека, который читает длинный роман. Если его личная «длина контекстного окна» составляет всего одну страницу, то, перевернув лист, он напрочь забудет имена героев и события, описанные ранее. Он сможет адекватно реагировать только на то, что видит прямо сейчас. Точно так же работают и большие языковые модели (LLM) — от ChatGPT до Claude и GigaChat.

Размер этого окна измеряется не в привычных нам символах или словах, а в токенах. Токен — это базовая единица обработки данных в нейросетях. В английском языке один токен часто равен одному короткому слову или части длинного (примерно 4 символа). В русском языке из-за особенностей кодировки одно слово может разбиваться на 2-4 токена. Поэтому для русскоязычных пользователей длина контекстного окна расходуется несколько быстрее.

Почему размер контекстного окна имеет критическое значение?

От вместительности контекстного окна напрямую зависят практические возможности нейросети и качество взаимодействия с ней. Каждый раз, когда вы отправляете сообщение в длинном диалоге, чат-бот не просто читает вашу последнюю реплику. Под капотом система заново отправляет модели всю историю вашей переписки. Это нужно для того, чтобы ИИ «помнил» контекст.

Если диалог становится слишком длинным и превышает лимит токенов, старые сообщения начинают вытесняться. Модель их «забывает». Это приводит к тому, что бот может потерять нить разговора, начать противоречить сам себе или забыть инструкции, которые вы дали ему в самом начале сессии.

Сегодня разработчики стремятся максимально увеличить этот параметр для решения сложных профессиональных задач:

Глубокий анализ документов: юристы и аналитики могут загружать многостраничные контракты, финансовые отчеты или судебные дела целиком, чтобы ИИ нашел в них противоречия или сделал краткую выжимку.
Разработка программного обеспечения: программисты передают нейросети целые архитектуры проектов и репозитории кода. Благодаря большому окну ИИ видит все взаимосвязи и может писать код, который не сломает остальные части программы.
Творчество и литература: писатели используют LLM для работы над книгами, где важно сохранять единый стиль, помнить арки персонажей и детали вымышленного мира на протяжении десятков глав.

Примеры эволюции контекстного окна

Прогресс в этой области идет семимильными шагами, и то, что казалось фантастикой пару лет назад, сегодня стало стандартом:

Ранние модели (например, GPT-2 или BERT): имели скромное окно в 512–1024 токена. Этого объема хватало лишь на то, чтобы перевести или переписать пару абзацев текста (около одной стандартной страницы А4).
GPT-3.5 (ранний ChatGPT): совершил революцию с окном в 4096 токенов (примерно 3000 слов). Это позволило вести осмысленные диалоги и писать полноценные эссе.
GPT-4 Turbo и Claude 3: обладают окном в 128 000 и 200 000 токенов соответственно. В такое окно легко поместится целая книга среднего объема (300–500 страниц), например, «Гарри Поттер и философский камень».
Google Gemini 1.5 Pro: установила новый рекорд, предложив контекстное окно до 2 000 000 токенов. Это позволяет загружать не только гигантские текстовые архивы, но и часовые видеоролики или объемные аудиозаписи за один промпт.

Интересный факт: Эффект «Потерянного в середине» (Lost in the middle)

Казалось бы, чем больше контекстное окно, тем умнее и полезнее нейросеть. Однако исследователи из Стэнфорда обнаружили забавный и одновременно проблемный феномен, который назвали «Lost in the middle».

Выяснилось, что даже если передовая модель технически способна «проглотить» сотни тысяч токенов, ее механизм внимания работает несовершенно. Искусственный интеллект превосходно запоминает и извлекает информацию, расположенную в самом начале (введение) и в самом конце (заключение) предоставленного массива данных. А вот важные факты, спрятанные где-то в середине огромного документа, нейросеть часто игнорирует, путает или вовсе придумывает (галлюцинирует).

Поведение ИИ в этом случае поразительно напоминает студента, который готовился к экзамену в последнюю ночь: он хорошо помнит первую и последнюю главы учебника, а середину читал по диагонали. Именно поэтому сегодня инженеры бьются не только над физическим расширением контекстного окна, но и над улучшением качества поиска и удержания информации внутри него.

Совет для пользователей: Если вы работаете с большими текстами, всегда помещайте самую важную информацию, ключевые инструкции и вопросы либо в самое начало вашего запроса, либо в самый конец. Это значительно повысит точность ответа нейросети.