Лимиты токенов (Token limits)

Содержание статьи

Как работают лимиты токенов на практике?
Примеры проявления лимитов
Почему нельзя сделать лимиты бесконечными?
Как эффективно управлять лимитами?

Лимиты токенов (Token limits) — это максимально допустимый объем текста, измеряемый в базовых единицах данных (токенах), который языковая модель искусственного интеллекта способна обработать, запомнить и сгенерировать в рамках одного запроса или сессии. Это своеобразный предел краткосрочной памяти нейросети.

Чтобы в полной мере понять, что такое лимиты токенов, необходимо разобраться в том, как искусственный интеллект «читает» текст. Нейросети, такие как ChatGPT, Claude или GigaChat, не воспринимают информацию по буквам или целым словам. Они разбивают текст на фрагменты — токены. В английском языке один токен обычно равен 3-4 символам (или примерно 3/4 слова). В русском языке из-за особенностей кодировки одно короткое слово может разбиваться на 2, 3 или даже 5 токенов.

Как работают лимиты токенов на практике?

Лимит токенов часто называют контекстным окном (context window). Важно понимать, что в этот лимит входит абсолютно всё, что участвует в текущем акте коммуникации с ИИ:

Системный промпт: скрытые инструкции, задающие роль и базовое поведение нейросети.
Ваш запрос: весь текст, который вы написали или скопировали в чат.
История диалога: предыдущие вопросы и ответы в рамках одной беседы.
Ответ нейросети: текст, который модель генерирует прямо сейчас.

Если сумма всех этих элементов превышает установленный лимит токенов, модель физически не сможет обработать информацию целиком. В таких случаях система либо выдаст ошибку, либо (что бывает чаще) начнет «забывать» самые старые сообщения в чате, выталкивая их за пределы своего контекстного окна, чтобы освободить место для новых данных.

Примеры проявления лимитов

Представьте, что вы загрузили в нейросеть с лимитом в 8 000 токенов длинный юридический договор на 15 000 токенов и попросили найти в нем ошибки. ИИ проанализирует только первую часть документа, которая поместилась в лимит, а остальное просто проигнорирует, так как этот текст оказался за пределами его «поля зрения».

Другой частый пример — написание программного кода. Вы долго обсуждаете с нейросетью архитектуру приложения. Спустя 40 длинных сообщений вы просите ИИ добавить функцию, опираясь на логику из самого первого сообщения. Но ИИ начинает придумывать несуществующие переменные. Это происходит потому, что начало вашей беседы уже стерлось из его памяти из-за превышения лимита токенов.

Почему нельзя сделать лимиты бесконечными?

В основе большинства современных языковых моделей лежит архитектура Transformer. Её математическая модель устроена так, что потребление вычислительных ресурсов (оперативной памяти видеокарт и процессорного времени) растет квадратично по отношению к длине контекста. Это означает, что увеличение лимита токенов в 2 раза требует примерно в 4 раза больше вычислительных мощностей. Бесконечные лимиты сделали бы каждый запрос к нейросети невероятно дорогим и медленным.

Интересный факт: Эффект «Потерянного в середине» (Lost in the Middle)

Когда разработчикам удалось существенно расширить лимиты токенов (например, до 128 000 или даже 1 000 000 токенов), исследователи обнаружили удивительный феномен. Оказалось, что нейросети подвержены когнитивному искажению, очень похожему на человеческое!

Если загрузить в ИИ огромную книгу, полностью заполняющую его огромный лимит токенов, и задать вопрос по тексту, модель блестяще вспомнит факты из самого начала и самого конца документа. Однако информацию, спрятанную ровно в середине текста, нейросеть часто упускает из виду или начинает галлюцинировать (придумывать ответы). Этот феномен получил название «Lost in the Middle». Он доказал, что простое механическое увеличение лимита токенов не гарантирует того, что ИИ будет одинаково внимательно читать весь объем предоставленного текста.

Как эффективно управлять лимитами?

Чтобы не сталкиваться с проблемой ограничения памяти ИИ, опытные пользователи применяют несколько стратегий:

Дробите задачи: анализируйте большие документы по главам, а не целиком.
Проводите суммаризацию: просите ИИ периодически делать краткие выжимки из длинного диалога, чтобы использовать их как компактную шпаргалку для продолжения работы.
Учитывайте язык: помните, что тексты на кириллице «съедают» лимит токенов в 2-3 раза быстрее, чем тексты на английском языке. Перевод сложных задач на английский часто помогает сэкономить место в контекстном окне.