Tokens Per Minute (TPM)

Содержание статьи

Суть термина: как работает TPM
Примеры работы Tokens Per Minute на практике
Интересный факт: «языковой налог» в нейросетях
Как управлять лимитами и избегать ошибок

Tokens Per Minute (TPM) (с англ. — «токены в минуту») — это базовая метрика пропускной способности и ограничения скорости (rate limit) при работе с API больших языковых моделей (LLM). Она показывает максимальное суммарное количество токенов, которое приложение может отправить в модель и получить от неё в качестве ответа за 60 секунд.

Суть термина: как работает TPM

Чтобы глубоко понять, что такое Tokens Per Minute, нужно сначала разобраться в понятии «токен». Нейросети, такие как ChatGPT, Claude или GigaChat, не читают текст буквами или целыми словами. Они разбивают информацию на мельчайшие смысловые единицы — токены. В английском языке один токен примерно равен 4 символам или 0,75 слова. В русском языке одно слово может состоять из нескольких токенов из-за особенностей кодировки.

Когда вы интегрируете искусственный интеллект в свой продукт через API, провайдер (например, OpenAI) устанавливает жесткие рамки на то, сколько информации вы можете «прогнать» через их серверы за определенное время. Метрика TPM учитывает как входящие токены (ваш промпт или контекст), так и исходящие (ответ нейросети).

Важно понимать, что метрика TPM обновляется в реальном времени. Это так называемое «скользящее окно» (rolling window). Если вы исчерпали свой лимит за первые 10 секунд минуты, вам придется подождать оставшиеся 50 секунд, прежде чем API снова начнет принимать ваши запросы. Это заставляет разработчиков писать более умный и оптимизированный код.

Зачем разработчики вводят эти ограничения?

Защита от перегрузок (DDoS): Если миллионы пользователей одновременно загрузят в нейросеть огромные тексты, серверы просто выйдут из строя. TPM помогает равномерно распределять вычислительные мощности.
Контроль расходов: Поскольку генерация текста требует огромных затрат на графические процессоры (GPU), провайдерам необходимо прогнозировать нагрузку и тарифицировать её.
Разделение на уровни доступа (Tiers): Новички получают минимальный TPM (например, 10 000 токенов в минуту), а крупные корпоративные клиенты — миллионы токенов, оплачивая соответствующие премиум-тарифы.

Примеры работы Tokens Per Minute на практике

Представим, что вы создали Telegram-бота для службы поддержки вашего интернет-магазина. Бот анализирует вопрос клиента, ищет ответ в базе данных и генерирует вежливое сообщение. Ваш текущий лимит по тарифу составляет 40 000 TPM.

Каждый запрос пользователя вместе с системным промптом (инструкцией для бота) и ответом нейросети «весит» в среднем 1 000 токенов. В обычный день бот обрабатывает 5-10 сообщений в минуту. Это расходует около 10 000 токенов. Вы находитесь в безопасной зоне, и всё работает идеально.

Но вдруг вы запускаете масштабную распродажу. В бота одновременно пишут 60 человек за одну минуту. Суммарный объем информации достигает 60 000 токенов. Как только отметка пересекает разрешенные 40 000 TPM, API провайдера блокирует последующие запросы и возвращает ошибку HTTP 429 (Too Many Requests / Rate Limit Exceeded). Ваши клиенты начинают получать уведомление об ошибке, пока не начнется следующая минута и счетчик TPM не обнулится.

Другой пример — обработка больших массивов данных. Допустим, вы хотите использовать нейросеть для краткого пересказа 50-страничного документа. Весь текст может занимать 30 000 токенов. Если ваш TPM равен 20 000, вы физически не сможете отправить весь документ одним запросом. Нейросеть откажется его обрабатывать. Вам придется программно разбить текст на две части, отправить первую, подождать одну минуту, а затем отправить вторую.

Интересный факт: «языковой налог» в нейросетях

А вы знали, что лимиты TPM расходуются совершенно по-разному в зависимости от языка, на котором вы общаетесь с нейросетью? Это явление в IT-среде в шутку прозвали «языковым налогом».

Всё дело в алгоритмах токенизации (например, Byte-Pair Encoding), которые изначально тренировались на огромных массивах англоязычного текста. Из-за этого популярные английские слова часто кодируются одним единственным токеном. А вот кириллица, азиатские иероглифы или арабская вязь разбиваются на байты. В результате одно обычное русское слово, например «достопримечательность», может «стоить» модели 5-7 токенов, тогда как английское «landmark» — всего 1 или 2.

Это означает, что при одинаковом лимите Tokens Per Minute русскоязычное приложение исчерпает свои квоты в 2-3 раза быстрее, чем точно такое же приложение, работающее на английском языке. Разработчикам приходится учитывать этот факт при расчете нагрузки.

Как управлять лимитами и избегать ошибок

Чтобы пользователи не сталкивались с зависаниями из-за превышения TPM, разработчики применяют несколько эффективных стратегий:

Экспоненциальная задержка (Exponential Backoff): Если сервер возвращает ошибку 429, скрипт не падает, а ждет 1 секунду и повторяет запрос. Если снова ошибка — ждет 2 секунды, затем 4, 8 и так далее, пока счетчик минут не обнулится.
Кэширование ответов: Если пользователи задают боту одинаковые вопросы, ответ выдается из внутренней памяти приложения, не обращаясь к API нейросети и не расходуя токены.
Повышение Tier-уровня: Самый простой, но затратный способ — привязать корпоративную карту и пополнить баланс, тем самым перейдя на следующий уровень доверия, где лимиты TPM измеряются миллионами.

Понимание метрики Tokens Per Minute — это обязательный навык для любого специалиста, который внедряет искусственный интеллект в бизнес-процессы. Грамотный расчет токенов позволяет не только обеспечить стабильную работу приложений, но и существенно сэкономить бюджет на IT-инфраструктуру.