Загрузка...

Расчет стоимости токенов

Расчет стоимости токенов — это процесс вычисления финансовых затрат на использование больших языковых моделей (LLM) через API, при котором итоговая цена формируется на основе количества обработанных текстовых фрагментов (токенов) во входящем запросе пользователя и сгенерированном ответе нейросети.

С развитием искусственного интеллекта и массовым внедрением нейросетей в бизнес-процессы, понимание экономики API стало критически важным навыком. Провайдеры ИИ (такие как OpenAI, Anthropic или Google) не тарифицируют свои услуги по количеству слов или символов. Вместо этого они используют универсальную метрику — токены.

Что такое токен и как он формируется?

Нейросети не воспринимают текст так, как это делает человек. Перед обработкой любой текст проходит через процесс токенизации — разбиения на базовые смысловые единицы. Токеном может быть целое слово, слог или даже отдельная буква (символ).

  • В английском языке 1 токен в среднем равен 4 символам (или примерно 0,75 слова).
  • В других языках, включая русский, одно слово может разбиваться на 2, 3 или даже 5 токенов из-за особенностей кодировки.
  • Знаки препинания, пробелы и эмодзи также считаются токенами.

Как работает расчет стоимости?

Тарификация в мире LLM всегда разделяется на два потока, которые имеют разную стоимость за каждую тысячу (1K) или миллион (1M) токенов:

  • Входящие токены (Prompt / Input): текст, который вы отправляете нейросети. Сюда входят ваши инструкции, системные промпты и загруженные документы. Обработка входящих данных обходится дешевле.
  • Исходящие токены (Completion / Output): текст, который генерирует и возвращает модель. Этот процесс требует больших вычислительных мощностей, поэтому исходящие токены стоят в 2–4 раза дороже входящих.

Базовая формула расчета

Чтобы узнать итоговую цену одного запроса, используется следующая формула:

Общая стоимость = (Кол-во Input токенов / 1 000 000 × Цена за 1М Input) + (Кол-во Output токенов / 1 000 000 × Цена за 1М Output)

Пример расчета на практике

Допустим, вы используете популярную языковую модель со следующими тарифами: $5.00 за 1 млн входящих токенов и $15.00 за 1 млн исходящих.

Вы загружаете в модель статью объемом 4000 токенов и просите сделать из нее краткую выжимку. Модель успешно справляется с задачей и выдает ответ объемом 1000 токенов.

  • Затраты на ввод: (4000 / 1 000 000) × 5 = $0.02
  • Затраты на вывод: (1000 / 1 000 000) × 15 = $0.015
  • Итоговая стоимость запроса: $0.02 + $0.015 = $0.035 (3,5 цента).

Скрытые затраты: контекстное окно и история диалога

Многие разработчики забывают о важнейшей особенности работы чат-ботов: API моделей не обладают встроенной памятью. Чтобы нейросеть «помнила» контекст беседы, при каждом новом запросе ей нужно заново отправлять всю предыдущую историю переписки.

Представьте, что вы ведете долгий диалог. Ваш первый запрос занял 100 токенов, ответ — 100. При втором запросе (еще 100 токенов) вы отправите уже 300 токенов (история + новый запрос). К десятому сообщению размер входящего промпта может разрастись до нескольких тысяч токенов. Таким образом, расчет стоимости токенов должен обязательно учитывать экспоненциальный рост затрат на длинные сессии.

Интересный факт: почему русский язык обходится дороже?

Из-за особенностей работы алгоритмов токенизации (например, BPE — Byte-Pair Encoding), нейросети гораздо эффективнее «сжимают» английский текст. Популярные английские слова часто кодируются одним токеном. Однако кириллические символы могут разбиваться побайтово.

В результате простая фраза «I love artificial intelligence» займет всего 4 токена, а ее прямой перевод «Я люблю искусственный интеллект» может потребовать от 10 до 15 токенов в зависимости от токенизатора модели. Это означает, что генерация текста на русском языке объективно обходится дороже, и бюджеты для русскоязычных ИИ-проектов всегда нужно закладывать с повышающим коэффициентом.

Как оптимизировать расходы?

Чтобы не переплачивать за API, эксперты рекомендуют применять следующие методы:

  • Оптимизация промптов: удаление лишних слов, «воды» и дублирующихся инструкций.
  • Ограничение контекста: передача в API только последних 5-10 сообщений диалога, а не всей истории за год.
  • Выбор правильной модели: для простых задач (например, классификации текста или маршрутизации запросов) лучше использовать младшие, более дешевые версии моделей (например, GPT-4o-mini вместо полноценной GPT-4o).