Cost per Token
Cost per Token (цена за токен) — это основная модель ценообразования в сфере генеративного искусственного интеллекта и больших языковых моделей (LLM), определяющая стоимость обработки или генерации одной базовой единицы текста (токена).
С развитием нейросетей, таких как ChatGPT, Claude или Gemini, разработчики и бизнес столкнулись с необходимостью оценивать затраты на их использование. В отличие от классических программ, где мы платим за подписку или за выделенные вычислительные мощности (серверы), провайдеры ИИ-моделей продают свои услуги порциями. И этой минимальной порцией является токен.
Что такое токен и как он работает?
Чтобы понять метрику Cost per Token, нужно разобраться, как нейросеть «читает» текст. Искусственный интеллект не воспринимает слова целиком. Он разбивает их на фрагменты — токены. В английском языке один токен примерно равен 4 символам или 0,75 слова. Например, слово «hamburger» может быть разбито на три токена: «ham», «bur» и «ger». А короткое слово «cat» составит всего один токен.
Таким образом, когда вы отправляете запрос к API нейросети, система сначала токенизирует ваш текст, считает количество полученных кусочков и умножает их на установленный тариф. Эта сумма и есть итоговый Cost per Token для конкретной задачи.
Как формируется цена: Input и Output
На рынке сложилась стандартная практика разделять стоимость токенов на две категории:
- Input tokens (токены ввода): Это текст вашего запроса (промпта), который вы отправляете нейросети. Сюда входят инструкции, контекст, загруженные документы. Обработка входящих данных требует меньше вычислительных ресурсов, поэтому цена за них всегда ниже.
- Output tokens (токены вывода): Это текст, который генерирует сама нейросеть в ответ на ваш запрос. Генерация каждого нового слова — сложный вычислительный процесс, поэтому токены вывода стоят в 2-3 раза дороже токенов ввода.
Обычно провайдеры указывают цену не за один токен (так как суммы получаются микроскопическими, с множеством нулей после запятой), а за 1 000 (1K) или 1 000 000 (1M) токенов.
Пример расчета стоимости (Cost per Token в действии)
Представьте, что вы используете API популярной языковой модели для автоматического написания статей. Провайдер установил следующие тарифы: $10 за 1M токенов ввода и $30 за 1M токенов вывода.
Вы отправляете нейросети подробное техническое задание на 500 слов (около 700 токенов). В ответ нейросеть пишет для вас статью объемом 2000 слов (около 2700 токенов). Расчет будет выглядеть так:
- Стоимость ввода: (700 / 1 000 000) * $10 = $0.007
- Стоимость вывода: (2700 / 1 000 000) * $30 = $0.081
- Итоговая стоимость запроса: $0.088 (около 8-9 центов).
Для обычного пользователя это копейки, но если вы внедряете ИИ в сервис с миллионной аудиторией, понимание Cost per Token становится критически важным для бизнес-модели. Разработчики постоянно бьются над оптимизацией промптов, чтобы снизить количество потребляемых токенов без потери качества.
Интересный факт: языковая дискриминация в мире токенов
В мире токенизации существует так называемый «налог на язык» (language tax). Дело в том, что большинство современных алгоритмов разбивки текста (например, Byte Pair Encoding) обучались преимущественно на англоязычных данных. В результате английские слова часто кодируются одним токеном.
А вот с кириллицей и другими алфавитами ситуация иная. Нейросеть не знает многих русских корней и разбивает одно русское слово на 3, 4, а иногда и 6 токенов (буквально по слогам или отдельным буквам). Из-за этого один и тот же текст, переведенный с английского на русский, в формате токенов становится в 2-3 раза «длиннее».
Соответственно, показатель Cost per Token бьет по карману разработчиков русскоязычных ИИ-приложений гораздо сильнее, чем их англоязычных коллег, заставляя платить за генерацию тех же смыслов в несколько раз больше. К счастью, в новых версиях моделей алгоритмы токенизации для других языков постоянно улучшаются, что позволяет постепенно снижать эту разницу в стоимости.