Что такое Tokens Per Second (TPS) в искусственном интеллекте

Содержание статьи

Суть термина: что скрывается за аббревиатурой TPS?
Почему TPS — это важнейший показатель в мире ИИ?
Примеры использования и проявления TPS
Интересный факт: гонка скоростей и предел человеческого восприятия

Tokens Per Second (TPS), или токены в секунду — это ключевая метрика производительности больших языковых моделей (LLM). Она показывает, какое количество текстовых фрагментов (токенов) нейросеть способна сгенерировать и выдать пользователю за одну секунду. По сути, это измерение «скорости печати» или «скорости мышления» искусственного интеллекта.

Суть термина: что скрывается за аббревиатурой TPS?

Чтобы понять, как работает TPS, нужно сначала разобраться с понятием токена. Нейросети не воспринимают текст целыми словами так, как это делают люди. Они разбивают слова на более мелкие фрагменты — слоги, корни или отдельные символы. В английском языке один токен в среднем равен 4 символам или примерно 0,75 слова. В русском языке из-за особенностей морфологии одно слово может разбиваться на 2-4 токена.

Когда вы задаете вопрос ChatGPT или другой языковой модели, она не выдает ответ целиком в одно мгновение. Модель генерирует текст последовательно, предсказывая каждый следующий токен шаг за шагом. Метрика Tokens Per Second отражает, насколько быстро процессор (обычно графический ускоритель, GPU) выполняет эти математические вычисления и возвращает готовый результат.

Важно отличать TPS от другой популярной метрики — TTFT (Time To First Token), или времени до первого токена. Если TTFT измеряет задержку перед тем, как нейросеть начнет отвечать (ее «задумчивость»), то Tokens Per Second оценивает именно сам процесс непрерывной генерации текста после того, как первый символ уже появился на экране. На показатель TPS напрямую влияет пропускная способность памяти видеокарт (VRAM), вычислительная мощность кластера и архитектура самой языковой модели.

Почему TPS — это важнейший показатель в мире ИИ?

Скорость генерации напрямую влияет на пользовательский опыт и экономику проектов, связанных с искусственным интеллектом. Чем выше TPS, тем комфортнее взаимодействовать с системой. Если модель выдает 2-3 токена в секунду, вам придется мучительно долго ждать ответа на простой вопрос. Если скорость превышает 20-30 токенов, текст появляется на экране плавно, имитируя естественную скорость печати или чтения взрослого человека.

Кроме того, в коммерческой разработке машинного обучения TPS определяет пропускную способность серверов. Высокий показатель означает, что один сервер может обслужить большее количество пользователей одновременно, что значительно снижает затраты на дорогостоящие вычислительные мощности.

Примеры использования и проявления TPS

Метрика Tokens Per Second критически важна в различных сценариях применения искусственного интеллекта:

Чат-боты и виртуальные помощники: Для комфортного диалога в текстовом формате оптимальным считается показатель от 15 до 25 TPS. Это позволяет пользователю читать ответ по мере его появления, не испытывая раздражения от задержек.
Голосовые ИИ-ассистенты: В системах, где сгенерированный текст сразу переводится в человеческую речь (технологии Text-to-Speech), требования к скорости гораздо строже. Чтобы избежать неловких пауз в разговоре и сделать общение естественным, TPS должен стабильно превышать 50-70 токенов в секунду.
Пакетная обработка данных (Batch Processing): При суммаризации тысяч отзывов, анализе логов или переводе целых книг важна не скорость появления одной буквы, а общий объем текста, который система может обработать за час. В таких случаях TPS измеряется на уровне всего кластера серверов.
Агенты и автоматизация: Когда нейросеть пишет программный код или общается с другими ИИ-агентами без участия человека, скорость выходит на первый план. В таких задачах используются компактные модели, способные выдавать более 100 TPS.

Интересный факт: гонка скоростей и предел человеческого восприятия

Забавно, но современные разработчики аппаратного обеспечения для ИИ уже давно преодолели предел человеческого восприятия. Среднестатистический взрослый человек читает со скоростью около 200–250 слов в минуту, что примерно равно 4–6 токенам в секунду.

Когда в конце 2022 года появился первый ChatGPT, его скорость составляла около 10–15 TPS, что тогда казалось настоящей магией. Однако технологии не стоят на месте: сегодня существуют специализированные тензорные процессоры (например, LPU от компании Groq), которые способны генерировать осмысленный текст со скоростью свыше 800 токенов в секунду!

Для живого человека такая скорость выглядит просто как мгновенное появление огромной стены текста — глаз физически не способен уследить за процессом генерации. Зачем же нужна такая избыточная мощность? Главным образом для того, чтобы ИИ мог мгновенно анализировать многостраничные документы, писать сложные программы за доли секунды и в реальном времени управлять сложными роботизированными системами, где каждая миллисекунда задержки может стать критической.