Скорость генерации токенов (Tokens per second / TPS)

Содержание статьи

Что такое токен и почему важна скорость его генерации?
Что влияет на показатель Tokens per second?
Не путайте TPS и TTFT
Примеры использования и проявления TPS
Интересный факт: Иллюзия «живого человека» и революция чипов

Скорость генерации токенов (Tokens per second или TPS) — это ключевая метрика производительности больших языковых моделей (LLM), определяющая количество текстовых фрагментов (токенов), которые нейросеть способна выдать за одну секунду. Простыми словами, это скорость, с которой искусственный интеллект «печатает» или формулирует свой ответ.

Что такое токен и почему важна скорость его генерации?

Чтобы понять суть TPS, нужно разобраться в том, как мыслит нейросеть. Искусственный интеллект не оперирует словами в привычном нам понимании. Он разбивает текст на мельчайшие смысловые единицы — токены. В английском языке один токен примерно равен 4 символам или 0,75 слова. В русском языке из-за особенностей кодировки одно слово может разбиваться на 2, 3 или даже 5 токенов.

Скорость генерации токенов (TPS) стала главным бенчмарком (показателем успеха) для разработчиков ИИ по нескольким причинам:

Пользовательский опыт: Никто не любит ждать. Если модель выдает 5 токенов в секунду, ответ на абзац текста займет мучительно долгие полминуты.
Экономика проектов: При использовании ИИ через API разработчики платят за токены. Высокий TPS означает, что серверы быстрее обслуживают запросы, пропуская через себя больше пользователей за то же время.
Работа в реальном времени: Для голосовых помощников или синхронных ИИ-переводчиков задержка даже в пару секунд критична. Здесь требуется TPS от 50 и выше.

Что влияет на показатель Tokens per second?

Скорость выдачи текста не является постоянной величиной и зависит от множества факторов:

Размер модели: Чем больше параметров у нейросети (например, 70 миллиардов против 8 миллиардов), тем сложнее математические вычисления и тем ниже базовый TPS.
Аппаратное обеспечение: Генерация требует огромных вычислительных мощностей. Современные видеокарты (GPU), такие как NVIDIA H100, специально оптимизированы для параллельных вычислений, чтобы максимизировать этот показатель.
Загруженность серверов: В часы пик, когда миллионы пользователей одновременно обращаются к ChatGPT или другой модели, провайдеры искусственно ограничивают TPS, чтобы мощности хватило всем.
Язык запроса: Генерация текста на русском языке часто происходит визуально медленнее, чем на английском, так как на одно русское слово тратится больше токенов.

Не путайте TPS и TTFT

При оценке скорости работы нейросетей важно различать два смежных понятия. Если TPS показывает скорость написания самого ответа, то TTFT (Time To First Token — время до первого токена) — это задержка перед тем, как нейросеть начнет «печатать». Сначала ИИ должен прочитать и осмыслить ваш запрос (обработать входные токены), и только потом он начинает генерировать вывод. Поэтому даже модель с гигантским TPS может заставить вас ждать пару секунд, если вы загрузили в нее огромный документ для анализа.

Примеры использования и проявления TPS

Вы сталкиваетесь с этим показателем каждый раз, когда взаимодействуете с современными нейросетями. Вот несколько наглядных примеров:

Чат-боты и ассистенты: Когда вы задаете вопрос ChatGPT, вы видите, как текст появляется на экране по частям. Это и есть визуализация TPS. При скорости 15-20 TPS текст печатается примерно с той же скоростью, с которой человек его читает.
Генерация программного кода: В таких инструментах, как GitHub Copilot, ИИ дописывает код за программистом. Если TPS низкий, разработчик будет постоянно спотыкаться, ожидая подсказку. При высоком TPS автодополнение происходит мгновенно, не сбивая с мысли.
Голосовые ИИ-агенты: Представьте, что вы звоните в службу поддержки, где работает робот нового поколения. Чтобы диалог казался естественным, ИИ должен сгенерировать текстовый ответ, перевести его в голос и начать говорить менее чем за секунду. Для этого требуются модели с экстремально высоким TPS.

Интересный факт: Иллюзия «живого человека» и революция чипов

Когда компания OpenAI впервые представила ChatGPT широкой публике, текст на экране появлялся плавно, словно его печатает невидимый собеседник. Многие пользователи думали, что это специальный дизайнерский ход для создания эффекта «живого общения». На самом деле, это было техническое ограничение: серверы выдавали около 15-20 токенов в секунду, что случайно совпало со средней скоростью чтения человека.

Сегодня гонка за высоким TPS привела к появлению совершенно нового железа. Например, стартап Groq создал специализированные процессоры LPU (Language Processing Unit), которые не отрисовывают графику, как обычные видеокарты, а занимаются только одним — молниеносной генерацией слов. Благодаря такой архитектуре им удалось достичь фантастической скорости более 800 токенов в секунду! При таком TPS страница формата А4 генерируется ИИ быстрее, чем вы успеете моргнуть глазом.