Загрузка...

Параметры

Параметры сэмплирования управляют процессом генерации токенов моделью. Вы можете отправлять в RouterAI любые параметры из списка ниже, а также другие.

RouterAI применит значения по умолчанию, указанные ниже, если соответствующие параметры отсутствуют в вашем запросе (например, temperature равно 1.0). Мы также передадим некоторые провайдер-специфичные параметры, такие как safe_prompt для Mistral или raw_mode для Hyperbolic, напрямую соответствующим провайдерам, если они указаны.

Temperature

  • Ключ: temperature

  • Опционально, float, от 0.0 до 2.0

  • По умолчанию: 1.0

Этот параметр влияет на разнообразие ответов модели. Меньшие значения приводят к более предсказуемым и типичным ответам, тогда как большие значения поощряют более разнообразные и менее распространённые ответы. При значении 0 модель всегда даёт один и тот же ответ на заданный ввод.

Top P

  • Ключ: top_p

  • Опционально, float, от 0.0 до 1.0

  • По умолчанию: 1.0

Этот параметр ограничивает выбор модели процентом наиболее вероятных токенов: только верхние токены, чьи вероятности в сумме дают P. Меньшее значение делает ответы модели более предсказуемыми, тогда как значение по умолчанию допускает полный диапазон выбора токенов. Думайте об этом как о динамическом Top-K.

Top K

  • Ключ: top_k

  • Опционально, integer, 0 или больше

  • По умолчанию: 0

Это ограничивает выбор токенов моделью на каждом шаге, заставляя её выбирать из меньшего набора. Значение 1 означает, что модель всегда выбирает наиболее вероятный следующий токен, что приводит к предсказуемым результатам. По умолчанию этот параметр отключён, что позволяет модели рассматривать все варианты.

Frequency Penalty

  • Ключ: frequency_penalty

  • Опционально, float, от -2.0 до 2.0

  • По умолчанию: 0.0

Этот параметр направлен на контроль повторения токенов в зависимости от того, как часто они появляются на входе. Он стремится реже использовать токены, которые чаще встречаются во входных данных, пропорционально частоте их появления. Штраф за токен масштабируется с количеством вхождений. Отрицательные значения поощряют повторное использование токенов.

Presence Penalty

  • Ключ: presence_penalty

  • Опционально, float, от -2.0 до 2.0

  • По умолчанию: 0.0

Регулирует, как часто модель повторяет конкретные токены, уже использованные во входных данных. Большие значения делают такое повторение менее вероятным, тогда как отрицательные значения дают противоположный эффект. Штраф за токен не масштабируется с количеством вхождений. Отрицательные значения поощряют повторное использование токенов.

Repetition Penalty

  • Ключ: repetition_penalty

  • Опционально, float, от 0.0 до 2.0

  • По умолчанию: 1.0

Помогает уменьшить повторение токенов из входных данных. Большее значение делает менее вероятным повторение токенов моделью, но слишком высокое значение может сделать вывод менее связным (часто с длинными предложениями без коротких слов). Штраф за токен масштабируется на основе исходной вероятности токена.

Min P

  • Ключ: min_p

  • Опционально, float, от 0.0 до 1.0

  • По умолчанию: 0.0

Представляет минимальную вероятность для рассмотрения токена относительно вероятности наиболее вероятного токена. (Значение меняется в зависимости от уровня уверенности самого вероятного токена.) Если ваш Min-P установлен в 0.1, это означает, что будут допускаться только токены, которые как минимум в 10 раз менее вероятны, чем лучший вариант.

Top A

  • Ключ: top_a

  • Опционально, float, от 0.0 до 1.0

  • По умолчанию: 0.0

Рассматривает только верхние токены с «достаточно высокой» вероятностью на основе вероятности самого вероятного токена. Думайте об этом как о динамическом Top-P. Меньшее значение Top-A фокусирует выбор на основе самого вероятного токена, но с более узким охватом. Большее значение Top-A не обязательно влияет на креативность вывода, а скорее уточняет процесс фильтрации на основе максимальной вероятности.

Seed

  • Ключ: seed

  • Опционально, integer

Если указан, инференс будет сэмплировать детерминированно, так что повторные запросы с одинаковым seed и параметрами должны возвращать один и тот же результат. Детерминизм не гарантируется для некоторых моделей.

Max Tokens

  • Ключ: max_tokens

  • Опционально, integer, 1 или больше

Устанавливает верхний предел количества токенов, которые модель может сгенерировать в ответе. Она не выдаст больше этого предела. Максимальное значение — длина контекста минус длина промпта.

Max Completion Tokens

  • Ключ: max_completion_tokens

  • Опционально, integer, 1 или больше

Устанавливает верхний предел количества токенов, которые модель может сгенерировать в ответе. Она не выдаст больше этого предела. Максимальное значение — длина контекста минус длина промпта.

Logit Bias

  • Ключ: logit_bias

  • Опционально, map

Принимает JSON-объект, который сопоставляет токены (заданные их ID в токенизаторе) со значением смещения от -100 до 100. Математически смещение добавляется к логитам, генерируемым моделью, перед сэмплированием. Точный эффект варьируется в зависимости от модели, но значения от -1 до 1 должны уменьшать или увеличивать вероятность выбора; значения вроде -100 или 100 должны приводить к запрету или исключительному выбору соответствующего токена.

Logprobs

  • Ключ: logprobs

  • Опционально, boolean

Возвращать ли логарифмические вероятности выходных токенов. Если true, возвращаются логарифмические вероятности каждого возвращаемого выходного токена.

Top Logprobs

  • Ключ: top_logprobs

  • Опционально, integer

Целое число от 0 до 20, задающее количество наиболее вероятных токенов, возвращаемых на каждой позиции токена, с соответствующей логарифмической вероятностью. Параметр logprobs должен быть установлен в true, если используется этот параметр.

Response Format

  • Ключ: response_format

  • Опционально, map

Заставляет модель выдавать определённый формат вывода. Установка { "type": "json_object" } включает режим JSON, который гарантирует, что сообщение, генерируемое моделью, является валидным JSON.

Примечание: при использовании режима JSON следует также самостоятельно указать модели генерировать JSON через системное или пользовательское сообщение.

Structured Outputs

  • Ключ: structured_outputs

  • Опционально, boolean

Может ли модель возвращать структурированный вывод с помощью response_format json_schema.

Stop

  • Ключ: stop

  • Опционально, array

Немедленно останавливает генерацию, если модель встречает любой токен, указанный в массиве stop.

Tools

  • Ключ: tools

  • Опционально, array

Параметр для вызова инструментов, следующий формату запросов tool calling от OpenAI. Для не-OpenAI провайдеров он преобразуется соответствующим образом.

Tool Choice

  • Ключ: tool_choice

  • Опционально, string или object

Управляет тем, какой (если есть) инструмент вызывается моделью. ‘none’ означает, что модель не будет вызывать никакой инструмент и вместо этого сгенерирует сообщение. ‘auto’ означает, что модель может выбирать между генерацией сообщения или вызовом одного или нескольких инструментов. ‘required’ означает, что модель должна вызвать один или несколько инструментов. Указание конкретного инструмента через {"type": "function", "function": {"name": "my_function"}} заставляет модель вызвать именно этот инструмент.

Parallel Tool Calls

  • Ключ: parallel_tool_calls

  • Опционально, boolean

  • По умолчанию: true

Включать ли параллельный вызов функций при использовании инструментов. Если true, модель может вызывать несколько функций одновременно. Если false, функции будут вызываться последовательно. Применяется только при наличии инструментов.

Verbosity

  • Ключ: verbosity

  • Опционально, enum (low, medium, high, xhigh, max)

  • По умолчанию: medium

Ограничивает многословность ответа модели. Меньшие значения дают более лаконичные ответы, тогда как большие значения дают более подробные и развёрнутые ответы. Введён OpenAI для Responses API.

Для моделей Anthropic этот параметр сопоставляется с output_config.effort. Уровень ‘xhigh’ поддерживается Anthropic Claude 4.7 Opus и более поздними моделями. Уровень ‘max’ поддерживается Anthropic Claude 4.6 Opus и более поздними моделями.