Параметры

Параметры сэмплирования управляют процессом генерации токенов моделью. Вы можете отправлять в RouterAI любые параметры из списка ниже, а также другие.

RouterAI применит значения по умолчанию, указанные ниже, если соответствующие параметры отсутствуют в вашем запросе (например, temperature равно 1.0). Мы также передадим некоторые провайдер-специфичные параметры, такие как safe_prompt для Mistral или raw_mode для Hyperbolic, напрямую соответствующим провайдерам, если они указаны.

Temperature

Ключ: temperature
Опционально, float, от 0.0 до 2.0
По умолчанию: 1.0

Этот параметр влияет на разнообразие ответов модели. Меньшие значения приводят к более предсказуемым и типичным ответам, тогда как большие значения поощряют более разнообразные и менее распространённые ответы. При значении 0 модель всегда даёт один и тот же ответ на заданный ввод.

Top P

Ключ: top_p
Опционально, float, от 0.0 до 1.0
По умолчанию: 1.0

Этот параметр ограничивает выбор модели процентом наиболее вероятных токенов: только верхние токены, чьи вероятности в сумме дают P. Меньшее значение делает ответы модели более предсказуемыми, тогда как значение по умолчанию допускает полный диапазон выбора токенов. Думайте об этом как о динамическом Top-K.

Top K

Ключ: top_k
Опционально, integer, 0 или больше
По умолчанию: 0

Это ограничивает выбор токенов моделью на каждом шаге, заставляя её выбирать из меньшего набора. Значение 1 означает, что модель всегда выбирает наиболее вероятный следующий токен, что приводит к предсказуемым результатам. По умолчанию этот параметр отключён, что позволяет модели рассматривать все варианты.

Frequency Penalty

Ключ: frequency_penalty
Опционально, float, от -2.0 до 2.0
По умолчанию: 0.0

Этот параметр направлен на контроль повторения токенов в зависимости от того, как часто они появляются на входе. Он стремится реже использовать токены, которые чаще встречаются во входных данных, пропорционально частоте их появления. Штраф за токен масштабируется с количеством вхождений. Отрицательные значения поощряют повторное использование токенов.

Presence Penalty

Ключ: presence_penalty
Опционально, float, от -2.0 до 2.0
По умолчанию: 0.0

Регулирует, как часто модель повторяет конкретные токены, уже использованные во входных данных. Большие значения делают такое повторение менее вероятным, тогда как отрицательные значения дают противоположный эффект. Штраф за токен не масштабируется с количеством вхождений. Отрицательные значения поощряют повторное использование токенов.

Repetition Penalty

Ключ: repetition_penalty
Опционально, float, от 0.0 до 2.0
По умолчанию: 1.0

Помогает уменьшить повторение токенов из входных данных. Большее значение делает менее вероятным повторение токенов моделью, но слишком высокое значение может сделать вывод менее связным (часто с длинными предложениями без коротких слов). Штраф за токен масштабируется на основе исходной вероятности токена.

Min P

Ключ: min_p
Опционально, float, от 0.0 до 1.0
По умолчанию: 0.0

Представляет минимальную вероятность для рассмотрения токена относительно вероятности наиболее вероятного токена. (Значение меняется в зависимости от уровня уверенности самого вероятного токена.) Если ваш Min-P установлен в 0.1, это означает, что будут допускаться только токены, которые как минимум в 10 раз менее вероятны, чем лучший вариант.

Top A

Ключ: top_a
Опционально, float, от 0.0 до 1.0
По умолчанию: 0.0

Рассматривает только верхние токены с «достаточно высокой» вероятностью на основе вероятности самого вероятного токена. Думайте об этом как о динамическом Top-P. Меньшее значение Top-A фокусирует выбор на основе самого вероятного токена, но с более узким охватом. Большее значение Top-A не обязательно влияет на креативность вывода, а скорее уточняет процесс фильтрации на основе максимальной вероятности.

Seed

Ключ: seed
Опционально, integer

Если указан, инференс будет сэмплировать детерминированно, так что повторные запросы с одинаковым seed и параметрами должны возвращать один и тот же результат. Детерминизм не гарантируется для некоторых моделей.

Max Tokens

Ключ: max_tokens
Опционально, integer, 1 или больше

Устанавливает верхний предел количества токенов, которые модель может сгенерировать в ответе. Она не выдаст больше этого предела. Максимальное значение — длина контекста минус длина промпта.

Max Completion Tokens

Ключ: max_completion_tokens
Опционально, integer, 1 или больше

Logit Bias

Ключ: logit_bias
Опционально, map

Принимает JSON-объект, который сопоставляет токены (заданные их ID в токенизаторе) со значением смещения от -100 до 100. Математически смещение добавляется к логитам, генерируемым моделью, перед сэмплированием. Точный эффект варьируется в зависимости от модели, но значения от -1 до 1 должны уменьшать или увеличивать вероятность выбора; значения вроде -100 или 100 должны приводить к запрету или исключительному выбору соответствующего токена.

Logprobs

Ключ: logprobs
Опционально, boolean

Возвращать ли логарифмические вероятности выходных токенов. Если true, возвращаются логарифмические вероятности каждого возвращаемого выходного токена.

Top Logprobs

Ключ: top_logprobs
Опционально, integer

Целое число от 0 до 20, задающее количество наиболее вероятных токенов, возвращаемых на каждой позиции токена, с соответствующей логарифмической вероятностью. Параметр logprobs должен быть установлен в true, если используется этот параметр.

Response Format

Ключ: response_format
Опционально, map

Заставляет модель выдавать определённый формат вывода. Установка { "type": "json_object" } включает режим JSON, который гарантирует, что сообщение, генерируемое моделью, является валидным JSON.

Примечание: при использовании режима JSON следует также самостоятельно указать модели генерировать JSON через системное или пользовательское сообщение.

Structured Outputs

Ключ: structured_outputs
Опционально, boolean

Может ли модель возвращать структурированный вывод с помощью response_format json_schema.

Stop

Ключ: stop
Опционально, array

Немедленно останавливает генерацию, если модель встречает любой токен, указанный в массиве stop.

Tools

Ключ: tools
Опционально, array

Параметр для вызова инструментов, следующий формату запросов tool calling от OpenAI. Для не-OpenAI провайдеров он преобразуется соответствующим образом.

Tool Choice

Ключ: tool_choice
Опционально, string или object

Управляет тем, какой (если есть) инструмент вызывается моделью. ‘none’ означает, что модель не будет вызывать никакой инструмент и вместо этого сгенерирует сообщение. ‘auto’ означает, что модель может выбирать между генерацией сообщения или вызовом одного или нескольких инструментов. ‘required’ означает, что модель должна вызвать один или несколько инструментов. Указание конкретного инструмента через {"type": "function", "function": {"name": "my_function"}} заставляет модель вызвать именно этот инструмент.

Parallel Tool Calls

Ключ: parallel_tool_calls
Опционально, boolean
По умолчанию: true

Включать ли параллельный вызов функций при использовании инструментов. Если true, модель может вызывать несколько функций одновременно. Если false, функции будут вызываться последовательно. Применяется только при наличии инструментов.

Verbosity

Ключ: verbosity
Опционально, enum (low, medium, high, xhigh, max)
По умолчанию: medium

Ограничивает многословность ответа модели. Меньшие значения дают более лаконичные ответы, тогда как большие значения дают более подробные и развёрнутые ответы. Введён OpenAI для Responses API.

Для моделей Anthropic этот параметр сопоставляется с output_config.effort. Уровень ‘xhigh’ поддерживается Anthropic Claude 4.7 Opus и более поздними моделями. Уровень ‘max’ поддерживается Anthropic Claude 4.6 Opus и более поздними моделями.