Загрузка...

NVIDIA: Nemotron 3 Super

Идентификатор:
Скопировано в буфер обмена!
Чат

Характеристики

Контекстное окно 1M

Дата релиза 11 марта 2026

Мультимодальность

Входящие данные:

  • Текст

Исходящие данные:

  • Текст

Цены

Оплата производится по факту за использованные токены.

Тип
Стоимость
Входящие токены
Токены, полученные и обработанные моделью при анализе пользовательского запроса и контекста. Включают текст сообщения, предыдущую историю диалога и все передаваемые данные.
8 ₽ / 1M токенов
Подробнее

Цены по провайдерам

RouterAI работает с несколькими провайдерами для обеспечения максимальной доступности и оптимальных цен.

  • 1
    DeepInfra

    9 ₽
    Входящие
  • 2
    Nebius

    28 ₽
    Входящие
  • 3
    DigitalOcean

    19 ₽
    Входящие
  • 4
    DekaLLM

    8 ₽
    Входящие

Умная маршрутизация запросов

Ваши запросы автоматически направляются к провайдеру с самой низкой ценой. Если провайдер недоступен, система мгновенно переключается на следующего по цене, обеспечивая непрерывную работу вашего приложения без потери запросов.

  • Автоматический выбор
  • Отказоустойчивость
  • Лучшая цена
Исходящие токены
Токены, генерируемые моделью в виде ответа пользователю. Каждый символ, слово или часть ответа, созданные моделью, включаются в подсчёт выходных токенов.
42 ₽ / 1M токенов
Подробнее

Цены по провайдерам

RouterAI работает с несколькими провайдерами для обеспечения максимальной доступности и оптимальных цен.

  • 1
    DeepInfra

    47 ₽
    Исходящие
  • 2
    Nebius

    85 ₽
    Исходящие
  • 3
    DigitalOcean

    43 ₽
    Исходящие
  • 4
    DekaLLM

    42 ₽
    Исходящие

Умная маршрутизация запросов

Ваши запросы автоматически направляются к провайдеру с самой низкой ценой. Если провайдер недоступен, система мгновенно переключается на следующего по цене, обеспечивая непрерывную работу вашего приложения без потери запросов.

  • Автоматический выбор
  • Отказоустойчивость
  • Лучшая цена

Цены указаны в рублях и могут меняться в зависимости от курса валют

Описание модели

NVIDIA Nemotron 3 Super — это открытая гибридная модель MoE с 120 миллиардами параметров, активирующая всего 12 миллиардов параметров для максимальной вычислительной эффективности и точности в сложных многоагентных приложениях. Построенная на гибридной архитектуре Mamba-Transformer Mixture-of-Experts с многотокеновым предсказанием (MTP), она обеспечивает более чем на 50% более высокую генерацию токенов по сравнению с ведущими открытыми моделями.

Модель обладает контекстным окном на 1 миллион токенов для долгосрочной согласованности агентов, междокументального рассуждения и многократного планирования задач. Латентный MoE позволяет вызывать 4 эксперта по стоимости вывода всего одного, улучшая интеллект и обобщение. Обучение с подкреплением в нескольких средах, охватывающее более 10 сред, обеспечивает ведущую точность на бенчмарках, включая AIME 2025, TerminalBench и SWE-Bench Verified.

Полностью открытая с весами, наборами данных и рецептами под лицензией NVIDIA Open License, Nemotron 3 Super позволяет легко настраивать и безопасно развертывать её в любом месте — от рабочей станции до облака.

API и примеры кода

Наш сервис предоставляет единый API, совместимый с OpenAI SDK. Просто укажите наш base_url и используйте ключ, полученный в личном кабинете.

from openai import OpenAI

client = OpenAI(
    api_key="YOUR_API_KEY",
    base_url="https://routerai.ru/api/v1"
)

response = client.chat.completions.create(
    model="nvidia/nemotron-3-super-120b-a12b",
    messages=[
        {"role": "user", "content": "Hello, how are you?"}
    ]
)

print(response.choices[0].message.content)
import requests
import json

url = "https://routerai.ru/api/v1/chat/completions"
headers = {
    "Authorization": "Bearer YOUR_API_KEY",
    "Content-Type": "application/json"
}

data = {
    "model": "nvidia/nemotron-3-super-120b-a12b",
    "messages": [
        {"role": "user", "content": "Hello, how are you?"}
    ]
}

response = requests.post(url, headers=headers, json=data)
result = response.json()
print(json.dumps(result, indent=2))
curl -X POST "https://routerai.ru/api/v1/chat/completions" \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "nvidia/nemotron-3-super-120b-a12b",
    "messages": [
      {"role": "user", "content": "Hello, how are you?"}
    ]
  }'

Параметры

Параметр
Тип
По умолчанию
Описание
max_tokens
integer
Верхний предел количества токенов, которые модель может сгенерировать в ответе.
temperature
float
1
Влияет на разнообразие ответов модели: чем выше, тем более случайным будет вывод.
top_p
float
1
Ограничивает выбор модели долей наиболее вероятных токенов: учитываются только токены, чьи вероятности в сумме дают P.
seed
integer
Если задан, инференс выполняется детерминированно — повторные запросы с тем же seed и параметрами должны давать одинаковый результат.
logprobs
boolean
Возвращать ли логарифмы вероятностей выходных токенов.
top_logprobs
integer
Число от 0 до 20: сколько наиболее вероятных токенов возвращать на каждой позиции, каждый с логарифмом вероятности.
response_format
map
Заставляет модель выдавать ответ в определённом формате.
stop
array
Немедленно останавливает генерацию, если модель встречает любой из токенов, указанных в массиве stop.
frequency_penalty
float
0
Управляет повторением токенов в зависимости от того, как часто они встречаются во входных данных.
presence_penalty
float
0
Регулирует, насколько часто модель повторяет токены, уже встречавшиеся во входных данных.
repetition_penalty
float
Снижает вероятность повторения токенов из входных данных, пропорционально тому, как часто они встречаются.
top_k
integer
Ограничивает выбор модели K наиболее вероятными токенами на каждом шаге.
min_p
float
Минимальная вероятность токена относительно вероятности самого вероятного токена, чтобы он был рассмотрен.
logit_bias
map
Изменяет вероятность появления указанных токенов в ответе.
structured_outputs
boolean
Поддержка ответа по строгой JSON-схеме.
tool_choice
map
Управляет тем, какую функцию (инструмент) вызовет модель, если они переданы.
tools
array
Список инструментов (функций), которые модель может вызвать.
reasoning
map
Настройки рассуждений модели (бюджет токенов, уровень усилий).
include_reasoning
boolean
Возвращать ли в ответе цепочку рассуждений модели.