Kokoro 82M

Name: Kokoro 82M (API)
Brand: Hexgrad
Availability: InStock

Разработчик: Hexgrad

Идентификатор:

Чат

Характеристики Kokoro 82M

Контекстное окно 4K

Дата релиза 23 апреля 2026

Мультимодальность

Входящие данные:

Текст

Исходящие данные:

Речь

Цены Kokoro 82M в рублях

Оплата производится по факту за использованные токены.

Тип

Стоимость

Символы

64 ₽ / 1M символов

Подробнее

Цены по провайдерам

RouterAI работает с несколькими провайдерами для обеспечения максимальной доступности и оптимальных цен.

1

DeepInfra

64 ₽

Входящие
2

Together

413 ₽

Входящие

Умная маршрутизация запросов

Ваши запросы автоматически направляются к провайдеру с самой низкой ценой. Если провайдер недоступен, система мгновенно переключается на следующего по цене, обеспечивая непрерывную работу вашего приложения без потери запросов.

Автоматический выбор
Отказоустойчивость
Лучшая цена

Цены указаны в рублях и могут меняться в зависимости от курса валют

Что умеет Kokoro 82M

Kokoro 82M — это легковесная модель преобразования текста в речь от hexgrad. Она преобразует текст в речь на 8 языках (американский и британский английский, испанский, французский, хинди, итальянский, японский, португальский и китайский) с использованием 54 предустановленных голосов, организованных по языку и полу. С 82 миллионами параметров она отлично подходит для многоязычных развертываний TTS, где важны компактность и экономическая эффективность.

API Kokoro 82M: подключение и примеры кода

Наш сервис предоставляет единый API, совместимый с OpenAI SDK. Просто укажите наш base_url и используйте ключ, полученный в личном кабинете.

from openai import OpenAI

client = OpenAI(
    api_key="YOUR_API_KEY",
    base_url="https://routerai.ru/api/v1"
)

response = client.audio.speech.create(
    model="hexgrad/kokoro-82m",
    voice="af_alloy",
    input="Привет! Это пример синтеза речи.",
    response_format="mp3"
)

response.stream_to_file("speech.mp3")
print("Audio saved to speech.mp3")

import requests

url = "https://routerai.ru/api/v1/audio/speech"
headers = {
    "Authorization": "Bearer YOUR_API_KEY",
    "Content-Type": "application/json"
}

data = {
    "model": "hexgrad/kokoro-82m",
    "input": "Привет! Это пример синтеза речи.",
    "voice": "af_alloy",
    "response_format": "mp3"
}

response = requests.post(url, headers=headers, json=data)

# Ответ — бинарное аудио, сохраняем в файл
with open("speech.mp3", "wb") as f:
    f.write(response.content)
print("Audio saved to speech.mp3")

curl -X POST "https://routerai.ru/api/v1/audio/speech" \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -o speech.mp3 \
  -d '{
    "model": "hexgrad/kokoro-82m",
    "input": "Привет! Это пример синтеза речи.",
    "voice": "af_alloy",
    "response_format": "mp3"
  }'

Эндпоинт API

Audio Speech

Синтезирует речь из текста. Возвращает бинарное аудио.

POST https://routerai.ru/api/v1/audio/speech

Документация

Authorization

Bearer YOUR_API_KEY

Content-Type

application/json

Model

hexgrad/kokoro-82m

Поддерживаемые параметры запроса

Параметр

Тип

По умолчанию

Описание

max_tokens

integer

—

Верхний предел количества токенов, которые модель может сгенерировать в ответе.

temperature

float

Влияет на разнообразие ответов модели: чем выше, тем более случайным будет вывод.

top_p

float

Ограничивает выбор модели долей наиболее вероятных токенов: учитываются только токены, чьи вероятности в сумме дают P.

seed

integer

—

Если задан, инференс выполняется детерминированно — повторные запросы с тем же seed и параметрами должны давать одинаковый результат.

response_format

map

—

Заставляет модель выдавать ответ в определённом формате.

stop

array

—

Немедленно останавливает генерацию, если модель встречает любой из токенов, указанных в массиве stop.

frequency_penalty

float

Управляет повторением токенов в зависимости от того, как часто они встречаются во входных данных.

presence_penalty

float

Регулирует, насколько часто модель повторяет токены, уже встречавшиеся во входных данных.

repetition_penalty

float

—

Снижает вероятность повторения токенов из входных данных, пропорционально тому, как часто они встречаются.

top_k

integer

—

Ограничивает выбор модели K наиболее вероятными токенами на каждом шаге.

min_p

float

—

Минимальная вероятность токена относительно вероятности самого вероятного токена, чтобы он был рассмотрен.

voice

array

—

Голос синтеза речи. Доступные значения: af_alloy, af_aoede, af_bella, af_heart, af_jessica, af_kore, af_nicole, af_nova, af_river, af_sarah, af_sky, am_adam, am_echo, am_eric, am_fenrir, am_liam, am_michael, am_onyx, am_puck, am_santa, bf_alice, bf_emma, bf_isabella, bf_lily, bm_daniel, bm_fable, bm_george, bm_lewis, ef_dora, em_alex, em_santa, ff_siwis, hf_alpha, hf_beta, hm_omega, hm_psi, if_sara, im_nicola, jf_alpha, jf_gongitsune, jf_nezumi, jf_tebukuro, jm_kumo, pf_dora, pm_alex, pm_santa, zf_xiaobei, zf_xiaoni, zf_xiaoxiao, zf_xiaoyi, zm_yunjian, zm_yunxi, zm_yunxia, zm_yunyang.

Вернуться к списку моделей