Загрузка...

Работа с различными типами данных

Отправляйте изображения, PDF, аудио и видео в модели RouterAI через наш унифицированный API.

RouterAI поддерживает работу с различными типами входных данных помимо текста, позволяя отправлять изображения, PDF, аудио и видео файлы в совместимые модели через наш унифицированный API. Эта возможность (также называемая мультимодальностью) обеспечивает богатые взаимодействия для широкого спектра сценариев использования.

Поддерживаемые модальности

Изображения

Отправляйте изображения в модели с возможностями компьютерного зрения для анализа, описания, OCR и многого другого. RouterAI поддерживает множество форматов изображений, как на основе URL, так и в кодировке base64.

Узнайте больше об отправке изображений →

Генерация изображений

Генерируйте изображения из текстовых запросов, используя AI модели с возможностями вывода изображений. RouterAI поддерживает различные модели генерации изображений, которые могут создавать высококачественные изображения на основе ваших описаний.

Узнайте больше о генерации изображений →

PDF

Обрабатывайте PDF документы с любой моделью на RouterAI. Наша интеллектуальная система парсинга PDF извлекает текст и обрабатывает как текстовые, так и отсканированные документы.

Узнайте больше о работе с PDF →

Аудио

Отправляйте аудио файлы в модели с возможностями обработки речи для транскрипции, анализа и обработки. RouterAI поддерживает распространенные аудио форматы с автоматической маршрутизацией к совместимым моделям.

Узнайте больше о работе с Аудио →

Видео

Отправляйте видео файлы в модели с возможностями обработки видео для анализа, описания, обнаружения объектов и распознавания действий. RouterAI поддерживает множество видео форматов для комплексных задач понимания видео.

Узнайте больше о работе с Видео →

Начало работы

Все мультимодальные входные данные используют один и тот же эндпоинт /api/v1/chat/completions с параметром messages. Различные типы контента указываются в массиве содержимого сообщения:

  • Изображения: Используйте тип контента image_url
  • PDF: Используйте тип контента file с данными PDF
  • Аудио: Используйте тип контента input_audio
  • Видео: Используйте тип контента video_url

Вы можете комбинировать несколько модальностей в одном запросе, и количество файлов, которые вы можете отправить, варьируется в зависимости от провайдера и модели.

Совместимость моделей

Не все модели поддерживают каждую модальность. RouterAI автоматически фильтрует доступные модели на основе содержимого вашего запроса:

  • Модели компьютерного зрения: Требуются для обработки изображений
  • Модели, совместимые с файлами: Могут обрабатывать PDF нативно или через нашу систему парсинга
  • Модели с возможностями аудио: Требуются для обработки аудио входных данных
  • Модели с возможностями видео: Требуются для обработки видео входных данных

Используйте нашу страницу моделей, чтобы найти модели, поддерживающие желаемые входные модальности.

Поддержка форматов входных данных

RouterAI поддерживает как прямые URL, так и данные в кодировке base64 для мультимодальных входных данных:

URL (Рекомендуется для публичного контента)

  • Изображения: https://example.com/image.jpg
  • PDF: https://example.com/document.pdf
  • Аудио: Не поддерживается через URL (только base64)
  • Видео: Зависит от провайдера (например, ссылки YouTube для Gemini на AI Studio)

Кодировка Base64 (Требуется для локальных файлов)

  • Изображения: data:image/jpeg;base64,{base64_data}
  • PDF: data:application/pdf;base64,{base64_data}
  • Аудио: Необработанная строка base64 с указанием формата
  • Видео: data:video/mp4;base64,{base64_data}