Работа с различными типами данных
Отправляйте изображения, PDF, аудио и видео в модели RouterAI через наш унифицированный API.
RouterAI поддерживает работу с различными типами входных данных помимо текста, позволяя отправлять изображения, PDF, аудио и видео файлы в совместимые модели через наш унифицированный API. Эта возможность (также называемая мультимодальностью) обеспечивает богатые взаимодействия для широкого спектра сценариев использования.
Поддерживаемые модальности
Изображения
Отправляйте изображения в модели с возможностями компьютерного зрения для анализа, описания, OCR и многого другого. RouterAI поддерживает множество форматов изображений, как на основе URL, так и в кодировке base64.
Узнайте больше об отправке изображений →
Генерация изображений
Генерируйте изображения из текстовых запросов, используя AI модели с возможностями вывода изображений. RouterAI поддерживает различные модели генерации изображений, которые могут создавать высококачественные изображения на основе ваших описаний.
Узнайте больше о генерации изображений →
Обрабатывайте PDF документы с любой моделью на RouterAI. Наша интеллектуальная система парсинга PDF извлекает текст и обрабатывает как текстовые, так и отсканированные документы.
Узнайте больше о работе с PDF →
Аудио
Отправляйте аудио файлы в модели с возможностями обработки речи для транскрипции, анализа и обработки. RouterAI поддерживает распространенные аудио форматы с автоматической маршрутизацией к совместимым моделям.
Узнайте больше о работе с Аудио →
Видео
Отправляйте видео файлы в модели с возможностями обработки видео для анализа, описания, обнаружения объектов и распознавания действий. RouterAI поддерживает множество видео форматов для комплексных задач понимания видео.
Узнайте больше о работе с Видео →
Начало работы
Все мультимодальные входные данные используют один и тот же эндпоинт /api/v1/chat/completions с параметром messages. Различные типы контента указываются в массиве содержимого сообщения:
- Изображения: Используйте тип контента
image_url - PDF: Используйте тип контента
fileс данными PDF - Аудио: Используйте тип контента
input_audio - Видео: Используйте тип контента
video_url
Вы можете комбинировать несколько модальностей в одном запросе, и количество файлов, которые вы можете отправить, варьируется в зависимости от провайдера и модели.
Совместимость моделей
Не все модели поддерживают каждую модальность. RouterAI автоматически фильтрует доступные модели на основе содержимого вашего запроса:
- Модели компьютерного зрения: Требуются для обработки изображений
- Модели, совместимые с файлами: Могут обрабатывать PDF нативно или через нашу систему парсинга
- Модели с возможностями аудио: Требуются для обработки аудио входных данных
- Модели с возможностями видео: Требуются для обработки видео входных данных
Используйте нашу страницу моделей, чтобы найти модели, поддерживающие желаемые входные модальности.
Поддержка форматов входных данных
RouterAI поддерживает как прямые URL, так и данные в кодировке base64 для мультимодальных входных данных:
URL (Рекомендуется для публичного контента)
- Изображения:
https://example.com/image.jpg - PDF:
https://example.com/document.pdf - Аудио: Не поддерживается через URL (только base64)
- Видео: Зависит от провайдера (например, ссылки YouTube для Gemini на AI Studio)
Кодировка Base64 (Требуется для локальных файлов)
- Изображения:
data:image/jpeg;base64,{base64_data} - PDF:
data:application/pdf;base64,{base64_data} - Аудио: Необработанная строка base64 с указанием формата
- Видео:
data:video/mp4;base64,{base64_data}