Скопировано в буфер обмена!
NVIDIA Nemotron Nano 2 VL — это открытая мультимодальная модель рассуждений с 12 миллиардами параметров, разработанная для понимания видео и обработки документов. Она вводит гибридную архитектуру Transformer-Mamba, сочетая точность уровня трансформера с энергоэффективным моделированием последовательностей Mamba для значительно более высокой пропускной способности и меньшей задержки.
Модель поддерживает ввод текстов и документов с несколькими изображениями, создавая выходные данные на естественном языке. Она обучена на высококачественных синтетических наборах данных, отобранных NVIDIA, оптимизированных для распознавания оптических символов, анализа диаграмм и мультимодального понимания.
Nemotron Nano 2 VL достигает ведущих результатов на OCRBench v2 и набирает в среднем ≈ 74 балла по MMMU, MathVista, AI2D, OCRBench, OCR-Reasoning, ChartQA, DocVQA и Video-MME, превосходя предыдущие открытые VL-базовые показатели. С помощью Efficient Video Sampling (EVS) она обрабатывает длинные видео, снижая стоимость вывода.
Открытые веса, обучающие данные и рецепты для тонкой настройки выпущены под разрешительной открытой лицензией NVIDIA, с поддержкой развертывания в NeMo, NIM и основных средах вывода.