Скопировано в буфер обмена!
DeepSeek-V3.1 — это крупная гибридная модель рассуждений (671 миллиард параметров, 37 миллиардов активных), поддерживающая как режимы мышления, так и немышления с помощью шаблонов подсказок. Она расширяет базу DeepSeek-V3 с помощью двухфазного процесса обучения на длинных контекстах, достигая до 128 тысяч токенов, и использует микромасштабирование FP8 для эффективного вывода. Пользователи могут управлять поведением рассуждений с помощью булевой переменной reasoning enabled.
Модель улучшает использование инструментов, генерацию кода и эффективность рассуждений, достигая производительности, сопоставимой с DeepSeek-R1 на сложных тестах, при этом реагируя быстрее. Она поддерживает структурированные вызовы инструментов, кодовые агенты и поисковые агенты, что делает её подходящей для исследований, программирования и агентных рабочих процессов.
Она является преемником модели DeepSeek V3-0324 и хорошо справляется с разнообразными задачами.