OpenMOSS
/
MOSS-VL-Instruct-0408
like
0
添加到合集
视频转文本生成
PyTorch
Transformers
Safetensors
英文
Apache License 2.0
video
OpenMOSS
MOSS-VL
vision-language
SFT
Image-Understanding
Video-Understanding
multimodal
模型介绍
文件和版本
Pull Requests
讨论
分析
下载
Notebook 快速开发
已开启
0
已关闭
0
已合并
0
全部
0
创建者
合并人
排序
暂无数据
合并请求 - MOSS-VL-Instruct-0408:可用于图像理解、OCR、文档解析、视觉推理及视频理解等任务,是MOSS-VL系列的指令微调版本,通过SFT优化,具备强大的多模态感知与指令跟随能力,尤其擅长长视频理解和细粒度时序推理。【此简介由AI生成】 - AtomGit AI社区