合并请求 - MOSS-VL-Instruct-0408:可用于图像理解、OCR、文档解析、视觉推理及视频理解等任务,是MOSS-VL系列的指令微调版本,通过SFT优化,具备强大的多模态感知与指令跟随能力,尤其擅长长视频理解和细粒度时序推理。【此简介由AI生成】 - AtomGit AI社区