OpenMOSS
/
MOSS-VL-Base-0408
like
0
添加到合集
视频转文本生成
PyTorch
Transformers
Safetensors
英文
Apache License 2.0
Base
Image-Understanding
OpenMOSS
video
vision-language
multimodal
Video-Understanding
MOSS-VL
模型介绍
文件和版本
Pull Requests
讨论
分析
下载
Notebook 快速开发
返回讨论列表
仅管理员可管理讨论分类。
讨论分类列表 - MOSS-VL-Base-0408:可用于构建下游视觉语言任务应用,提供图像和视频输入的通用视觉语言表示。支持原生动态分辨率、交错图像视频输入,采用跨注意力架构与XRoPE机制,是下游微调的基础模型。【此简介由AI生成】 - AtomGit AI社区