Qwen3-VL-32B-Instruct-GGUF

本仓库提供 Qwen3-VL-32B-Instruct 的 GGUF 格式权重，分为两个组件：

语言模型（LLM）：FP16、Q8_0、Q4_K_M
视觉编码器（mmproj）：FP16、Q8_0

这些文件与 llama.cpp、Ollama 及其他基于 GGUF 的工具兼容，支持在 CPU、NVIDIA GPU（CUDA）、Apple Silicon（Metal）、Intel GPU（SYCL）等平台上进行推理。
您可根据硬件条件和性能需求，为语言和视觉组件混合搭配精度级别，甚至可从 FP16 权重出发进行自定义量化。

尽情在个人设备上运行这款多模态模型吧！🚀

简介：

Qwen3-VL——迄今为止 Qwen 系列中最强大的视觉语言模型。

这一代模型实现了全面升级：文本理解与生成能力更卓越，视觉感知与推理更深入，上下文长度显著扩展，空间与视频动态理解能力增强，智能体交互能力更强大。

提供从边缘端到云端的 Dense 和 MoE 两种架构，以及 Instruct 和推理增强的 Thinking 版本，可灵活按需部署。

核心增强特性：

视觉智能体：操控 PC/移动设备图形界面——识别元素、理解功能、调用工具、完成任务。
视觉辅助编程：从图像/视频生成 Draw.io/HTML/CSS/JS 代码。
高级空间感知：判断物体位置、视角和遮挡关系；提供更强的 2D 定位能力，并支持 3D 定位，助力空间推理与具身智能。
长上下文与视频理解：原生支持 256K 上下文，可扩展至 1M；轻松处理整本书籍和数小时长视频，实现完整召回与秒级索引。
增强多模态推理：在 STEM/数学领域表现出色——支持因果分析及基于证据的逻辑回答。
升级视觉识别：更广泛、更高质量的预训练使其能够“识别万物”——名人、动漫、商品、地标、动植物等。
扩展 OCR 能力：支持 32 种语言（此前为 19 种）；在低光、模糊和倾斜场景下表现稳定；对生僻字/古文字和专业术语识别更精准；长文档结构解析能力提升。
文本理解媲美纯语言模型：实现无缝的文本-视觉融合，达成无损统一理解。

模型架构更新：

Interleaved-MRoPE：通过稳健的位置嵌入在时间、宽度和高度维度上进行全频率分配，增强长时视频推理能力。
DeepStack：融合多级 ViT 特征，捕捉细粒度细节，提升图文对齐精度。
文本-时间戳对齐：超越 T-RoPE，实现基于时间戳的精确事件定位，强化视频时序建模。

模型性能

多模态性能

纯文本性能

使用方法

若要在 llama.cpp 中使用这些模型，请确保您使用的是最新版本——可以通过从源码构建，或根据设备下载最新的发行版。

您可以通过命令行或基于网页的聊天界面进行推理。

命令行推理（`llama-mtmd-cli`）

例如，要运行 Qwen3-VL-32B-Instruct，并使用 FP16 视觉编码器和 Q8_0 量化的 LLM：

llama-mtmd-cli \
  -m path/to/Qwen3VL-32B-Instruct-Q8_0.gguf \
  --mmproj path/to/mmproj-Qwen3VL-32B-Instruct-F16.gguf \
  --image test.jpeg \
  -p "What is the publisher name of the newspaper?" \
  --temp 0.7 --top-k 20 --top-p 0.8 -n 1024

Web 聊天（使用 `llama-server`）

要通过兼容 OpenAI 的 API 并配合 Web UI 来部署 Qwen3-VL-235B-A22B-Instruct：

llama-server \
  -m path/to/Qwen3VL-235B-A22B-Instruct-Q4_K_M-split-00001-of-00003.gguf \
  --mmproj path/to/mmproj-Qwen3VL-235B-A22B-Instruct-Q8_0.gguf

提示：对于拆分为多个 GGUF 文件的模型，只需指定第一个分片（例如，...-00001-of-00003.gguf）。llama.cpp 将自动加载所有部分。

服务器运行后，在浏览器中打开 http://localhost:8080 即可访问内置聊天界面，或向 /v1/chat/completions 端点发送请求。有关更多详细信息，请参阅官方文档。

量化自定义模型

您可以将 FP16 权重进一步量化为其他精度级别。例如，要将模型量化为 2 位：

# Quantize to 2-bit (IQ2_XXS)
llama-quantize \
  path/to/Qwen3VL-235B-A22B-Instruct-F16.gguf \
  path/to/Qwen3VL-235B-A22B-Instruct-IQ2_XXS.gguf \
  iq2_xxs 8

有关支持的完整量化类型列表和详细说明，请参阅量化文档。

生成超参数

VL

export greedy='false'
export top_p=0.8
export top_k=20
export temperature=0.7
export repetition_penalty=1.0
export presence_penalty=1.5
export out_seq_length=16384

文本

export greedy='false'
export top_p=1.0
export top_k=40
export repetition_penalty=1.0
export presence_penalty=2.0
export temperature=1.0
export out_seq_length=32768

引用

如果您发现我们的工作对您有所帮助，欢迎引用我们的成果。

@misc{qwen3technicalreport,
      title={Qwen3 Technical Report}, 
      author={Qwen Team},
      year={2025},
      eprint={2505.09388},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2505.09388}, 
}

@article{Qwen2.5-VL,
  title={Qwen2.5-VL Technical Report},
  author={Bai, Shuai and Chen, Keqin and Liu, Xuejing and Wang, Jialin and Ge, Wenbin and Song, Sibo and Dang, Kai and Wang, Peng and Wang, Shijie and Tang, Jun and Zhong, Humen and Zhu, Yuanzhi and Yang, Mingkun and Li, Zhaohai and Wan, Jianqiang and Wang, Pengfei and Ding, Wei and Fu, Zheren and Xu, Yiheng and Ye, Jiabo and Zhang, Xi and Xie, Tianbao and Cheng, Zesen and Zhang, Hang and Yang, Zhibo and Xu, Haiyang and Lin, Junyang},
  journal={arXiv preprint arXiv:2502.13923},
  year={2025}
}

@article{Qwen2VL,
  title={Qwen2-VL: Enhancing Vision-Language Model's Perception of the World at Any Resolution},
  author={Wang, Peng and Bai, Shuai and Tan, Sinan and Wang, Shijie and Fan, Zhihao and Bai, Jinze and Chen, Keqin and Liu, Xuejing and Wang, Jialin and Ge, Wenbin and Fan, Yang and Dang, Kai and Du, Mengfei and Ren, Xuancheng and Men, Rui and Liu, Dayiheng and Zhou, Chang and Zhou, Jingren and Lin, Junyang},
  journal={arXiv preprint arXiv:2409.12191},
  year={2024}
}

@article{Qwen-VL,
  title={Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond},
  author={Bai, Jinze and Bai, Shuai and Yang, Shusheng and Wang, Shijie and Tan, Sinan and Wang, Peng and Lin, Junyang and Zhou, Chang and Zhou, Jingren},
  journal={arXiv preprint arXiv:2308.12966},
  year={2023}
}

Qwen3-VL-32B-Instruct-GGUF

本仓库提供 Qwen3-VL-32B-Instruct 的 GGUF 格式权重，分为两个组件：

语言模型（LLM）：FP16、Q8_0、Q4_K_M
视觉编码器（mmproj）：FP16、Q8_0

尽情在个人设备上运行这款多模态模型吧！🚀

简介：

Qwen3-VL——迄今为止 Qwen 系列中最强大的视觉语言模型。

提供从边缘端到云端的 Dense 和 MoE 两种架构，以及 Instruct 和推理增强的 Thinking 版本，可灵活按需部署。

核心增强特性：

视觉智能体：操控 PC/移动设备图形界面——识别元素、理解功能、调用工具、完成任务。
视觉辅助编程：从图像/视频生成 Draw.io/HTML/CSS/JS 代码。
高级空间感知：判断物体位置、视角和遮挡关系；提供更强的 2D 定位能力，并支持 3D 定位，助力空间推理与具身智能。
长上下文与视频理解：原生支持 256K 上下文，可扩展至 1M；轻松处理整本书籍和数小时长视频，实现完整召回与秒级索引。
增强多模态推理：在 STEM/数学领域表现出色——支持因果分析及基于证据的逻辑回答。
升级视觉识别：更广泛、更高质量的预训练使其能够“识别万物”——名人、动漫、商品、地标、动植物等。
扩展 OCR 能力：支持 32 种语言（此前为 19 种）；在低光、模糊和倾斜场景下表现稳定；对生僻字/古文字和专业术语识别更精准；长文档结构解析能力提升。
文本理解媲美纯语言模型：实现无缝的文本-视觉融合，达成无损统一理解。

模型架构更新：

Interleaved-MRoPE：通过稳健的位置嵌入在时间、宽度和高度维度上进行全频率分配，增强长时视频推理能力。
DeepStack：融合多级 ViT 特征，捕捉细粒度细节，提升图文对齐精度。
文本-时间戳对齐：超越 T-RoPE，实现基于时间戳的精确事件定位，强化视频时序建模。

模型性能

多模态性能

纯文本性能

使用方法

若要在 llama.cpp 中使用这些模型，请确保您使用的是最新版本——可以通过从源码构建，或根据设备下载最新的发行版。

您可以通过命令行或基于网页的聊天界面进行推理。

命令行推理（`llama-mtmd-cli`）

例如，要运行 Qwen3-VL-32B-Instruct，并使用 FP16 视觉编码器和 Q8_0 量化的 LLM：

llama-mtmd-cli \
  -m path/to/Qwen3VL-32B-Instruct-Q8_0.gguf \
  --mmproj path/to/mmproj-Qwen3VL-32B-Instruct-F16.gguf \
  --image test.jpeg \
  -p "What is the publisher name of the newspaper?" \
  --temp 0.7 --top-k 20 --top-p 0.8 -n 1024

Web 聊天（使用 `llama-server`）

要通过兼容 OpenAI 的 API 并配合 Web UI 来部署 Qwen3-VL-235B-A22B-Instruct：

llama-server \
  -m path/to/Qwen3VL-235B-A22B-Instruct-Q4_K_M-split-00001-of-00003.gguf \
  --mmproj path/to/mmproj-Qwen3VL-235B-A22B-Instruct-Q8_0.gguf

提示：对于拆分为多个 GGUF 文件的模型，只需指定第一个分片（例如，...-00001-of-00003.gguf）。llama.cpp 将自动加载所有部分。

量化自定义模型

您可以将 FP16 权重进一步量化为其他精度级别。例如，要将模型量化为 2 位：

# Quantize to 2-bit (IQ2_XXS)
llama-quantize \
  path/to/Qwen3VL-235B-A22B-Instruct-F16.gguf \
  path/to/Qwen3VL-235B-A22B-Instruct-IQ2_XXS.gguf \
  iq2_xxs 8

有关支持的完整量化类型列表和详细说明，请参阅量化文档。

生成超参数

VL

export greedy='false'
export top_p=0.8
export top_k=20
export temperature=0.7
export repetition_penalty=1.0
export presence_penalty=1.5
export out_seq_length=16384

文本

export greedy='false'
export top_p=1.0
export top_k=40
export repetition_penalty=1.0
export presence_penalty=2.0
export temperature=1.0
export out_seq_length=32768

引用

如果您发现我们的工作对您有所帮助，欢迎引用我们的成果。

@misc{qwen3technicalreport,
      title={Qwen3 Technical Report}, 
      author={Qwen Team},
      year={2025},
      eprint={2505.09388},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2505.09388}, 
}

@article{Qwen2.5-VL,
  title={Qwen2.5-VL Technical Report},
  author={Bai, Shuai and Chen, Keqin and Liu, Xuejing and Wang, Jialin and Ge, Wenbin and Song, Sibo and Dang, Kai and Wang, Peng and Wang, Shijie and Tang, Jun and Zhong, Humen and Zhu, Yuanzhi and Yang, Mingkun and Li, Zhaohai and Wan, Jianqiang and Wang, Pengfei and Ding, Wei and Fu, Zheren and Xu, Yiheng and Ye, Jiabo and Zhang, Xi and Xie, Tianbao and Cheng, Zesen and Zhang, Hang and Yang, Zhibo and Xu, Haiyang and Lin, Junyang},
  journal={arXiv preprint arXiv:2502.13923},
  year={2025}
}

@article{Qwen2VL,
  title={Qwen2-VL: Enhancing Vision-Language Model's Perception of the World at Any Resolution},
  author={Wang, Peng and Bai, Shuai and Tan, Sinan and Wang, Shijie and Fan, Zhihao and Bai, Jinze and Chen, Keqin and Liu, Xuejing and Wang, Jialin and Ge, Wenbin and Fan, Yang and Dang, Kai and Du, Mengfei and Ren, Xuancheng and Men, Rui and Liu, Dayiheng and Zhou, Chang and Zhou, Jingren and Lin, Junyang},
  journal={arXiv preprint arXiv:2409.12191},
  year={2024}
}

@article{Qwen-VL,
  title={Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond},
  author={Bai, Jinze and Bai, Shuai and Yang, Shusheng and Wang, Shijie and Tan, Sinan and Wang, Peng and Lin, Junyang and Zhou, Chang and Zhou, Jingren},
  journal={arXiv preprint arXiv:2308.12966},
  year={2023}
}

Qwen3-VL-32B-Instruct-GGUF

简介：

核心增强特性：

模型架构更新：

模型性能

使用方法

命令行推理（llama-mtmd-cli）

Web 聊天（使用 llama-server）

量化自定义模型

生成超参数

VL

文本

引用

Qwen3-VL-32B-Instruct-GGUF

简介：

核心增强特性：

模型架构更新：

模型性能

使用方法

命令行推理（llama-mtmd-cli）

Web 聊天（使用 llama-server）

量化自定义模型

生成超参数

VL

文本

引用

命令行推理（`llama-mtmd-cli`）

Web 聊天（使用 `llama-server`）

命令行推理（`llama-mtmd-cli`）

Web 聊天（使用 `llama-server`）