Ops-Colqwen3-4B 是一款基于 Qwen3-VL-4B-Instruct 架构的 ColPali 风格多模态嵌入模型,由阿里云 OpenSearch-AI 团队开发并开源。该模型能将文本查询与图像、PDF 页面等视觉文档映射到统一且对齐的多向量嵌入空间,实现高效的视觉文档检索。
该模型采用多阶段策略进行训练,融合了大规模文本检索数据集与多样化视觉文档数据。这种混合训练方法显著提升了模型处理复杂文档理解和检索任务的能力。在 Vidore v1–v3 基准测试中,Ops-Colqwen3-4B 在同等规模模型中取得了最先进的结果。
环境要求
pillow
transformers>=4.57.0
qwen-vl-utils>=0.0.14
torch==2.8.0基本用法
import torch
from PIL import Image
from scripts.ops_colqwen3_embedder import OpsColQwen3Embedder
images = [Image.new("RGB", (32, 32), color="white"), Image.new("RGB", (16, 16), color="black")]
queries = ["Is attention really all you need?", "What is the amount of bananas farmed in Salvador?"]
embedder = OpsColQwen3Embedder(
model_name="OpenSearch-AI/Ops-Colqwen3-4B",
dims=2560,
dtype=torch.float16,
attn_implementation="flash_attention_2",
)
query_embeddings = embedder.encode_queries(queries)
image_embeddings = embedder.encode_images(images)
print(query_embeddings[0].shape, image_embeddings[0].shape) # (23, 2560) (18, 2560)
scores = embedder.compute_scores(query_embeddings, image_embeddings)
print(f"Scores:\n{scores}")| 模型 | 维度 | Vidore v1+v2 | Vidore v2 | Vidore v1 |
|---|---|---|---|---|
| Ops-Colqwen3-4B | 2560 | 84.87 | 68.7 | 91.4 |
| Ops-Colqwen3-4B | 1280 | 84.71 | 68.2 | 91.3 |
| Ops-Colqwen3-4B | 640 | 84.39 | 67.7 | 91.1 |
| Ops-Colqwen3-4B | 320 | 84.12 | 67.0 | 91.0 |
| Ops-Colqwen3-4B | 128 | 84.04 | 66.9 | 90.9 |
| tomoro-colqwen3-embed-8b | 320 | 83.52 | 65.4 | 90.8 |
| EvoQwen2.5-VL-Retriever-7B-v1 | 128 | 83.41 | 65.2 | 90.7 |
| tomoro-colqwen3-embed-4b | 320 | 83.18 | 64.7 | 90.6 |
| llama-nemoretriever-colembed-3b-v1 | 3072 | 83.10 | 63.3 | 91.0 |
| SauerkrautLM-ColQwen3-8b-v0.1 | 128 | 82.91 | 62.5 | 91.1 |
| EvoQwen2.5-VL-Retriever-3B-v1 | 128 | 82.76 | 63.0 | 90.7 |
| SauerkrautLM-ColQwen3-4b-v0.1 | 128 | 81.97 | 59.9 | 90.8 |
| jina-embedding-v4 | 128 | 81.17 | 58.2 | 90.4 |
| 模型 | 维度 | PUB 平均值 |
|---|---|---|
| Ops-Colqwen3-4B | 2560 | 61.27 |
| Ops-Colqwen3-4B | 1280 | 61.32 |
| Ops-Colqwen3-4B | 640 | 61.21 |
| Ops-Colqwen3-4B | 320 | 60.88 |
| Ops-Colqwen3-4B | 128 | 60.23 |
| tomoro-colqwen3-embed-4b | 320 | 60.19 |
| SauerkrautLM-ColQwen3-8b-v0.1 | 128 | 58.55 |
| jina-embedding-v4 | 128 | 57.54 |
| llama-nemoretriever-colembed-3b-v1 | 3072 | 57.07 |
| SauerkrautLM-ColQwen3-4b-v0.1 | 128 | 56.03 |
仅需128维度,
Ops-Colqwen3-4B即可超越tomoro-colqwen3-embed-4b等其他40亿参数模型,非常适用于对延迟和内存有严格要求的应用场景。
如果您在研究工作中使用了本模型,请引用:
@misc{ops_colqwen3_4b,
author = {{OpenSearch-AI}},
title = {{Ops-Colqwen3: State-of-the-Art Multimodal Embedding Model for Visual Document Retrieval}},
year = {2026},
howpublished = {\url{https://huggingface.co/OpenSearch-AI/Ops-Colqwen3-4B}},
}