OpenSearch-AI/Ops-Colqwen3-4B

Ops-Colqwen3-4B 是一款基于 Qwen3-VL-4B-Instruct 架构的 ColPali 风格多模态嵌入模型，由阿里云 OpenSearch-AI 团队开发并开源。该模型能将文本查询与图像、PDF 页面等视觉文档映射到统一且对齐的多向量嵌入空间，实现高效的视觉文档检索。

该模型采用多阶段策略进行训练，融合了大规模文本检索数据集与多样化视觉文档数据。这种混合训练方法显著提升了模型处理复杂文档理解和检索任务的能力。在 Vidore v1–v3 基准测试中，Ops-Colqwen3-4B 在同等规模模型中取得了最先进的结果。

主要特性

模型规模：40 亿参数
多模态对齐：实现文本与图像或 PDF 页面的细粒度语义对齐
多向量嵌入：遵循 ColPali 设计，每个输入生成多个上下文感知的嵌入向量；通过 MaxSim 计算相似度，实现高精度匹配
可扩展嵌入维度：通过扩展投影头，推理时支持高达 2560 的嵌入维度，借助更具表现力的表示实现更高的检索精度。低维前缀（如前 128 或 320 维）在轻量级应用中仍保持高效。
多语言支持：覆盖 30 余种语言
上下文长度：支持长达 32000 tokens
视觉 token 容量：每页输入可处理最多 1280 个视觉 token。

使用方法

环境要求

pillow
transformers>=4.57.0
qwen-vl-utils>=0.0.14
torch==2.8.0

基本用法

import torch
from PIL import Image
from scripts.ops_colqwen3_embedder import OpsColQwen3Embedder

images = [Image.new("RGB", (32, 32), color="white"), Image.new("RGB", (16, 16), color="black")]
queries = ["Is attention really all you need?", "What is the amount of bananas farmed in Salvador?"]

embedder = OpsColQwen3Embedder(
    model_name="OpenSearch-AI/Ops-Colqwen3-4B",
    dims=2560,
    dtype=torch.float16,
    attn_implementation="flash_attention_2",
)

query_embeddings = embedder.encode_queries(queries)
image_embeddings = embedder.encode_images(images)
print(query_embeddings[0].shape, image_embeddings[0].shape) # (23, 2560) (18, 2560)

scores = embedder.compute_scores(query_embeddings, image_embeddings)

print(f"Scores:\n{scores}")

模型性能

Vidore v1 + v2（NDCG@5）

模型	维度	Vidore v1+v2	Vidore v2	Vidore v1
Ops-Colqwen3-4B	2560	84.87	68.7	91.4
Ops-Colqwen3-4B	1280	84.71	68.2	91.3
Ops-Colqwen3-4B	640	84.39	67.7	91.1
Ops-Colqwen3-4B	320	84.12	67.0	91.0
Ops-Colqwen3-4B	128	84.04	66.9	90.9
tomoro-colqwen3-embed-8b	320	83.52	65.4	90.8
EvoQwen2.5-VL-Retriever-7B-v1	128	83.41	65.2	90.7
tomoro-colqwen3-embed-4b	320	83.18	64.7	90.6
llama-nemoretriever-colembed-3b-v1	3072	83.10	63.3	91.0
SauerkrautLM-ColQwen3-8b-v0.1	128	82.91	62.5	91.1
EvoQwen2.5-VL-Retriever-3B-v1	128	82.76	63.0	90.7
SauerkrautLM-ColQwen3-4b-v0.1	128	81.97	59.9	90.8
jina-embedding-v4	128	81.17	58.2	90.4

Vidore v3（NDCG@10）

模型	维度	PUB 平均值
Ops-Colqwen3-4B	2560	61.27
Ops-Colqwen3-4B	1280	61.32
Ops-Colqwen3-4B	640	61.21
Ops-Colqwen3-4B	320	60.88
Ops-Colqwen3-4B	128	60.23
tomoro-colqwen3-embed-4b	320	60.19
SauerkrautLM-ColQwen3-8b-v0.1	128	58.55
jina-embedding-v4	128	57.54
llama-nemoretriever-colembed-3b-v1	3072	57.07
SauerkrautLM-ColQwen3-4b-v0.1	128	56.03

仅需128维度，Ops-Colqwen3-4B即可超越 tomoro-colqwen3-embed-4b 等其他40亿参数模型，非常适用于对延迟和内存有严格要求的应用场景。

引用说明

如果您在研究工作中使用了本模型，请引用：

@misc{ops_colqwen3_4b,
  author       = {{OpenSearch-AI}},
  title        = {{Ops-Colqwen3: State-of-the-Art Multimodal Embedding Model for Visual Document Retrieval}},
  year         = {2026},
  howpublished = {\url{https://huggingface.co/OpenSearch-AI/Ops-Colqwen3-4B}},
}