提供前沿视觉与多模态AI模型的压缩、优化及定制化方案。原始GitHub仓库位于此处,因Notebook无法正常渲染已迁移至Hugging Face 🥲
最新示例 👇🏻
注意:脚本和Notebook已更新修复QLoRA相关若干问题!
| Notebook | 描述 | |
|---|---|---|
| 量化/ONNX | 通过Optimum实现更快速、更小巧的零样本目标检测 | 使用Optimum ONNXRuntime工具量化最先进的零样本目标检测模型OWLv2 |
| 视觉语言模型微调 | 微调PaliGemma | 使用transformers微调最先进的视觉语言骨干网络PaliGemma |
| Optimum/ORT入门 | 使用🤗 Optimum优化DETR | 将视觉模型导出至ONNX并进行量化的基础教程 |
| 模型压缩 | 计算机视觉知识蒸馏 | 图像分类任务的知识蒸馏实践 |
| 量化 | 使用Quanto压缩视觉模型 | 通过quanto将视觉模型适配至更小硬件设备 |
| 加速 | 通过torch.compile提升基础模型速度 | 使用torch.compile改善基础模型延迟 |
| 视觉语言模型微调 | 微调Florence-2 | 在DocVQA数据集上微调Florence-2 |
| 视觉语言模型微调 | 在VQAv2数据集上QLoRA/全参数微调IDEFICS3或SmolVLM | 使用VQAv2数据集进行IDEFICS3或SmolVLM的QLoRA/全参数微调 |
| 视觉语言模型微调(脚本) | 在VQAv2数据集上QLoRA微调IDEFICS3 | 通过脚本实现IDEFICS3或SmolVLM在VQAv2数据集的QLoRA/全参数微调 |
| 多模态RAG | 使用ColPali与Qwen2-VL实现多模态RAG | 通过Byaldi调用ColPali实现轻量级文档检索,结合Qwen2-VL构建多模态RAG流水线 |
| 多模态检索器微调 | 微调ColPali适配多模态RAG | 通过对比学习微调ColPali,使其适配自定义多模态文档RAG场景 |
| 视觉语言模型微调 | 微调Gemma-3n处理全模态数据(音频-文本-图像) | 微调Gemma-3n模型以处理任意模态组合:音频、文本和图像 |
| 多模态RAG | 基于OmniEmbed与Qwen的任意模态(视频)RAG | 使用OmniEmbed和Qwen实现跨模态(含视频)检索与生成 |
| 加速/内存优化 | 基于TGI的视觉语言模型部署(即将推出) | 通过text-generation inference探索视觉语言模型服务的加速与内存优化 |
| 量化/Optimum/ORT | 使用Optimum实现图像分割模型的多级量化与图优化(即将推出) | 基于Optimum的端到端模型优化方案 |