Smol

Smol Vision 🐣

提供前沿视觉与多模态AI模型的压缩、优化及定制化方案。原始GitHub仓库位于此处，因Notebook无法正常渲染已迁移至Hugging Face 🥲

最新示例 👇🏻

注意：脚本和Notebook已更新修复QLoRA相关若干问题！

	Notebook	描述
量化/ONNX	通过Optimum实现更快速、更小巧的零样本目标检测	使用Optimum ONNXRuntime工具量化最先进的零样本目标检测模型OWLv2
视觉语言模型微调	微调PaliGemma	使用transformers微调最先进的视觉语言骨干网络PaliGemma
Optimum/ORT入门	使用🤗 Optimum优化DETR	将视觉模型导出至ONNX并进行量化的基础教程
模型压缩	计算机视觉知识蒸馏	图像分类任务的知识蒸馏实践
量化	使用Quanto压缩视觉模型	通过quanto将视觉模型适配至更小硬件设备
加速	通过torch.compile提升基础模型速度	使用`torch.compile`改善基础模型延迟
视觉语言模型微调	微调Florence-2	在DocVQA数据集上微调Florence-2
视觉语言模型微调	在VQAv2数据集上QLoRA/全参数微调IDEFICS3或SmolVLM	使用VQAv2数据集进行IDEFICS3或SmolVLM的QLoRA/全参数微调
视觉语言模型微调（脚本）	在VQAv2数据集上QLoRA微调IDEFICS3	通过脚本实现IDEFICS3或SmolVLM在VQAv2数据集的QLoRA/全参数微调
多模态RAG	使用ColPali与Qwen2-VL实现多模态RAG	通过Byaldi调用ColPali实现轻量级文档检索，结合Qwen2-VL构建多模态RAG流水线
多模态检索器微调	微调ColPali适配多模态RAG	通过对比学习微调ColPali，使其适配自定义多模态文档RAG场景
视觉语言模型微调	微调Gemma-3n处理全模态数据（音频-文本-图像）	微调Gemma-3n模型以处理任意模态组合：音频、文本和图像
多模态RAG	基于OmniEmbed与Qwen的任意模态（视频）RAG	使用OmniEmbed和Qwen实现跨模态（含视频）检索与生成
加速/内存优化	基于TGI的视觉语言模型部署（即将推出）	通过text-generation inference探索视觉语言模型服务的加速与内存优化
量化/Optimum/ORT	使用Optimum实现图像分割模型的多级量化与图优化（即将推出）	基于Optimum的端到端模型优化方案