llava-calm2-siglip:可用于对图像进行日语问答，是实验性视觉语言模型，支持图像描述等任务，模型大小7B，支持日语和英语，适用于开源社区视觉语言应用及学术研究。【此简介由AI生成】

模型说明

llava-calm2-siglip 是一款实验性的视觉语言模型，能够针对图像用日语回答问题。

使用方法

from PIL import Image
import requests
from transformers import AutoProcessor, LlavaForConditionalGeneration
import torch

model = LlavaForConditionalGeneration.from_pretrained(
    "cyberagent/llava-calm2-siglip",
    torch_dtype=torch.bfloat16,
).to(0)

processor = AutoProcessor.from_pretrained("cyberagent/llava-calm2-siglip")

prompt = """USER: <image>
この画像を説明してください。
ASSISTANT: """

url = "https://unsplash.com/photos/LipkIP4fXbM/download?force=true&w=640"
image = Image.open(requests.get(url, stream=True).raw).convert("RGB")

inputs = processor(text=prompt, images=image, return_tensors="pt").to(0, torch.bfloat16)
generate_ids = model.generate(**inputs,
                              max_length=500,
                              do_sample=True,
                              temperature=0.2,
                    )
output = processor.tokenizer.decode(generate_ids[0][:-1], clean_up_tokenization_spaces=False)

print(output)

# USER: <image>
# この画像を説明してください。
# ASSISTANT: 画像には、木製のテーブルの上に置かれた、たこ焼き器で焼かれた3つのたこ焼きが映っています。たこ焼きは、小麦粉をベースにした生地を丸く焼き、中にタコや天かす、紅ショウガなどの具材を入れたものです。たこ焼きは、ソース、マヨネーズ、青海苔、かつおぶしをかけて食べることが多いです。

对话模板

USER: <image>
{user_message1}
ASSISTANT: {assistant_message1}<|endoftext|>
USER: {user_message2}
ASSISTANT: {assistant_message2}<|endoftext|>
USER: {user_message3}
ASSISTANT: {assistant_message3}<|endoftext|>

模型详情

模型大小：7B
模型类型：基于 Transformer 的视觉语言模型
支持语言：日语、英语
开发机构：CyberAgent, Inc.
许可证：Apache-2.0

使用与限制

预期用途

本模型旨在供开源社区用于视觉语言应用及学术研究。

限制与偏见

本模型作为通用日语视觉语言模型，在针对各任务使用相关数据进行专门调优后，方可达到最佳性能。

尽管在技术上可行，但商业用途需谨慎，强烈建议在生产系统部署时实施过滤不当内容的机制。

不建议将本模型用于可能对个人或群体造成伤害或带来困扰的应用场景。

对于因使用本模型而直接、间接、特殊、偶然或必然产生的损害，以及任何可能的损失，无论结果如何，CyberAgent 均明确表示不承担任何责任。

用户在使用本模型前，必须充分了解这些限制。