Emu3：仅需下一个标记预测

Emu3 团队，BAAI

我们介绍了 Emu3，** 一套全新的最先进的多模态模型，仅通过 下一个标记预测 进行训练！通过将图像、文本和视频标记化到一个离散空间，我们从零开始训练一个单一的变压器模型，以处理多种模态序列的混合。

Emu3 在生成和感知任务上表现出色

Emu3 在生成和感知任务上均超越了多个成熟的特定任务模型，超过了诸如 SDXL、LLaVA-1.6 和 OpenSora-1.2 等旗舰级开源模型，同时消除了对扩散或组合架构的需求。

亮点

Emu3 能够通过简单地预测下一个视觉标记来跟随文本输入生成高质量图像。模型自然支持灵活的分辨率和风格。
Emu3 展现出强大的视觉-语言理解能力，能够观察物理世界并给出连贯的文本响应。值得注意的是，这一能力是在不依赖 CLIP 和预训练的 LLM 的情况下实现的。
Emu3 与 Sora 中的视频扩散模型不同，它通过预测视频序列中的下一个标记来简单地生成视频。在视频上下文中，Emu3 也能够自然地扩展视频并预测接下来会发生什么。

快速入门

from PIL import Image
from transformers import AutoTokenizer, AutoModel, AutoImageProcessor, AutoModelForCausalLM
from transformers.generation.configuration_utils import GenerationConfig
import torch

import sys
sys.path.append(PATH_TO_BAAI_Emu3-Chat_MODEL)
from processing_emu3 import Emu3Processor

# model path
EMU_HUB = "BAAI/Emu3-Chat"
VQ_HUB = "BAAI/Emu3-VisionTokenier"

# prepare model and processor
model = AutoModelForCausalLM.from_pretrained(
    EMU_HUB,
    device_map="cuda:0",
    torch_dtype=torch.bfloat16,
    attn_implementation="flash_attention_2",
    trust_remote_code=True,
)

tokenizer = AutoTokenizer.from_pretrained(EMU_HUB, trust_remote_code=True, padding_side="left")
image_processor = AutoImageProcessor.from_pretrained(VQ_HUB, trust_remote_code=True)
image_tokenizer = AutoModel.from_pretrained(VQ_HUB, device_map="cuda:0", trust_remote_code=True).eval()
processor = Emu3Processor(image_processor, image_tokenizer, tokenizer)

# prepare input
text = "Please describe the image"
image = Image.open("assets/demo.png")

inputs = processor(
    text=text,
    image=image,
    mode='U',
    return_tensors="pt",
    padding="longest",
)

# prepare hyper parameters
GENERATION_CONFIG = GenerationConfig(
    pad_token_id=tokenizer.pad_token_id,
    bos_token_id=tokenizer.bos_token_id,
    eos_token_id=tokenizer.eos_token_id,
    max_new_tokens=1024,
)

# generate
outputs = model.generate(
    inputs.input_ids.to("cuda:0"),
    GENERATION_CONFIG,
    attention_mask=inputs.attention_mask.to("cuda:0"),
)

outputs = outputs[:, inputs.input_ids.shape[-1]:]
print(processor.batch_decode(outputs, skip_special_tokens=True)[0])

当然，请提供您希望翻译成中文的文本内容，我将按照您的要求进行翻译。

from PIL import Image from transformers import AutoTokenizer, AutoModel, AutoImageProcessor, AutoModelForCausalLM from transformers.generation.configuration_utils import GenerationConfig import torch import sys sys.path.append(PATH_TO_BAAI_Emu3-Chat_MODEL) from processing_emu3 import Emu3Processor # model path EMU_HUB = "BAAI/Emu3-Chat" VQ_HUB = "BAAI/Emu3-VisionTokenier" # prepare model and processor model = AutoModelForCausalLM.from_pretrained( EMU_HUB, device_map="cuda:0", torch_dtype=torch.bfloat16, attn_implementation="flash_attention_2", trust_remote_code=True, ) tokenizer = AutoTokenizer.from_pretrained(EMU_HUB, trust_remote_code=True, padding_side="left") image_processor = AutoImageProcessor.from_pretrained(VQ_HUB, trust_remote_code=True) image_tokenizer = AutoModel.from_pretrained(VQ_HUB, device_map="cuda:0", trust_remote_code=True).eval() processor = Emu3Processor(image_processor, image_tokenizer, tokenizer) # prepare input text = "Please describe the image" image = Image.open("assets/demo.png") inputs = processor( text=text, image=image, mode='U', return_tensors="pt", padding="longest", ) # prepare hyper parameters GENERATION_CONFIG = GenerationConfig( pad_token_id=tokenizer.pad_token_id, bos_token_id=tokenizer.bos_token_id, eos_token_id=tokenizer.eos_token_id, max_new_tokens=1024, ) # generate outputs = model.generate( inputs.input_ids.to("cuda:0"), GENERATION_CONFIG, attention_mask=inputs.attention_mask.to("cuda:0"), ) outputs = outputs[:, inputs.input_ids.shape[-1]:] print(processor.batch_decode(outputs, skip_special_tokens=True)[0])