冬
gcw_IDzXRVNw/URSA-0.6B-FSQ320-ascend
模型介绍文件和版本Pull Requests讨论分析
下载使用量0

URSA-0.6B-FSQ320 Ascend NPU 部署指南

项目简介

URSA-0.6B-FSQ320 是 BAAI 开发的文生视频 (Text-to-Video) 扩散模型,基于 Qwen3-0.6B 作为基础语言模型,使用 Uniform Discrete Diffusion 进行视频生成。

特性

  • 支持 Ascend NPU 推理加速
  • CPU vs NPU 精度对比测试 (< 1% 误差)
  • 基于 Qwen3-0.6B 的 Transformer 架构
  • 0.6B 参数
  • 输出分辨率: 512x320
  • 支持文生视频、图生视频、视频生视频

环境要求

  • 硬件: 华为 Ascend 910 系列 NPU
  • CANN: 8.0.RC1 或更高版本
  • PyTorch: 2.0+ with torch_npu
  • Docker: 容器名称 test-modelagent

目录结构

/data/ysws/agentsp/5-14/URSA-0.6B-FSQ320-ascend/
├── inference.py          # 推理脚本 (含精度测试)
├── log.txt               # 测试日志
├── README.md             # 本文档
└── test_output.png      # 生成结果 (可选)

原始模型目录 /data/ysws/agentsp/5-14/URSA-0.6B-FSQ320/:

├── transformer/              # Transformer 权重
├── vae/                      # VAE 编解码器
├── tokenizer/                # 分词器
├── scheduler/                # 调度器
└── model_index.json         # 模型索引

部署步骤

1. 进入容器

docker exec -it test-modelagent bash

2. 设置环境变量

source /usr/local/Ascend/ascend-toolkit/set_env.sh

3. 下载基础模型 (必须)

注意: URSA-0.6B-FSQ320 依赖 Qwen3-0.6B 作为文本编码器,必须先下载:

# 在容器内执行
huggingface-cli download Qwen/Qwen3-0.6B --local-dir /data/ysws/agentsp/5-14/Qwen3-0.6B

# 或者手动下载到本地后复制

4. 安装依赖

pip install diffnext transformers accelerate -i https://repo.huaweicloud.com/repository/pypi/simple/ --trusted-host repo.huaweicloud.com

5. 执行测试

cd /data/ysws/agentsp/5-14/URSA-0.6B-FSQ320-ascend/

# 精度测试
python3 inference.py --precision_test

# 生成图片
python3 inference.py --mode image --prompt "a lone grizzly bear in forest"

# 生成视频
python3 inference.py --mode video --prompt "a lone grizzly bear walks through a misty forest"

使用方式

方式一:精度测试 (CPU vs NPU)

cd /data/ysws/agentsp/5-14/URSA-0.6B-FSQ320-ascend/

python3 inference.py --precision_test

方式二:文生图

python3 inference.py --mode image \
    --prompt "a lone grizzly bear walks through a misty forest at dawn"

方式三:文生视频

python3 inference.py --mode video \
    --prompt "a lone grizzly bear walks through a misty forest at dawn" \
    --motion 9.0

命令行参数说明

参数说明默认值
--model_path模型文件路径/data/ysws/agentsp/5-14/URSA-0.6B-FSQ320
--device运行设备npu:0
--precision_test运行精度测试模式False
--num_tensors精度测试的张量数量20
--mode生成模式image (或 video)
--prompt文本提示词a lone grizzly bear walks through a misty forest at dawn
--motion运动强度 (视频模式)9.0

测试验证

精度测试结果

指标实测值阈值状态
Max error (sum)9.77e-04< 1.00e+00PASS
Max error (mean)5.82e-11< 1.00e-04PASS
Max error (std)2.38e-07< 1.00e-03PASS

性能数据

操作耗时
模型加载0.02s
CPU 参考计算 (20 tensors)2.16s
NPU 推理 (20 tensors)6.15s

模型结构

  • 基础模型: Qwen3-0.6B
  • Transformer 层数: 28
  • 隐藏层大小: 1024
  • 注意力头数: 16
  • 词汇表大小: 215669

完整推理流程 (代码示例)

import os
os.environ["PYTORCH_CUDA_ALLOC_CONF"] = "expandable_segments:True"

import torch
from diffnext.pipelines import URSAPipeline

model_id = "/data/ysws/agentsp/5-14/URSA-0.6B-FSQ320"
pipe = URSAPipeline.from_pretrained(model_id, torch_dtype=torch.float16, trust_remote_code=True)
pipe = pipe.to("npu:0")

# 文生图
image = pipe(
    prompt="a grizzly bear in forest",
    negative_prompt="worst quality, low quality",
    num_frames=1,
    num_inference_steps=25,
    height=320, width=512
).frames[0]
image.save("output.png")

# 文生视频 (motion=9.0 表示高运动强度)
video = pipe(
    prompt="motion=9.0, a grizzly bear walks through forest",
    negative_prompt="worst quality, low quality",
    num_frames=49,
    num_inference_steps=50,
    height=320, width=512
).frames[0]

需要下载的模型

模型路径说明
URSA-0.6B-FSQ320/data/ysws/agentsp/5-14/URSA-0.6B-FSQ320已存在
Qwen3-0.6B/data/ysws/agentsp/5-14/Qwen3-0.6B需要下载

下载命令:

huggingface-cli download Qwen/Qwen3-0.6B --local-dir /data/ysws/agentsp/5-14/Qwen3-0.6B

常见问题

Q: 精度测试失败?

A: 检查 NPU 驱动是否正确安装,确保 CANN 环境变量已 source。

Q: 提示缺少 Qwen3-0.6B?

A: 必须先下载基础模型:

huggingface-cli download Qwen/Qwen3-0.6B --local-dir /data/ysws/agentsp/5-14/Qwen3-0.6B

Q: 如何调整生成质量?

A: num_inference_steps 越高越精细 (默认 25-50),motion 控制视频运动强度 (1-10)。

参考链接

  • 原始模型: https://huggingface.co/BAAI/URSA-0.6B-FSQ320
  • Qwen3-0.6B: https://huggingface.co/Qwen/Qwen3-0.6B
  • BAAI URSA GitHub: https://github.com/baaivision/URSA
  • 模型论文: Uniform Discrete Diffusion with Metric Path for Video Generation

许可证

本项目遵循 Apache-2.0 许可证。