HuggingFace镜像/Faro-Qwen-4B
模型介绍文件和版本分析
下载使用量0

Faro 聊天模型注重实用性和长上下文建模。它能以更高质量处理各类下游任务,即便输入包含冗长文档或复杂指令,也能输出稳定可靠的结果。Faro 可流畅支持中英文双语。

Faro-Qwen-4B

Faro-Qwen-4B 是基于 Qwen/Qwen1.5-4B-Chat 改进而来,在 Fusang-V1 上进行了大规模指令微调。与 Qwen1.5-4B-Chat 相比,借助 Fusang-V1 中的大规模合成数据,Faro-Qwen-4B 在各类下游任务和长上下文建模方面的能力得到了显著提升。

Faro-Qwen-4B 采用动态 NTK 和持续训练技术,将最大上下文长度扩展至 100K。

在 openMind 中使用

Faro-Qwen-4B 使用 chatml 模板。对于长输入,建议使用 openMind。

from openmind import AutoTokenizer, AutoModelForCausalLM
from openmind_hub import snapshot_download
import torch
import torch_npu
import argparse

def parse_args():
    parser = argparse.ArgumentParser()
    parser.add_argument(
        "--model_name_or_path",
        type=str,
        help="Jinan_AICC/Faro-Qwen-4B",
        default=None,
    )
    args = parser.parse_args()
    return args

args = parse_args()
model_path = args.model_name_or_path
model = AutoModelForCausalLM.from_pretrained(model_path, device_map="auto")
tokenizer = AutoTokenizer.from_pretrained(model_path)
messages = [
    {"role": "system", "content": "You are a helpful assistant. Always answer with a short response."},
    {"role": "user", "content": "Tell me what is Pythagorean theorem like you are a pirate."}
]
input_ids = tokenizer.apply_chat_template(messages, tokenize=True, add_generation_prompt=True, return_tensors="pt").to(model.device)
generated_ids = model.generate(input_ids, max_new_tokens=512, temperature=0.5)
response = tokenizer.decode(generated_ids[0], skip_special_tokens=True)
print(response)

更多信息请参考 Jinan_AICC/Faro-Yi-9B