
rinna/bilingual-gpt-neox-4b-instruction-sft,该模型采用 MIT 许可证。
pytorch_model.bin 文件的 MD5 校验和值。
edf190a323c0ae63f71476700fb0b462de72aa5b66beee7b65783c96f687d186rinna/bilingual-gpt-neox-4b-instruction-sft 中,我们发现部分训练数据采用非商业性许可证,因此该模型不符合 MIT 许可证的要求。我们决定移除旧版本,并基于许可限制较宽松的数据集重新构建一个新的 SFT 模型。新模型将在数日内上传。对于此次疏忽造成的错误,我们深表歉意。本仓库提供一个参数规模为 38 亿的英日双语 GPT-NeoX 模型。
该模型基于 rinna/bilingual-gpt-neox-4b 构建,并通过微调使其成为一个遵循指令的对话代理。
模型架构
一个包含 36 层、隐藏层大小为 2816 的基于Transformer的语言模型。
微调
微调数据为以下数据集的子集。
模型系列
| 变体 | 链接 |
|---|---|
| Bilingual 4B MiniGPT4 | |
| Bilingual 4B PPO | https://modelers.cn/models/FuJianAscend/bilingual-gpt-neox-4b-instruction-ppo |
| Bilingual 4B SFT | https://modelers.cn/models/FuJianAscend/bilingual-gpt-neox-4b-instruction-sft |
| Bilingual 4B 8K | |
| Bilingual 4B | https://modelers.cn/models/FuJianAscend/bilingual-gpt-neox-4b |
| Japanese 3.6B PPO | |
| Japanese 3.6B SFT-v2 | |
| Japanese 3.6B SFT | |
| Japanese 3.6B |
贡献者
[Tianyu Zhao] 与 [Kei Sawada]
我们的评估实验表明,bilingual-gpt-neox-4b-instruction-sft模型在日语任务上的表现略优于之前的[Japanese GPT-NeoX 3.6B PPO]。
| 模型 | 4任务平均准确率 | 6任务平均准确率 |
|---|---|---|
| bilingual-gpt-neox-4b-instruction-ppo | 61.01 | 61.16 |
| bilingual-gpt-neox-4b-instruction-sft | 61.02 | 61.69 |
| bilingual-gpt-neox-4b | 56.12 | 51.83 |
| japanese-gpt-neox-3.6b-instruction-ppo | 59.86 | 60.07 |
| japanese-gpt-neox-3.6b | 55.07 | 50.32 |
注意: 由于模型对解码超参数(例如 temperature、top_p、top_k、repetition_penalty)敏感,建议针对您的任务探索最佳设置。
import argparse
from openmind import AutoModel, AutoTokenizer
from openmind import is_torch_npu_available
def parse_args():
parser = argparse.ArgumentParser()
parser.add_argument("--model_name_or_path",type=str,help="Path to model",default=None,)
args = parser.parse_args()
return args
if __name__ == '__main__':
if is_torch_npu_available():
device = "npu:0"
else:
device = "cpu"
args = parse_args()
model_path = args.model_name_or_path
# Note: CodeSage requires adding eos token at the end of
# each tokenized sequence to ensure good performance
tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True, add_eos_token=True)
model = AutoModel.from_pretrained(model_path, trust_remote_code=True).to(device)
inputs = tokenizer.encode("def print_hello_world():\tprint('Hello World!')", return_tensors="pt").to(device)
embedding = model(inputs)[0]
print(f'Dimension of the embedding: {embedding[0].size()}')
print(embedding)
该模型使用基于[sentencepiece]的分词器。
<UNK>标记。_Hello)。
use_fast=False,以确保上述功能正确运行。