from openmind import AutoTokenizer, AutoModel, is_torch_npu_available
from openmind_hub import snapshot_download
import torch
import argparse
import torch.nn.functional as F
# 均值池化 - 考虑注意力掩码以进行正确的平均
def mean_pooling(model_output, attention_mask):
token_embeddings = model_output[0] # model_output的第一个元素包含所有token嵌入
input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)
def parse_args():
parser = argparse.ArgumentParser()
parser.add_argument(
"--model_name_or_path",
type=str,
help="Path to model",
default="Rose/Aeonium-v0-Base-1B",
)
args = parser.parse_args()
return args
def main():
args = parse_args()
model_path = args.model_name_or_path
if is_torch_npu_available():
device = "npu:0"
else:
device = "cpu"
# 我们想要获取句子嵌入的句子
sentences = ['This is an example sentence', 'Each sentence is converted']
# 从openmind_hub加载模型
tokenizer = AutoTokenizer.from_pretrained(model_path,device_map='auto')
model = AutoModel.from_pretrained(model_path,device_map='auto')
# 对句子进行分词
encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')
# 计算token嵌入
with torch.no_grad():
model_output = model(**encoded_input)
# 执行池化
sentence_embeddings = mean_pooling(model_output, encoded_input['attention_mask'])
# 归一化嵌入
sentence_embeddings = F.normalize(sentence_embeddings, p=2, dim=1)
print("Sentence embeddings:")
print(sentence_embeddings)
if __name__ == "__main__":
main()
一款用于俄语处理的顶尖语言模型。此检查点包含一个初步版本的模型,拥有16亿参数。仅在网页上进行训练。
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
tokenizer = AutoTokenizer.from_pretrained("aeonium/Aeonium-v1-BaseWeb-1B")
model = AutoModelForCausalLM.from_pretrained("aeonium/Aeonium-v1-BaseWeb-1B").cuda()
input_ids = tokenizer("Искусственный интеллект - это", return_tensors='pt').to(model.device)["input_ids"]
output = model.generate(input_ids, max_new_tokens=48, do_sample=True, temperature=0.7)
print(tokenizer.decode(output[0]))输出:
Искусственный интеллект - это не только про компьютеры и смартфоны. Его возможности безграничны, а с развитием интернета и интернета вещей он становится еще и самым настоящим оружием в борьбе с преступностью.
Мы поговорили с юристом о самых интересных и опасных способах использования ИИ.预训练数据集来源于公开数据,其中大部分为俄语网页。数据总量为32B tokens。
本训练借助TPU Research Cloud提供的资助,在TPU v4-128节点上完成。
损失值:2.68;准确率:0.48;批处理大小:1024
Aeonium v1是一款基于互联网广泛数据集训练的大型语言模型。因此,它可能会生成包含偏见、冒犯性语言或其他不当内容的文本。模型输出不应被视为事实,也不代表任何个人的信念或身份。用户在使用Aeonium生成的文本时,尤其是在敏感或高风险应用场景中,应保持谨慎并进行仔细过滤。开发者不鼓励生成有害、有偏见或不道德的内容。
本模型基于Apache 2.0许可协议发布。