Shuka v1 是一个能够原生理解印度语言音频的语言模型。它是一个编码器 - 解码器模型,由两个模型组合构建而成:
编码器和解码器通过一个约 6000 万参数的小型投影器连接。在训练过程中,仅对投影器的权重进行微调,而网络的其余部分保持冻结状态。秉承我们节俭训练模型的传统,我们在不到 100 小时的音频数据上训练了 Shuka v1。
尽管我们仅使用英语和印地语数据对投影器进行微调,但由于编码器的多语言特性,Shuka v1 在其他印度语言的零样本问答任务中也表现出色。我们已在孟加拉语、英语、古吉拉特语、印地语、卡纳达语、马拉雅拉姆语、马拉地语、奥里亚语、旁遮普语、泰米尔语和泰卢固语上对该模型进行了测试。
观看此 演示视频 了解 Shuka v1 的功能,并通过以下方式使用 huggingface pipeline 开始使用:
# install libraries
# pip install transformers==4.41.2 peft==0.11.1 librosa==0.10.2
import transformers
import librosa
# load the model pipeline on gpu:0
pipe = transformers.pipeline(model='sarvamai/shuka_v1', trust_remote_code=True, device=0, torch_dtype='bfloat16')
# get a sample audio
# wget https://huggingface.co/sarvamai/shuka_v1/resolve/main/hi-question.webm
audio, sr = librosa.load("./hi-question.webm", sr=16000)
turns = [
{'role': 'system', 'content': 'Respond naturally and informatively.'},
{'role': 'user', 'content': '<|audio|>'}
]
pipe({'audio': audio, 'turns': turns, 'sampling_rate': sr}, max_new_tokens=512)更多详情,请参见我们的博客。