HuggingFace镜像/shuka-1
模型介绍文件和版本分析
下载使用量0

Shuka v1 是一个能够原生理解印度语言音频的语言模型。它是一个编码器 - 解码器模型,由两个模型组合构建而成:

  • 我们内部研发的最先进音频编码器:Saaras v1
  • Meta 的 Llama3 - 8B - Instruct 作为解码器

编码器和解码器通过一个约 6000 万参数的小型投影器连接。在训练过程中,仅对投影器的权重进行微调,而网络的其余部分保持冻结状态。秉承我们节俭训练模型的传统,我们在不到 100 小时的音频数据上训练了 Shuka v1。

尽管我们仅使用英语和印地语数据对投影器进行微调,但由于编码器的多语言特性,Shuka v1 在其他印度语言的零样本问答任务中也表现出色。我们已在孟加拉语、英语、古吉拉特语、印地语、卡纳达语、马拉雅拉姆语、马拉地语、奥里亚语、旁遮普语、泰米尔语和泰卢固语上对该模型进行了测试。

观看此 演示视频 了解 Shuka v1 的功能,并通过以下方式使用 huggingface pipeline 开始使用:

# install libraries
# pip install transformers==4.41.2 peft==0.11.1 librosa==0.10.2

import transformers
import librosa

# load the model pipeline on gpu:0
pipe = transformers.pipeline(model='sarvamai/shuka_v1', trust_remote_code=True, device=0, torch_dtype='bfloat16')

# get a sample audio
# wget https://huggingface.co/sarvamai/shuka_v1/resolve/main/hi-question.webm

audio, sr = librosa.load("./hi-question.webm", sr=16000)
turns = [
          {'role': 'system', 'content': 'Respond naturally and informatively.'},
          {'role': 'user', 'content': '<|audio|>'}
        ]

pipe({'audio': audio, 'turns': turns, 'sampling_rate': sr}, max_new_tokens=512)

更多详情,请参见我们的博客。