shuka-1:可用于处理印度语言音频的问答任务，是原生理解印度语言音频的编码器-解码器模型，结合自研Saaras v1音频编码器与Llama3-8B-Instruct解码器，通过少量数据训练，支持多印度语言零样本问答。【此简介由AI生成】

Shuka v1 是一个能够原生理解印度语言音频的语言模型。它是一个编码器 - 解码器模型，由两个模型组合构建而成：

我们内部研发的最先进音频编码器：Saaras v1
Meta 的 Llama3 - 8B - Instruct 作为解码器

编码器和解码器通过一个约 6000 万参数的小型投影器连接。在训练过程中，仅对投影器的权重进行微调，而网络的其余部分保持冻结状态。秉承我们节俭训练模型的传统，我们在不到 100 小时的音频数据上训练了 Shuka v1。

尽管我们仅使用英语和印地语数据对投影器进行微调，但由于编码器的多语言特性，Shuka v1 在其他印度语言的零样本问答任务中也表现出色。我们已在孟加拉语、英语、古吉拉特语、印地语、卡纳达语、马拉雅拉姆语、马拉地语、奥里亚语、旁遮普语、泰米尔语和泰卢固语上对该模型进行了测试。

观看此演示视频了解 Shuka v1 的功能，并通过以下方式使用 huggingface pipeline 开始使用：

# install libraries
# pip install transformers==4.41.2 peft==0.11.1 librosa==0.10.2

import transformers
import librosa

# load the model pipeline on gpu:0
pipe = transformers.pipeline(model='sarvamai/shuka_v1', trust_remote_code=True, device=0, torch_dtype='bfloat16')

# get a sample audio
# wget https://huggingface.co/sarvamai/shuka_v1/resolve/main/hi-question.webm

audio, sr = librosa.load("./hi-question.webm", sr=16000)
turns = [
          {'role': 'system', 'content': 'Respond naturally and informatively.'},
          {'role': 'user', 'content': '<|audio|>'}
        ]

pipe({'audio': audio, 'turns': turns, 'sampling_rate': sr}, max_new_tokens=512)

更多详情，请参见我们的博客。

Shuka v1 是一个能够原生理解印度语言音频的语言模型。它是一个编码器 - 解码器模型，由两个模型组合构建而成：

我们内部研发的最先进音频编码器：Saaras v1
Meta 的 Llama3 - 8B - Instruct 作为解码器

观看此演示视频了解 Shuka v1 的功能，并通过以下方式使用 huggingface pipeline 开始使用：

# install libraries
# pip install transformers==4.41.2 peft==0.11.1 librosa==0.10.2

import transformers
import librosa

# load the model pipeline on gpu:0
pipe = transformers.pipeline(model='sarvamai/shuka_v1', trust_remote_code=True, device=0, torch_dtype='bfloat16')

# get a sample audio
# wget https://huggingface.co/sarvamai/shuka_v1/resolve/main/hi-question.webm

audio, sr = librosa.load("./hi-question.webm", sr=16000)
turns = [
          {'role': 'system', 'content': 'Respond naturally and informatively.'},
          {'role': 'user', 'content': '<|audio|>'}
        ]

pipe({'audio': audio, 'turns': turns, 'sampling_rate': sr}, max_new_tokens=512)

更多详情，请参见我们的博客。