SeamlessM4T 是我们基础的全能型 M 大规模 M 多语言和 M 多模态 M 机器 T 翻译模型,能够在近 100 种语言中提供高质量的语音和文本翻译。
SeamlessM4T 模型支持以下任务:
SeamlessM4T 模型支持:
🌟 我们发布了 SeamlessM4T v2,这是我们新版 UnitY2 架构的更新版本。该新模型在语音生成任务的质量和推理速度方面均优于 SeamlessM4T v1。
SeamlessM4T v2 版本是我们新版 UnitY2 架构的多任务适应版本。UnitY2 通过其分层字符到单元的上采样和非自回归文本到单元的解码,在质量和推理速度方面显著优于 SeamlessM4T v1。
SeamlessM4T v2 也得到了 🤗 Transformers 的支持,更多信息请参见下文。
| 模型名称 | 参数数量 | 检查点 | 指标 |
|---|---|---|---|
| SeamlessM4T-Large v2 | 2.3B | 检查点 | 指标 |
| SeamlessM4T-Large (v1) | 2.3B | 检查点 | 指标 |
| SeamlessM4T-Medium (v1) | 1.2B | 检查点 | 指标 |
我们在上述 metrics 文件中提供了 seamlessM4T-Large 和 SeamlessM4T-Medium 在论文中报告的广泛评估结果(平均值)。
FLEURS、CoVoST2 和 CVSS-C 的评估数据 ID 可以在这里找到。
要重现我们的结果或使用相同的指标评估您自己的测试集,请查看这里的评估 README。
请查看这里的微调 README。
SeamlessM4T 在 🤗 Transformers 库中可用,仅需最少的依赖。开始步骤如下:
pip install git+https://github.com/huggingface/transformers.git sentencepiecefrom transformers import AutoProcessor, SeamlessM4Tv2Model
import torchaudio
processor = AutoProcessor.from_pretrained("facebook/seamless-m4t-v2-large")
model = SeamlessM4Tv2Model.from_pretrained("facebook/seamless-m4t-v2-large")
# from text
text_inputs = processor(text = "Hello, my dog is cute", src_lang="eng", return_tensors="pt")
audio_array_from_text = model.generate(**text_inputs, tgt_lang="rus")[0].cpu().numpy().squeeze()
# from audio
audio, orig_freq = torchaudio.load("https://www2.cs.uic.edu/~i101/SoundFiles/preamble10.wav")
audio = torchaudio.functional.resample(audio, orig_freq=orig_freq, new_freq=16_000) # must be a 16 kHz waveform array
audio_inputs = processor(audios=audio, return_tensors="pt")
audio_array_from_audio = model.generate(**audio_inputs, tgt_lang="rus")[0].cpu().numpy().squeeze()from IPython.display import Audio
sample_rate = model.config.sampling_rate
Audio(audio_array_from_text, rate=sample_rate)
# Audio(audio_array_from_audio, rate=sample_rate)或者使用第三方库(例如 scipy)将它们保存为 .wav 文件:
import scipy
sample_rate = model.config.sampling_rate
scipy.io.wavfile.write("out_from_text.wav", rate=sample_rate, data=audio_array_from_text)
# scipy.io.wavfile.write("out_from_audio.wav", rate=sample_rate, data=audio_array_from_audio)要详细了解如何使用SeamlessM4T模型通过🤗Transformers库进行推理,请参考** SeamlessM4T v2文档** 或实践此** Google Colab教程。**
以下是SeamlessM4T-large(v1/v2)支持的语言列表。"源"列表明语言是否作为源语音(Sp)和/或源文本(Tx)被支持;"目标"列显示语言是否作为目标语音(Sp)和/或目标文本(Tx)被支持。
| 编码 | 语言 | 字符集 | 源 | 目标 |
|---|---|---|---|---|
| afr | 南非荷兰语 | 拉丁文 | Sp, Tx | Tx |
| amh | 阿姆哈拉语 | 埃塞俄比亚文 | Sp, Tx | Tx |
| arb | 现代标准阿拉伯语 | 阿拉伯文 | Sp, Tx | Sp, Tx |
| ary | 摩洛哥阿拉伯语 | 阿拉伯文 | Sp, Tx | Tx |
| arz | 埃及阿拉伯语 | 阿拉伯文 | Sp, Tx | Tx |
| asm | 阿萨姆语 | 孟加拉文 | Sp, Tx | Tx |
| ast | 阿斯图里亚斯语 | 拉丁文 | Sp | - |
| azj | 北阿塞拜疆语 | 拉丁文 | Sp, Tx | Tx |
| ... | ... | ... | ... | ... |
| vie | 越南语 | 拉丁文 | Sp, Tx | Sp, Tx |
| xho | 科萨语 | 拉丁文 | Sp | - |
| yor | 约鲁巴语 | 拉丁文 | Sp, Tx | Tx |
| yue | 广东话(粤语) | 繁体字 | Sp, Tx | Tx |
| zlm | 非正式马来语 | 拉丁文 | Sp | - |
| zsm | 标准马来语 | 拉丁文 | Tx | Tx |
| zul | 祖鲁语 | 拉丁文 | Sp, Tx | Tx |
请注意,seamlessM4T中型版本在文本模式下支持200种语言,基于NLLB-200模型(查看完整的语言列表,请参见资产卡片)。
对于 SeamlessM4T v2,请引用:
@inproceedings{seamless2023,
title="Seamless: Multilingual Expressive and Streaming Speech Translation",
author="{Seamless Communication}, Lo{\"i}c Barrault, Yu-An Chung, Mariano Coria Meglioli, David Dale, Ning Dong, Mark Duppenthaler, Paul-Ambroise Duquenne, Brian Ellis, Hady Elsahar, Justin Haaheim, John Hoffman, Min-Jae Hwang, Hirofumi Inaguma, Christopher Klaiber, Ilia Kulikov, Pengwei Li, Daniel Licht, Jean Maillard, Ruslan Mavlyutov, Alice Rakotoarison, Kaushik Ram Sadagopan, Abinesh Ramakrishnan, Tuan Tran, Guillaume Wenzek, Yilin Yang, Ethan Ye, Ivan Evtimov, Pierre Fernandez, Cynthia Gao, Prangthip Hansanti, Elahe Kalbassi, Amanda Kallet, Artyom Kozhevnikov, Gabriel Mejia, Robin San Roman, Christophe Touret, Corinne Wong, Carleigh Wood, Bokai Yu, Pierre Andrews, Can Balioglu, Peng-Jen Chen, Marta R. Costa-juss{\`a}, Maha Elbayad, Hongyu Gong, Francisco Guzm{\'a}n, Kevin Heffernan, Somya Jain, Justine Kao, Ann Lee, Xutai Ma, Alex Mourachko, Benjamin Peloquin, Juan Pino, Sravya Popuri, Christophe Ropers, Safiyyah Saleem, Holger Schwenk, Anna Sun, Paden Tomasello, Changhan Wang, Jeff Wang, Skyler Wang, Mary Williamson",
journal={ArXiv},
year={2023}
}