HuggingFace镜像/tribev2
模型介绍文件和版本分析
下载使用量0

TRIBE v2

面向硅基神经科学的视觉、听觉与语言基础模型

在 Colab 中打开 许可证:CC BY-NC 4.0 Python 3.10+

📄 论文 ▶️ 演示 | 🤗 权重

TRIBE v2 是一种深度多模态脑编码模型,可预测功能性磁共振成像(fMRI)对自然刺激(视频、音频、文本)的脑响应。它融合了最先进的特征提取器——LLaMA 3.2(文本)、V-JEPA2(视频)和 Wav2Vec-BERT(音频)——构建为统一的 Transformer 架构,能将多模态表征映射到大脑皮层表面。

快速开始

从 HuggingFace 加载预训练模型,并预测视频的脑响应:

from tribev2 import TribeModel

model = TribeModel.from_pretrained("facebook/tribev2", cache_folder="./cache")

df = model.get_events_dataframe(video_path="path/to/video.mp4")
preds, segments = model.predict(events=df)
print(preds.shape)  # (n_timesteps, n_vertices)

预测针对的是“平均”被试(详见论文),并基于fsaverage5皮质网格(约20k个顶点)生成。您也可以将text_path或audio_path传递给model.get_events_dataframe——文本会自动转换为语音并进行转录,以获取单词级别的时间信息。

有关包含脑部可视化的完整操作指南,请参见Colab演示笔记本。

安装

基础版(仅用于推理):

pip install -e .

具备大脑可视化功能:

pip install -e ".[plotting]"

包含训练依赖项(PyTorch Lightning、W&B 等):

pip install -e ".[training]"

从头开始训练模型

1. 设置环境变量

配置数据/输出路径和 Slurm 分区(或直接编辑 tribev2/grids/defaults.py):

export DATAPATH="/path/to/studies"
export SAVEPATH="/path/to/output"
export SLURM_PARTITION="your_partition"

2. 使用 HuggingFace 进行身份验证

文本编码器需要访问受限制的 LLaMA 3.2-3B 模型:

huggingface-cli login

创建一个 read 访问令牌,并在出现提示时粘贴它。

3. 运行训练

本地测试运行:

python -m tribev2.grids.test_run

Slurm 上的网格搜索:

python -m tribev2.grids.run_cortical
python -m tribev2.grids.run_subcortical

项目结构

tribev2/
├── main.py              # Experiment pipeline: Data, TribeExperiment
├── model.py             # FmriEncoder: Transformer-based multimodal→fMRI model
├── pl_module.py         # PyTorch Lightning training module
├── demo_utils.py        # TribeModel and helpers for inference from text/audio/video
├── eventstransforms.py  # Custom event transforms (word extraction, chunking, …)
├── utils.py             # Multi-study loading, splitting, subject weighting
├── utils_fmri.py        # Surface projection (MNI / fsaverage) and ROI analysis
├── grids/
│   ├── defaults.py      # Full default experiment configuration
│   └── test_run.py      # Quick local test entry point
├── plotting/            # Brain visualization (PyVista & Nilearn backends)
└── studies/             # Dataset definitions (Algonauts2025, Lahner2024, …)

为开放科学做贡献

如果您使用本软件,请通过以下引用方式与更广泛的研究社区分享您的成果:

@article{dAscoli2026TribeV2,
  title={A foundation model of vision, audition, and language for in-silico neuroscience},
  author={d'Ascoli, St{\'e}phane and Rapin, J{\'e}r{\'e}my and Benchetrit, Yohann and Brookes, Teon and Begany, Katelyn and Raugel, Jos{\'e}phine and Banville, Hubert and King, Jean-R{\'e}mi},
  year={2026}
}

许可协议

本项目采用 CC-BY-NC-4.0 许可协议。详情请参见 LICENSE。

贡献指南

有关参与方式,请参见 CONTRIBUTING.md。