TRIBE v2

面向硅基神经科学的视觉、听觉与语言基础模型

TRIBE v2 是一种深度多模态脑编码模型，可预测功能性磁共振成像（fMRI）对自然刺激（视频、音频、文本）的脑响应。它融合了最先进的特征提取器——LLaMA 3.2（文本）、V-JEPA2（视频）和 Wav2Vec-BERT（音频）——构建为统一的 Transformer 架构，能将多模态表征映射到大脑皮层表面。

快速开始

从 HuggingFace 加载预训练模型，并预测视频的脑响应：

from tribev2 import TribeModel

model = TribeModel.from_pretrained("facebook/tribev2", cache_folder="./cache")

df = model.get_events_dataframe(video_path="path/to/video.mp4")
preds, segments = model.predict(events=df)
print(preds.shape)  # (n_timesteps, n_vertices)

预测针对的是“平均”被试（详见论文），并基于fsaverage5皮质网格（约20k个顶点）生成。您也可以将text_path或audio_path传递给model.get_events_dataframe——文本会自动转换为语音并进行转录，以获取单词级别的时间信息。

有关包含脑部可视化的完整操作指南，请参见Colab演示笔记本。

安装

基础版（仅用于推理）：

pip install -e .

具备大脑可视化功能：

pip install -e ".[plotting]"

包含训练依赖项（PyTorch Lightning、W&B 等）：

pip install -e ".[training]"

从头开始训练模型

1. 设置环境变量

配置数据/输出路径和 Slurm 分区（或直接编辑 tribev2/grids/defaults.py）：

export DATAPATH="/path/to/studies"
export SAVEPATH="/path/to/output"
export SLURM_PARTITION="your_partition"

2. 使用 HuggingFace 进行身份验证

文本编码器需要访问受限制的 LLaMA 3.2-3B 模型：

huggingface-cli login

创建一个 read 访问令牌，并在出现提示时粘贴它。

3. 运行训练

本地测试运行：

python -m tribev2.grids.test_run

Slurm 上的网格搜索：

python -m tribev2.grids.run_cortical
python -m tribev2.grids.run_subcortical

项目结构

tribev2/
├── main.py              # Experiment pipeline: Data, TribeExperiment
├── model.py             # FmriEncoder: Transformer-based multimodal→fMRI model
├── pl_module.py         # PyTorch Lightning training module
├── demo_utils.py        # TribeModel and helpers for inference from text/audio/video
├── eventstransforms.py  # Custom event transforms (word extraction, chunking, …)
├── utils.py             # Multi-study loading, splitting, subject weighting
├── utils_fmri.py        # Surface projection (MNI / fsaverage) and ROI analysis
├── grids/
│   ├── defaults.py      # Full default experiment configuration
│   └── test_run.py      # Quick local test entry point
├── plotting/            # Brain visualization (PyVista & Nilearn backends)
└── studies/             # Dataset definitions (Algonauts2025, Lahner2024, …)

为开放科学做贡献

如果您使用本软件，请通过以下引用方式与更广泛的研究社区分享您的成果：

@article{dAscoli2026TribeV2,
  title={A foundation model of vision, audition, and language for in-silico neuroscience},
  author={d'Ascoli, St{\'e}phane and Rapin, J{\'e}r{\'e}my and Benchetrit, Yohann and Brookes, Teon and Begany, Katelyn and Raugel, Jos{\'e}phine and Banville, Hubert and King, Jean-R{\'e}mi},
  year={2026}
}

许可协议

本项目采用 CC-BY-NC-4.0 许可协议。详情请参见 LICENSE。

贡献指南

有关参与方式，请参见 CONTRIBUTING.md。