ug-cppo-finai-2025:可用于金融交易策略开发与评估，提供30个基于Stable-Baselines3训练的交易代理，涵盖PPO、CVaR-PPO及UG-CPPO算法，支持多种子评估与风险量化分析。【此简介由AI生成】 - AtomGit AI社区

UG-CPPO v3：不确定性门控 CVaR-PPO 交易智能体（多随机种子，诚实评估）

UG-CPPO 论文 v3（FinAI 竞赛 2025，NeurIPS 2026 投稿）的训练模型。

作者 — Grace-Esther Dong · Aivancity Paris-Cachan 论文 — UG_CPPO_preprint_PAT_corrected.pdf 代码 — https://github.com/graceesthi/ug_cppo 预印本 — arXiv [待公布]

本仓库包含内容

30 个训练好的 Stable-Baselines3 智能体（10 个随机种子 × 3 种算法）：

随机种子：42、43、44、45、46、47、48、49、50、51
训练时长：每个智能体 250,000 时间步
评估数据：2019-2023 年纳斯达克数据
股票代码：10 只股票（AAPL、MSFT、AMZN、NVDA、META、GOOGL、TSLA、NFLX、AMD、COST）

文件命名规则

{mode}_seed{seed}.zip
  ppo_seed42.zip       → Vanilla PPO, seed 42
  cppo_seed42.zip      → CVaR-PPO, seed 42
  ug_cppo_seed42.zip   → UG-CPPO (ours), seed 42
  ... (3 modes × 10 seeds = 30 files total)

结果（250k 步数，10 个种子，诚实多种子评估）

累积收益（均值±标准差）

模型	均值	标准差	Rachev	MDD	Wilcoxon p（与 PPO 对比）
PPO	43.94%	±32.18%	0.9445	−27.95%	—
CPPO	39.71%	±46.01%	0.9408	−31.08%	0.1720
UG-CPPO	35.99%	±38.70%	0.9420	−29.72%	0.8127

解读：

UG-CPPO 的累积收益比 PPO 低 7.95 个百分点（95% 置信区间包含零）
Wilcoxon 秩和检验：p=0.8127 >> 0.05 → 中位数无显著差异
H2 假设（UG-CPPO > PPO）：未被拒绝但也未被接受（诚实的零假设保留统计）
诚实方差（σ=38.7%）反映了真实的种子间变异性

表现最佳者（按 Rachev 指标）：

种子 47（UG-CPPO）：Rachev 1.0104
种子 46（UG-CPPO）：Rachev 0.9940
种子 51（PPO）：Rachev 0.9915

快速加载

from stable_baselines3 import PPO
from huggingface_hub import hf_hub_download

# Download UG-CPPO seed 47 (top performer)
path = hf_hub_download(
    repo_id="graceesthi/ug-cppo-finai-2025",
    filename="ug_cppo_seed47.zip"
)
agent = PPO.load(path)

可复现性

硬件：Apple M系列（仅使用CPU）
配置：250k步数，10次独立运行（随机种子42-51）
超参数：学习率=1e-3，批大小=128，γ=0.99，条件风险价值α=0.05
统计检验：Wilcoxon秩和检验（非参数检验，无需正态性假设）

文件

ppo_seed*.zip、cppo_seed*.zip、ug_cppo_seed*.zip——训练好的智能体
multiseed_report_v13.json——包含Wilcoxon检验的完整结果
UG_CPPO_paper.pdf——包含方法论的完整论文
multiseed_performance.png——性能对比图

引用

@inproceedings{dong2026ugcppo,
  title={UG-CPPO: Uncertainty-Gated LLM Infusion for Risk-Sensitive
         Reinforcement Learning Trading Agents},
  author={Dong, Grace-Esther},
  booktitle={NeurIPS 2026 — FinAI Contest 2025, Task 1},
  year={2026},
  note={v3: multi-seed honest evaluation with PAT corrections}
}