QuantLab · 宽研社

发布宽途AI →

技术干货国产GPU回测性能

国产GPU在量化回测中的性能实测

算力组 · 2026-05-18

测试背景

随着国产GPU生态的快速发展，华为昇腾、寒武纪等芯片在AI训练场景中已展现出竞争力。但在量化金融这一细分领域，国产GPU的实际表现如何？我们进行了一次系统性对比测试。

测试环境

硬件	规格
NVIDIA A100	80GB HBM2e
华为昇腾910B	64GB HBM2e
寒武纪MLU370	48GB
海光DCU K100	64GB

所有测试使用相同的回测引擎和数据集，确保公平对比。

测试场景

1. 因子计算（矩阵运算密集型）

截面回归因子（Barra风格）
时间序列动量因子
协方差矩阵估计

2. 组合优化（凸优化求解）

均值-方差优化
风险平价
最大分散度

3. 回测模拟（路径依赖）

1000只股票 × 5年日频数据
含滑点、冲击成本模拟
2000次参数组合扫描

测试结果

场景	A100	昇腾910B	寒武纪MLU370	海光DCU
因子计算	1.0x	0.82x	0.61x	0.73x
组合优化	1.0x	0.71x	0.55x	0.68x
回测模拟	1.0x	0.78x	0.58x	0.70x

关键发现

昇腾910B表现最优，达到A100约78%的性能，在矩阵运算场景下接近82%
软件生态差距大：CUDA代码迁移到各平台需要不同程度的适配工作
性价比优势显著：考虑采购成本和功耗，昇腾在回测场景下性价比较A100高约40%

调优建议

优先使用厂商优化的数学库（CANN / MagicMind）
大 batch size 下国产GPU性能更优
混合精度训练（FP16）在各平台上均有 2-3x 加速

评论 (1)

小

小年糕 2026-05-24

考虑新增国产GPU内容

发表评论