QuantLab
技术干货 数据标准大模型投研

金融AI数据标准化与大模型适配实践

宽研社 ·

背景

投研领域长期以来面临数据口径不统一、语义标准缺失的痛点。不同券商、数据商对同一指标的命名方式、计算口径、数据粒度存在差异,导致大模型在金融场景的应用受阻。

核心问题

  • 口径混乱:营收、净利润等基础指标在不同来源间差异可达 10-20%
  • 语义歧义:同一术语在不同语境下含义不同(如”流动性”可以指资金面或资产变现能力)
  • 时效不一致:数据更新频率从 T+0 到 T+30 不等
  • 结构化程度低:大量数据以非结构化文本形式存在

解决方案:AI金融数据字典

我们基于申万行业标准,构建了面向大模型的金融数据字典,核心包括三个层次:

1. 指标标准层

  • 统一指标定义,包含中英文名称、计算口径、数据来源
  • 建立指标间的层级关系和衍生关系
  • 标注指标的时序属性和更新频率

2. 语义映射层

  • 构建同义词映射表(如”营业收入” = “营业总收入” = “Revenue”)
  • 上下文消歧机制(根据 query 意图判断术语含义)
  • 多语言对齐(中/英/日)

3. 质量校验层

  • 自动检测数据异常值
  • 跨源交叉验证
  • 时间序列完整性检查

对大模型的提升

实测显示,使用标准化数据字典后:

指标提升幅度
语义理解准确率+37%
数据口径错误率-82%
代码生成可用率61% → 89%

下一步

我们正在接入更多数据源(Wind、Bloomberg、聚源等),并探索用 AI 自动生成数据映射规则,进一步降低人工维护成本。

评论 (0)

暂无评论,来说两句

发表评论