QuantLab · 宽研社

发布宽途AI →

技术干货数据标准大模型投研

金融AI数据标准化与大模型适配实践

宽研社 · 2026-05-20

背景

投研领域长期以来面临数据口径不统一、语义标准缺失的痛点。不同券商、数据商对同一指标的命名方式、计算口径、数据粒度存在差异，导致大模型在金融场景的应用受阻。

核心问题

口径混乱：营收、净利润等基础指标在不同来源间差异可达 10-20%
语义歧义：同一术语在不同语境下含义不同（如”流动性”可以指资金面或资产变现能力）
时效不一致：数据更新频率从 T+0 到 T+30 不等
结构化程度低：大量数据以非结构化文本形式存在

解决方案：AI金融数据字典

我们基于申万行业标准，构建了面向大模型的金融数据字典，核心包括三个层次：

1. 指标标准层

统一指标定义，包含中英文名称、计算口径、数据来源
建立指标间的层级关系和衍生关系
标注指标的时序属性和更新频率

2. 语义映射层

构建同义词映射表（如”营业收入” = “营业总收入” = “Revenue”）
上下文消歧机制（根据 query 意图判断术语含义）
多语言对齐（中/英/日）

3. 质量校验层

自动检测数据异常值
跨源交叉验证
时间序列完整性检查

对大模型的提升

实测显示，使用标准化数据字典后：

指标	提升幅度
语义理解准确率	+37%
数据口径错误率	-82%
代码生成可用率	61% → 89%

下一步

我们正在接入更多数据源（Wind、Bloomberg、聚源等），并探索用 AI 自动生成数据映射规则，进一步降低人工维护成本。

评论 (0)

暂无评论，来说两句

发表评论