返回文章列表
2026.06.05

AI构建报表之前,企业要先把数据讲清楚

AI 构建报表真正难的地方,不是生成配置,而是企业有没有先把数据、口径、权限和验证路径讲清楚。

最近看到 Anthropic 写他们怎么用 Claude 做自助数据分析。

吸引我的不是”Claude 能不能写 SQL”,也不是他们内部自动化了多少分析查询。是他们说了一句很到位的话:把 Claude 直接接到数仓上,让它自己查数据,会制造一种虚假的精确感。

在企业里,SQL 能跑,数字能出来,页面上也能展示成一张很漂亮的表——但这不代表答案就是对的。

这个问题我最近在做数据治理报表系统时也感受很深。我们现在也在规划让 AI 参与报表构建,比如用户描述自己想要什么报表,AI 帮他推荐模板、数据集、字段映射和配置草稿。这个方向我觉得是对的,因为很多业务用户并不知道自己该选哪张表、哪个模板、哪些字段。

但越往下想,越觉得真正难的不是 AI 怎么生成配置。

是另一个问题:企业有没有把数据讲清楚。

很多企业不是没有数据,是有太多差不多的数据

做数据治理的都知道,企业里最难处理的往往不是”没有数据”。

很多时候是数据太多了。

一个项目,在这个系统里有一个编码,在另一个系统里又是另一个编码;组织架构看起来应该是统一的,但实际可能有好几套;同一个地盘,在不同业务系统里的名称、归属、状态、启停口径都不完全一样。

再往上,还有指标。

本月收入、累计收入、已收款、计划完成率、开工人数、在建项目数,这些词看起来都很普通。但真正落到表和字段上,每个部门可能都有自己的理解。有人按财务口径,有人按项目口径,有人按最新组织架构,有人还在用历史归属关系。

这时候如果让 AI 来查,它可能真的能查出来。

它会选一张看起来很像的表,找几个看起来很像的字段,写一段能跑的 SQL,然后给你一个数字。

这个数字是你真正想问的那个问题的答案么?

这比报错更麻烦。

报错至少会让你停下来。

一个看起来合理的错误答案,反而最危险。

组织越往后走,数据治理越难

数据治理难,不仅是技术问题、业务口径问题,很大程度上也是组织问题。

一个组织发展到中后期,部门会越来越专业,也会越来越有自己的系统、自己的流程、自己的指标和自己的历史包袱。每个部门维护自己的数据,本身并不奇怪,甚至在某个阶段是合理的。

但很多数据不是部门级的。

项目信息、组织架构、人员、地盘、合同、收入、产值,这些数据最终都要在组织层面被拉通。只要底层主数据没有统一,后面做多少报表、多少驾驶舱、多少 AI 查询,都只能在上面不断补丁。

现实里最常见的情况:大家发现了不同,也知道有不同,但要推动统一很难。

因为统一数据不是改一个字段名那么简单。它会牵动系统、流程、权限、历史数据、部门责任,甚至牵动某些部门一直以来的工作方式。

沟通成本太高以后,数据治理就容易变成”发现问题、记录问题、局部修一下”,很难真正往根上走。

这也是为什么很多企业都说自己在做数据治理,但效果并不明显。

大家不是没意识到问题。问题是刚好卡在组织协作最难的地方。

语义层不是给字段起中文名

Anthropic 那篇文章里提到语义层,这个概念很重要,不是表面看到的那么简单。

一个常见的第一反应是字段中文名映射。比如把 site_name 展示成”项目名称”,把 contract_amount 展示成”合约金额”。用户不用直接看数据库字段就能理解这是什么数据。

但语义层不止是这件事。

它更像是在回答:当用户说”我想看项目收入”时,系统到底应该理解成什么。

用哪张表? 哪个字段才是收入? 按哪个时间口径? 是否包含变更? 是否按当前组织架构归属? 是否受用户数据权限过滤? 历史项目怎么处理? 同一个项目跨系统编码不一致时,以哪个为准?

这些问题如果没有在系统里被定义清楚,AI 就只能猜。

它猜得越流畅,越容易让人相信。

所以AI构建报表,不能只是一个自然语言入口,也不能只是让 AI 从很多表里挑字段。前面必须有一层被治理过的数据和语义。

不然用户问的是业务问题,AI 回答的是数据库问题。

两件事可能不是同一件。

Skill 的价值,是把分析路径沉淀下来

Anthropic 还提到 skills,这点很有启发。

之前我们说 AI 查数,容易把重点放在”给它更多表结构、更多文档、更多历史 SQL”。但这些东西堆在一起,不一定会让 AI 更懂业务。信息太多,反而让它在一堆相似答案里绕。

Skill 的价值在于,不光是告诉 AI 某个字段是什么意思,而是告诉它遇到某类问题应该怎么做。

比如用户问一个项目类报表,不应该一上来就全库搜索字段。先判断业务域,再找权威数据集,再看这个数据集是否适用组织/地盘数据权限,再匹配报表模板,再做字段映射,再把不确定的地方暴露给用户确认。

这更接近一个有经验的数据分析师或产品经理的工作路径。

他不会看到一个字段名像就直接拿来用。

他会先问:这张表是不是权威来源;这个字段是不是当前口径;这个指标有没有历史版本;这个数据能不能被当前用户看到;这个报表是明细、汇总,还是时间展开。

如果把这些路径沉淀成 skill,AI 才不是每次都从零开始猜。

对我们正在规划的报表编辑器来说,这也是一个方向。AI 可以帮用户推荐模板和配置,但它不应该直接决定结果,更不应该绕过权限和治理规则。它应该在系统允许的边界里工作,把推荐理由、不确定项、字段匹配关系都展示出来,让用户能看见它是怎么来的。

这比单纯生成一个漂亮的配置结果更重要。

最后还是要验证

不要轻易相信那种”一问就有答案”的数据产品。

尤其是企业数据。

一个结果出来以后,系统最好能让人继续往下看:用了哪个数据集,哪些字段,什么口径,数据更新时间是什么,是否按当前用户的数据权限过滤,有哪些字段是 AI 不确定但强行匹配的。

如果这些都看不到,AI 查数就会变成一个更聪明的黑盒。

这对数据治理不是好事。

过去人工做报表,至少大家知道去问谁:这个口径谁定的,这张表谁维护的,这个字段为什么这么算。

到了 AI 自助报表,如果所有东西都被包装成一句自然语言回答或一个自动生成的报表,责任链反而更模糊。

所以,AI 构建报表之前,企业要先把数据讲清楚。

讲清楚哪些表是权威来源;指标怎么算;组织、项目这些基础对象怎么统一;字段能不能用、什么时候用、不能怎么用;结果怎么验证,错了以后谁来修。

AI 能让报表构建更快,这一点我不怀疑。

但如果底层数据和语义没治理好,它也只是更快地给出一个看起来像答案的答案。