企业过去建设的数据平台,本来就是给人用的,不是给 Agent 用的 [企业数据平台下一阶段终篇]

发布时间:2026/6/26 7:29:49
企业过去建设的数据平台,本来就是给人用的,不是给 Agent 用的 [企业数据平台下一阶段终篇] 前六篇我们一直在回答同一个问题为什么企业的数据平台必须演进。从降本到迁移从旁路接入到四个“不动”从统一引擎到统一架构整个系列其实都在往一个终点收束AI 时代企业需要的已经不只是一个更快的数据平台而是一套能被 Agent 直接理解、推理和调用的数据底座。这也是这一篇要回答的问题。很多企业今天都会有一种困惑我有数据湖有数仓有 BI有实时计算也搭了不少数据服务。为什么到了 AI 这一步平台还是显得不够用问题不一定出在“数据不够多”也不一定出在“算力不够强”。真正的问题往往更底层过去二十年企业建设的数据平台服务对象一直是人而现在新的消费主体正在变成 Agent。这不是一次简单的功能升级而是一次基础设施假设的切换。一、过去二十年企业建设的是分析型数据平台如果把企业数据平台的发展粗略回看一遍会发现它的每一次升级其实都在解决一个很具体的问题。第一代是数据库重点解决的是存储和事务。第二代是数据仓库重点解决的是分析和报表。第三代是数据湖重点解决的是规模、低成本存储和多样化数据接入。第四代是 Lakehouse开始尝试把存储、治理和分析重新统一起来。这些阶段都很重要也都推动了企业的数据能力上台阶。但它们有一个共同点默认的数据消费者是人。人看报表人提需求人理解口径人分析异常人做最终决策。这套设计思路没有问题。过去十几年企业数据平台的核心目标本来就是让分析师更高效让业务更快看到报表让管理层更顺畅地拿到结论。所以你会看到传统数据平台最成熟的能力往往集中在这些地方面向 BI 的建模与聚合面向报表的稳定产出面向分析师的 SQL 查询面向运营的看板、指标和告警它们服务得很好。只是它们服务的是“人类使用数据”的链路。而 AI 要的不完全是这一套。二、AI 正在把数据消费主体从人变成 Agent这几年企业内部对数据的使用方式正在发生一个非常关键的变化。过去的流程大概是这样的人提问人理解业务语境人去找表人写 SQL人解释结果人做动作。现在越来越多场景开始变成另一种路径Agent 提问Agent 理解上下文Agent 调度数据和工具Agent 给出判断甚至 Agent 直接触发执行。这看起来像只是把“问数”换成了自然语言界面但本质上不是。因为一旦消费主体从人变成 Agent数据基础设施面对的约束就完全变了。人是会脑补的。看到gmv_amt、pay_amt、order_cnt这些字段人通常还能靠经验、会议纪要、口头共识和历史习惯把它们拼起来。哪怕口径有点飘分析师也知道去问谁。Agent 不一样。它不会默认知道“GMV 到底包不包含退款前订单”也不会自然理解“活跃用户”在不同业务线里是不是一个定义更不会凭感觉判断 Hive、ES、OLAP 和缓存里的四个数字到底哪个应该被信任。换句话说过去的数据平台允许语义留在系统外留在人脑里但 Agent 时代语义必须回到系统里。这就是为什么很多企业会突然觉得原有平台不是不能跑而是越往 AI 走越显得别扭。三、为什么传统数据平台天然不适合 AI这里最容易犯的错是把问题理解成“旧平台算得不够快”。速度当然重要但这还不是最麻烦的地方。真正让 AI 难以在企业数据上稳定工作的通常是四类更结构性的问题。1. 只有字段没有语义大多数传统平台里机器能读到的是表、列、分区、任务、血缘读不到的是业务定义。AI 能看到user_id但它不知道这是注册用户、付费用户还是设备级匿名用户能看到gmv但不知道这个指标的口径、维度限制、适用范围和异常边界。这也是为什么近两年行业里反复强调 semantic layer。Databricks 在 2026 年一篇关于 semantic layer 的文章里把这个问题说得很直接语义层位于源数据与最终用户或消费系统之间它的作用是把物理数据结构转换为“人和机器都能理解”的业务语言并把定义、权限和治理规则跟着指标一起带出去。这个判断很关键因为它点穿了一个事实AI 缺的不是更多表而是可机器消费的业务上下文。2. 数据有很多份世界模型却只有一个企业过去建设数据平台常见思路是“按场景分拆”。离线分析一套实时查询一套搜索一套OLAP 一套缓存再来一套。于是同一份业务事实往往会被复制到 Hive、ES、ClickHouse、Redis 或各种内部服务里。这种架构对“人”还能勉强工作因为不同团队知道各自去哪查。但对 Agent 来说这会直接变成世界模型冲突。它看到的是多份数据、多套口径、多种刷新频率、多种权限边界。它不知道该信谁也无法天然判断哪个结果更接近真实业务状态。只要底层上下文不统一Agent 的推理就很容易建立在错误前提上。所以传统多副本、多引擎架构的真正问题不只是运维重也不只是贵。更严重的是它天然不利于机器形成统一认知。3. 人能容忍延迟Agent 往往不行很多企业的数据链路今天仍然停留在 T1、小时级或者“核心链路分钟级外围链路小时级”的状态。这对于报表和复盘并不一定是问题。但 Agent 的典型场景不是“事后解释”而是“过程中判断”。比如销售 Copilot 在跟单过程中判断客户状态客服 Agent 在会话中调用用户上下文运营 Agent 在投放过程中调整预算风控 Agent 在事件发生时决定是否拦截。这些动作都要求数据不是静态汇总后的结果而是能持续回流、可快速更新、可被执行系统立即使用的状态。高途公开分享过其基于 Iceberg 和 Amoro 的湖仓实践其中一个核心出发点就是原有离线链路的时效性已经无法满足业务诉求。根据公开资料其部分离线加工链路从 5 小时缩短到了 5 分钟级小时级链路也获得明显加速。这个案例说明企业重建数据底座很多时候不是因为“技术时髦”而是因为原先那套节奏已经跟不上业务闭环。4. Agent 要的不是一张表而是一整个上下文传统数据平台更像“数据处理系统”重点在 ETL、建模、查询、报表。Agent 要的则是一整套可调用上下文数据指标语义定义权限规则业务知识调用接口执行反馈少任何一层链路都可能断。美团早年在实时数仓建设中就已经碰到过一个很典型的问题如果数据链路是烟囱式开发口径统一和复用就会越来越困难。其公开技术文章提到随着需求增多原先直接面向应用的一路到底模式很快出现耦合严重、难以复用的问题之后才转向分层实时数仓并强调“指标与维度口径一致性”。这说明即便在传统 BI 时代统一上下文都已经很难到了 Agent 时代这层要求只会更高不会更低。四、AI 时代真正需要的不是更大的仓库而是语义化数据基础设施讲到这里方向其实已经很清楚了。AI 时代企业真正需要的并不是简单地把现有仓库再做大一点也不是继续往平台里叠更多引擎。真正需要重建的是一套让数据、元数据、计算和语义重新对齐的数据底座。我更愿意把它叫做Semantic Data Infrastructure语义化数据基础设施。这个提法的重点不在“语义”两个字听起来新而在于它强调未来的数据平台不再只是为查询结果负责它还要为机器理解负责为 Agent 调用负责为行动闭环负责。在这套基础设施里数据不只是被存起来、算出来、展示出去还要被明确解释、被统一授权、被可控调用并最终进入 AI 的推理与执行链路。这也是为什么 semantic layer、catalog、统一增量计算、Agent interface 这些能力最近会突然变得比过去重要得多。它们不是附属插件而是在补传统数据平台当年没被要求回答的问题。五、下一代数据底座至少要有五个核心能力如果把 AI 时代的数据底座往下拆我认为至少有五个能力是绕不过去的。1. 统一数据底层首先要有统一的数据承载层而不是继续维持多份事实在不同系统里漂移。这也是 Iceberg 之类开放表格式今天被广泛讨论的原因。Apache Iceberg 官网对自己的定义很直接它是“面向超大规模分析表的高性能格式”目标是把 SQL 表的可靠性和简洁性带回大数据环境并允许 Spark、Flink、Trino、Hive 等多种引擎安全地操作同一张表。这个价值不只在格式标准本身更在于它为“统一事实层”提供了一个更现实的基础。2. 统一元数据没有统一 catalog就不可能有稳定的 AI 消费。表结构、版本、血缘、权限、生命周期、质量状态这些信息如果散在各个系统里Agent 根本拿不到一致上下文。所谓“让 AI 用企业数据”第一步往往不是训练模型而是先回答AI 到底该去哪找对的表、对的口径、对的权限。3. 统一计算Agent 时代的数据底座不适合继续用一堆彼此隔离的批处理、流处理、加速引擎去拼。真正合理的方向是让批、流、增量尽量回到统一计算抽象下。这样平台才能既保留历史回放能力又能接住持续更新还能把结果更稳定地回写到下游执行链路里。过去企业做多引擎是为了覆盖不同场景今天企业想做统一计算是为了降低认知分裂和链路摩擦。这是同一个问题在不同阶段的答案变化。4. 统一语义这是最容易被低估、但实际上最关键的一层。没有统一语义AI 只能在 schema 上猜有了统一语义AI 才能在业务定义上工作。所谓 semantic layer本质上不是“给 BI 多一层封装”而是把指标定义、业务口径、维度关系、别名映射、权限规则、认证状态变成所有消费者共享的一套中间层。人和 Agent 都从这里取数整个系统才有可能真正做到同问同答。5. 统一 AI 接口未来的数据平台不会只暴露 SQL 和报表。它还要暴露给 Copilot、Data Agent、业务 Agent、自动化工作流和各种智能应用调用的接口层。这个接口层不只是 API 网关更应该带着语义、权限、审计、上下文绑定和执行反馈。如果这一层缺失AI 就只能停留在“问答助手”它很难进入真正的业务闭环。六、这套终局架构长什么样把上面五层放到一起大致就是这样一套结构它不复杂但指向非常明确。底层是统一数据往上是统一元数据再往上是统一计算之后是统一语义最上面才是 Agent、Copilot 和各种 AI 应用。这个顺序不能反。如果直接在旧平台上叠一个聊天入口短期也许能演示长期大概率会失真。因为上面那层再聪明也补不上底下长期割裂的事实、定义和权限。所以这张图真正表达的不是一个产品堆栈而是一种演进顺序先把底座统一再让 AI 上去。七、为什么越来越多企业开始重建数据底座企业今天重建数据底座通常不是从“我要做 AI Native 架构”这种宏大口号开始的。大多数时候真正的起点都很朴素。有的从降本开始。比如火花思维公开案例里核心矛盾一开始就不是“怎么做 Agent”而是传统架构性能和成本都吃紧。腾讯云公开资料显示其升级后核心报表产出时间提前 2 小时整体成本下降 30%部分业务 CU 消耗下降约 50%。你会发现企业最开始要的还是现实收益。但只要往前走一步问题很快就会从成本走向架构怎么统一存算、怎么减少链路割裂、怎么让数据更快进入后续系统。有的从性能开始。高途的公开分享更典型。它面对的不是一个抽象的“现代化需求”而是业务对时效性的要求越来越高传统离线链路已经无法支撑分钟级反馈。于是改造表面上是在做提效实际上是在推动整个平台往流批一体、统一湖仓的方向走。也有企业从复杂度治理开始。美团的实践很能说明问题。无论是早年的实时数仓建设还是后来围绕流批一体、数据湖和统一计算的持续演进背后都不是“多造一个引擎”而是在不断处理同一个老问题链路太长、系统太多、口径不稳、复用太差。复杂度一旦上来平台本身就会反过来拖慢业务。所以越来越多企业重建底座并不神秘。它们不是突然相信了某个新概念而是旧架构真的开始承受不住新的消费方式。AI 只是把这个问题提前暴露了。八、云器 Lakehouse 在这场变革里的位置讲到这里再回头看云器 Lakehouse就不太适合把它理解成一个单点查询引擎或者一个纯粹替换型的 OLAP 数据库。如果只从“更快”“更便宜”去看判断会太窄。更合适的理解是它处在企业数据底座从传统分析平台向 AI 时代统一数据基础设施演进的中间位置。它解决的不是一个孤立问题而是一条演进路径上的几个关键断点在不大规模迁移数据的前提下先把统一数据和统一计算接起来让原有 Hive/Spark 体系先获得可验证的性能和成本收益为后续的增量化处理、统一元数据和 AI 访问接口预留结构位置把“先见效”和“再重构”拆成两个阶段而不是一次性推倒重来从这个角度看云器 Lakehouse 的价值不只是做湖上加速。它更像一个让企业能从旧平台平滑跨到下一代数据底座的过渡层。前面几篇讲的旁路接入、双发验证、四个“不动”、统一引擎本质上都在服务这一件事别让企业为了进入下一代架构先承担一次不可控的大迁移。这也是为什么我更倾向于把它放在“AI 时代数据底座的一部分”这个位置上来看而不是只把它当作某个查询性能组件。九、收官AI 时代企业真正要重建的是什么现在我们可以把整个系列的逻辑收回来。数据仓库时代企业建设的是数据分析平台。数据湖时代企业建设的是数据存储平台。而到了 AI 时代企业要建设的已经不再只是一个给人看的数据平台。它必须逐步变成一套能被 Agent 理解、推理、调用并参与执行的数据底座。因为未来企业真正的差距不一定体现在谁拥有更多数据。更可能体现在谁能把数据变成 AI 可以稳定使用的上下文谁就更有机会把 AI 从演示系统推进成生产系统。这也是“湖上加速系列”走到最后真正想说明的事。前六篇讲的是为什么企业必须演进。这一篇讲的是演进的终点在哪里。终点不是一个更大的仓库也不是一个更贵的引擎。终点是一套面向 Agent 时代的、统一的、可语义化的数据基础设施。而从今天开始重建这套底座已经不是超前准备了。很多企业其实已经晚了半步。