作者:Prukalpa
原文:https://x.com/prukalpa/status/2011117250762207347
Aya Gupta 关于场景图谱的观点是正确的,但在谁最终胜出的问题上是错误的。在异构性世界中,最终的赢家永远是集成者,而不是应用程序本身。
如果你身处数据领域,你可能已经注意到最近几周记录系统和场景图谱在网络上迅速传播开来。
Jamin Ball在文章——《记录系统万岁》中认为,尽管存在各种讨论,但人工智能代理不会取代数据仓库、CRM、ERP、HRIS 等记录系统。相反,“真相”将存在于记录系统中,并在其上添加一个语义层,告诉代理如何使用这些真相。
Jay Gupta和 Ashu Garg在如今已疯传的“人工智能的万亿美元机遇:上下文图谱”他们认为,仅仅在记录系统中添加人工智能和语义层是不够的。下一个万亿美元的机会在于它所忽略的部分:决策轨迹,或者说过去决策背后的“原因”。所有这些都将构成一个场景图谱,他们称之为下一个万亿美元的机会。
谁来拥有这些信息?Jaya 和 Ashu 认为,拥有这些信息的并非记录系统,而是那些在“执行路径”中工作的智能体,他们能够了解决策的完整场景。换句话说,垂直领域的智能体初创公司将拥有其所在领域的场景图谱。销售智能体公司将记录续约相关的上下文,客户支持智能体公司将记录升级相关的上下文,以此类推。
这一观点引发了大量探讨与争论,包括:如何在实际中构建场景图谱、双层场景架构设计、运营场景与执行智能的核心价值,以及这一系列技术设计对智能体的可靠性、治理体系、可观测性、应用安全、财务损失恢复等多方面的深层影响。
难怪这篇文章会爆红,它的论点确实精辟,我认为他们对场景图谱的重要性和机遇的看法是对的,但他们对谁能最终获得那万亿美元的看法是错的。
这是因为场景图谱概念在企业中遇到了一个棘手的现实:异构性。
一种异构的结束,另一种异构的开始
从数据异构到场景异构的转变
过去十年,数据“异构性”意味着各种零散的工具围绕着少数封闭的数据仓库运转,随后平台为了将所有数据纳入自身体系,掀起了一波整合浪潮。Iceberg 和开放表格式正在终结这一时代,存储变得开放,计算变得可互换,而厂商锁定现象也逐渐减少。
但碎片化现象并没有消失,异构性只是向上迁移到了更高的层级。
我们不再需要五个数据仓库,而是要构建数百个智能体、AI助手和AI应用。每个系统都拥有自己对世界的片面理解、嵌入式定义和“私有”上下文窗口。我们将不再争论数据存储在哪里,而是争论谁的语义才是正确的,谁的人工智能值得信赖,以及如何让数十个自主系统与同一个现实版本保持一致。
不幸的是,这并非对未来的猜测,我们已经目睹了这种情况的发生。
一位客户告诉我们:“我们有 1000 多个 Databricks Genie 空间,但无法对它们进行全面管理。这就像 BI 系统蔓延问题再次出现一样。”
另一位用户说:“我们有各种各样的智能体工具(Sierra、Writer、Google Agentspace、Snowflake Cortex),但它们之间无法互通。我想要一个通用的场景层,这样我就不必为每个工具单独进行上下文工程了。”
为什么垂直智能体无法解决这个问题
执行路径是本地的,场景是全局的
让我们回到 Jaya 和 Ashu 关于智能体拥有场景的核心论点:“智能体系统初创公司具有结构优势。它们位于执行路径上。”
对于在单个工作流程中捕获决策轨迹而言,这确实如此。但对于大多数决策而言,场景信息来自四面八方。
当续约智能体提出 20% 的折扣时,系统不仅仅从客户关系管理系统 (CRM) 中提取信息,还会从以下来源提取信息:
- PagerDuty事件历史记录
- Zendesk用于升级线程
- Slack上季度需要副总裁批准
- Salesforce用于交易记录
- Snowlake用于使用数据
- 用于“健康顾客”定义的语义层
一个续保决策需要六个不同系统的场景
关键在于:每个企业使用的系统组合都不一样。有的客户运行的是 Salesforce + Zendesk + Snowflake,有的运行的是 HubSpot + Intercom + Databricks,还有的运行的是自研 CRM + ServiceNow + BigQuery。
我认为这正是 Jaya 和 Ashu 的论文未能解决的异构性问题。垂直智能体初创公司能够看到执行路径并在其工作流程中捕获场景信息。但企业拥有数十个代理,分属数十家供应商,每个代理都构建了自己的上下文孤岛,垂直代理无法看到完整的上下文网络。
为了真正掌握场景图谱,一个垂直行业智能体仅覆盖常见情况就需要集成 50 到 100 多个系统。现在,想象一下,如果把这个数字乘以所有垂直行业代理公司——销售智能体、客户支持智能体、财务智能体、人力资源智能体——每个公司都需要构建相同的集成,那将是多么庞大的集成工作量。
语境的两个部分
系统异质性仅仅是问题的开始,虽然我们通常将“场景”视为一个单一概念,但场景本身就是异质的。
Tomasz Tunguz (托马斯·通古兹)对两种新兴的场景数据库类型进行了很好的解释:
- 运营场景数据库存储着标准操作流程和机构知识:例如,客户来电咨询重置密码、法务部门审核保密协议、人力资源部门解答有关期权归属的问题等等。这些流程都包含商业秘密和知识产权。
- 分析场景数据库是语义层的演进:语义层定义了诸如收入、获客成本等指标,并进行了相应的计算。语义层告诉人工智能数据的含义,而分析场景数据库则教会人工智能如何对数据进行推理。
这两种语境形式紧密交织,却又截然不同,无论是在外观上还是在存在的地方,场景图谱论还没有考虑到这一点。
续约决策不仅取决于运营层面(“这是我们的折扣例外政策”),还取决于分析层面(“这是我们计算客户健康评分的方式,这是‘风险客户’的含义”)。而这些分析层面的信息定义在语义层中,语义层位于数据仓库之上,数据仓库包含来自客户关系管理系统、支持系统、产品分析和计费平台的数据。
垂直智能体看到的是工作流程,而不是为其提供分析数据的上下文。数据仓库看到的是指标,而不是使用这些指标的运营决策。场景图谱需要弥合这两种视角之间的鸿沟。
从执行路径到复合系统
实际
上,场景往往是跨系统且多层次的。这就让问题发生了转变,问题不再仅仅是谁在决策做出的那一刻捕获了决策轨迹,而是什么样的系统能够随着时间的推移,跨数十个智能体捕获、提炼和传递场景。
在一个数百个智能体同时运行的世界里,真正的难题不在于初始场景的获取,而在于协调和改进。如何才能更好地理解场景?如何才能保持一致性?我们如何确保一个智能体所学到的知识能够惠及其他智能体?
正是在此基础上,两个理念变得至关重要:反馈循环和场景平台。
场景通过反馈回路相互作用
最终胜出的系统并非第一天就能获取最多场景信息的系统,而是随着时间的推移,能够更好地获取和传递场景信息的系统。
这就形成了一个飞轮:
- 准确性创造信任:当场景合适时,智能体会做出更好的决策。
- 信任带来用户采纳:团队会更频繁地使用该系统。
- 采用会带来反馈:使用越多,修正和改进就越多。
- 反馈有助于提高准确性:场景会变得更好。
垂直领域的智能体可以在其领域内运行这种循环,但它们只能改善自身工作流程的上下文。它们无法改善所有工作流程共享的构建模块:关键术语的底层定义、跨系统的实体解析、指标的语义理解,以及一个领域中影响其他领域的先例。
通用场景层在平台层面运行一次这种飞轮,所有智能体都能从中受益。每一次互动——无论是在销售、支持、财务还是运营部门——都能改进共享上下文。“客户健康状况”的语义定义得到完善,Salesforce 联系人和 Zendesk 用户之间的实体解析更加精准,对哪些例外情况会形成先例的理解也更加清晰。
这就是复利存在的关键:它存在于平台层,而不是应用层。
从场景工程到场景平台
如今
,要让人工智能在企业中发挥作用,需要大量的人工场景工程。
他们依赖于大量部署在前线的AI工程师和智能体产品经理,这些人负责从客户那里收集场景信息,并手动更新系统提示和评估结果。这种方法虽然有效,但速度慢且耗费人力。更重要的是,这意味着每个垂直领域的智能体供应商都要为每个客户重复进行相同的场景工程工作。
托马斯最近有指出:“企业从云数据仓库中吸取了教训,他们交出了数据和计算能力,然后眼睁睁地看着自己业务中最重要的战略资产——运营模式——变成了别人的筹码……” 这就是 Iceberg 存在的意义,以及开放式表格式正在成为主流的原因。企业意识到,将数据控制权拱手让给单一供应商会造成战略上的锁定,损害自身利益,而且数据本身也成了反过来对付他们的筹码。
垂直智能体构建单一工作流的飞轮古道,而通用平台可以创造跨所有工作流的复利效应
现在想象一下,如果移交的是比数据更有价值的东西来:那就是公司决策过程中积累的组织知识(也就是所谓的“部落知识”),例外逻辑,以及存在于人们脑海中的“我们总是做X是因为Y”的推理,这正是场景图谱所捕捉到的。
企业不会把运营核心业务拱手让给十几家垂直领域的初创公司,让它们各自掌控一部分业务。企业的战略资产是场景,而非智能体。企业希望拥有自己的场景,并采用开放的、联合的场景平台,让所有智能体都能读取信息,方便管理,并随着时间推移不断改进。
谁将抓住这万亿美元的商机
场景信息蕴藏着万亿美元的商机,但我认为最终的赢家并非那些只深入了解单一工作流程的公司,而是那些能够将场景信息整合到不同工作流程、不同系统以及错综复杂的企业技术环境中的公司。
具体来说,需要做到以下几点:
- 跨系统连接:与数百个数据源集成,涵盖数据仓库、CRM、BI工具和通信平台等。
- 运营场景协同:从日志、工单、聊天记录和人员行为中提取标准操作程序和组织知识。
- 分析场景管理:管理指标定义、业务实体和语义关系。
- 提供推理时场景:在决策时刻为任何智能体提供正确的场景。
- 大规模反馈循环:在每次交互中持续改进场景。
- 治理与信任:确保所有参与者在共享的现实版本上运作。
这是平台问题,不是应用程序问题。
已经构建了#1和#3(即与Snowflake、Databricks、BigQuery、Salesforce、dbt和Looker等平台连接的系统)的公司,在这方面拥有结构性优势。它们已经解决了异构性问题,了解数据在组织内部的流动方式,并且拥有将各个系统连接起来的关系图。
这才是真正的万亿美元机遇:创建一个通用场景层,帮助所有企业数据和人工智能系统协同工作。
在异质性日益增强的世界中,整合者总是最终的赢家。在企业吸取了“冰山理论”教训的当下,能够让客户掌控自身环境的平台,终将战胜那些试图替客户掌控环境的平台。
我们正在探索这个问题。