回到主页

场景是下一个数据平台——为什么场景图谱对于理解流程至关重要

Context is the next data platform—and why context graphs are key to understanding processes

· 场景,数据平台,场景图谱

作者:Arvind Jain

原文:https://www.glean.com/blog/context-data-platform

突然之间,每个人都在讨论Jaya Gupta和Ashu Garg的文章——《人工智能的万亿美元机遇——场景图谱》。在Glean,我们感到非常兴奋——因为它终于有了名字。场景图谱不仅能理解你的数据,还能理解你公司的实际运作方式。

我们现在所处的阶段,企业中的几乎所有事物都已实现数字化:决策和结构化数据被记录在系统中,而日常工作则通过通信工具、项目管理系统、代码库等展开。

上下文图谱揭示了企业中实际的工作方式,从而实现了自动化。随着智能体及其推理和行动能力的提升,自动化领域即将迎来重大突破,但这只有在推理建立在正确的企业上下文之上时才能实现。

场景必须随着AI的发展而演进

Glean 的创立理念是:强大的搜索功能是理解上下文的基础。理解内容意味着:对非结构化数据进行索引,以便员工能够在整个企业范围内搜索并快速找到最新、最相关的信息——例如,最新的设计文档、政策更新或客户备注——从而解答问题或解决任务难题。

但随着人工智能开始承担更复杂的工作,我们意识到这个基础需要扩展。仅仅理解企业数据是不够的,系统还需要关系知识。企业中的工作方式从根本上来说是关系驱动的——例如,谁负责某个账户,谁审批合同,哪个工程师值班,或者当事件升级时哪些团队会参与协作。

RPA 和工作流工具旨在自动化组织中最易于理解的流程,但大部分工作是分散的——由个人和小团队完成,这些流程仅以“经验知识”的形式记录下来。我们如何将这些大部分工作纳入自动化范畴,并使智能体能够学习和自动化这些工作?这就是场景图谱发挥作用的地方。

场景图谱的真正目的是捕捉实际流程,实现工作自动化

Glean 对场景图谱的改进是:“你无法可靠地捕捉到为什么;但你可以捕捉到如何做。”

“为什么”通常是一个思考步骤,它通常存在于某人的脑海中——你无法真正将其建模。有时它会在会议记录或Slack聊天记录中有所暗示,但大部分内容从未以清晰或持久的方式记录下来。

另一方面, “如何做”则会留下丰富的数字痕迹:重复的步骤、数据更新、审批、协作模式、变化的字段,以及随时间推移的跨系统行为变化。经过多次循环,这些流程痕迹可以近似地揭示“为什么”:你可以从工作反复完成的模式中,推断出其背后的原理,而不是试图逐字逐句地记录每一个人类的想法。

基于此,场景突破的目标在于捕捉当前的“如何”(流程),并随着时间的推移了解“为什么”(意图)。如果智能体旨在自动化企业中的实际工作,那么关键在于对流程进行深度建模,从而理解工作进行、暂停或升级的条件,以便下次遇到类似情况时,智能体能够确定正确的应对措施。

场景图谱是一种技术投资

创建这种水平的知识和理解并不容易,构建场景图谱也很困难:

      • 可观测性(通过连接器和应用程序):
        要全面了解企业内部的运作情况,仅仅依靠来自记录系统的干净、结构化的决策数据是不够的。它还需要对实际发生工作的连接器和应用程序进行可观测性分析——既要能够广泛地捕获员工使用的多种工具的活动,又要能够深入地从每个连接器中提取有意义的信号。例如,连接到 Salesforce 的连接器可能会显示交易阶段的变更,但真正的可观测性来自于同时观察连接的应用程序的活动:在 Google Docs 中编辑的文档、在 Slack 中发送的消息、在日历中创建的会议或 Salesforce 中更新的记录——所有这些都通过连接器直接从底层系统捕获。
      • 理解活动数据:
        除了索引内容之外,系统还必须捕获底层活动信号:即工具中执行的离散的、带有时间戳的操作。这些操作包括文档编辑、字段更新、添加评论、发送 Slack 消息或上传文件等事件。按时间顺序捕获这些操作,并跟踪它们之间的状态变化,即可获得原始活动数据。
      • 深入理解任务、项目和计划:
        只有在收集到这些原子级活动数据之后,系统才能开始推断更高层次的结构。通过对众多底层操作(例如重复的文档编辑、协调的 Slack 消息以及对同一记录的频繁更新)的模式和语义理解,可以将其聚合起来,从而指示某个任务、项目或更广泛的计划。例如,连续几天的文档创建、编辑、Slack 消息和记录更新可能共同代表一项客户引导工作或产品发布,即使这项工作从未在任何单个系统中被明确标记为此类工作。

将信号从噪音中分离出来并不容易。在Glean,我们的任务理解准确率达到了约 80%——这表明上游技术需要达到多么强大的水平才能实现这一目标。更令人印象深刻的是,由于这是面向企业级应用,场景图谱并非以互联网规模构建。数据无法跨客户聚合,而且由于隐私限制,最终的数据集规模较小且人类无法访问——因此,场景图谱只能通过算法推断得出。

场景图谱是构建下一代数据平台的基础技术套件的一部分

虽然上下文图目前最受关注,但在Glean我们知道,解决上下文问题不能依赖单一技术。要真正理解流程,需要一系列技术协同工作:连接器用于观察跨工具的活动,索引用于实现快速检索,图用于建模企业结构和关系,记忆用于捕获智能体实际执行工作时发生的情况。正是这一系列技术,使得系统能够从原始企业数据过渡到智能体可执行的操作。

随着智能体开始在企业中运行,学习变得至关重要。适用于人类的方法并不总是能直接应用于智能体。通过捕获执行轨迹——智能体如何使用工具、使用顺序以及最终结果——系统可以从智能体的实际工作中学习。这些轨迹构成了企业记忆,记录了智能体在一段时间内真正有效的操作方法。流程理解并非仅仅来自场景图谱,而是源于结构理解和学习行为的结合。

当你退后一步,将所有这些层级——连接器、索引、图以及个人和企业内存——进行统筹整体审视时,你会意识到自己实际上构建了一个全新的数据平台。这个平台并非为报表或分析而设计,而是作为智能体自动化的底座:一个观察工作如何进行、从实践中学习,并使智能体能够可靠地在整个企业中推进工作的系统。

场景是智能体工作的基础

Jaya 和 Ashu 的文章背后真正的问题是:我们如何才能让智能体在企业中高效完成工作?他们如何才能像企业一样学习、理解和运作?如果智能体想要承担更多工作,那么这种机会取决于一个能够理解企业数据、关系和流程的上下文基础。