场景是下一个数据平台——为什么场景图谱对于理解流程至关重要

回到主页

场景是下一个数据平台——为什么场景图谱对于理解流程至关重要

Context is the next data platform—and why context graphs are key to understanding processes 

· 场景,数据平台,场景图谱

作者：Arvind Jain

原文：https://www.glean.com/blog/context-data-platform

突然之间，每个人都在讨论Jaya Gupta和Ashu Garg的文章——《人工智能的万亿美元机遇——场景图谱》。在Glean，我们感到非常兴奋——因为它终于有了名字。场景图谱不仅能理解你的数据，还能理解你公司的实际运作方式。

我们现在所处的阶段，企业中的几乎所有事物都已实现数字化：决策和结构化数据被记录在系统中，而日常工作则通过通信工具、项目管理系统、代码库等展开。

上下文图谱揭示了企业中实际的工作方式，从而实现了自动化。随着智能体及其推理和行动能力的提升，自动化领域即将迎来重大突破，但这只有在推理建立在正确的企业上下文之上时才能实现。

场景必须随着AI的发展而演进

Glean 的创立理念是：强大的搜索功能是理解上下文的基础。理解内容意味着：对非结构化数据进行索引，以便员工能够在整个企业范围内搜索并快速找到最新、最相关的信息——例如，最新的设计文档、政策更新或客户备注——从而解答问题或解决任务难题。

但随着人工智能开始承担更复杂的工作，我们意识到这个基础需要扩展。仅仅理解企业数据是不够的，系统还需要关系知识。企业中的工作方式从根本上来说是关系驱动的——例如，谁负责某个账户，谁审批合同，哪个工程师值班，或者当事件升级时哪些团队会参与协作。

RPA 和工作流工具旨在自动化组织中最易于理解的流程，但大部分工作是分散的——由个人和小团队完成，这些流程仅以“经验知识”的形式记录下来。我们如何将这些大部分工作纳入自动化范畴，并使智能体能够学习和自动化这些工作？这就是场景图谱发挥作用的地方。

场景图谱的真正目的是捕捉实际流程，实现工作自动化

Glean 对场景图谱的改进是：“你无法可靠地捕捉到为什么；但你可以捕捉到如何做。”

“为什么”通常是一个思考步骤，它通常存在于某人的脑海中——你无法真正将其建模。有时它会在会议记录或Slack聊天记录中有所暗示，但大部分内容从未以清晰或持久的方式记录下来。

另一方面， “如何做”则会留下丰富的数字痕迹：重复的步骤、数据更新、审批、协作模式、变化的字段，以及随时间推移的跨系统行为变化。经过多次循环，这些流程痕迹可以近似地揭示“为什么”：你可以从工作反复完成的模式中，推断出其背后的原理，而不是试图逐字逐句地记录每一个人类的想法。

基于此，场景突破的目标在于捕捉当前的“如何”（流程），并随着时间的推移了解“为什么”（意图）。如果智能体旨在自动化企业中的实际工作，那么关键在于对流程进行深度建模，从而理解工作进行、暂停或升级的条件，以便下次遇到类似情况时，智能体能够确定正确的应对措施。

场景图谱是一种技术投资

创建这种水平的知识和理解并不容易，构建场景图谱也很困难：

可观测性（通过连接器和应用程序）：要全面了解企业内部的运作情况，仅仅依靠来自记录系统的干净、结构化的决策数据是不够的。它还需要对实际发生工作的连接器和应用程序进行可观测性分析——既要能够广泛地捕获员工使用的多种工具的活动，又要能够深入地从每个连接器中提取有意义的信号。例如，连接到 Salesforce 的连接器可能会显示交易阶段的变更，但真正的可观测性来自于同时观察连接的应用程序的活动：在 Google Docs 中编辑的文档、在 Slack 中发送的消息、在日历中创建的会议或 Salesforce 中更新的记录——所有这些都通过连接器直接从底层系统捕获。
理解活动数据：除了索引内容之外，系统还必须捕获底层活动信号：即工具中执行的离散的、带有时间戳的操作。这些操作包括文档编辑、字段更新、添加评论、发送 Slack 消息或上传文件等事件。按时间顺序捕获这些操作，并跟踪它们之间的状态变化，即可获得原始活动数据。
深入理解任务、项目和计划：只有在收集到这些原子级活动数据之后，系统才能开始推断更高层次的结构。通过对众多底层操作（例如重复的文档编辑、协调的 Slack 消息以及对同一记录的频繁更新）的模式和语义理解，可以将其聚合起来，从而指示某个任务、项目或更广泛的计划。例如，连续几天的文档创建、编辑、Slack 消息和记录更新可能共同代表一项客户引导工作或产品发布，即使这项工作从未在任何单个系统中被明确标记为此类工作。

将信号从噪音中分离出来并不容易。在Glean，我们的任务理解准确率达到了约 80%——这表明上游技术需要达到多么强大的水平才能实现这一目标。更令人印象深刻的是，由于这是面向企业级应用，场景图谱并非以互联网规模构建。数据无法跨客户聚合，而且由于隐私限制，最终的数据集规模较小且人类无法访问——因此，场景图谱只能通过算法推断得出。

场景图谱是构建下一代数据平台的基础技术套件的一部分

虽然上下文图目前最受关注，但在Glean我们知道，解决上下文问题不能依赖单一技术。要真正理解流程，需要一系列技术协同工作：连接器用于观察跨工具的活动，索引用于实现快速检索，图用于建模企业结构和关系，记忆用于捕获智能体实际执行工作时发生的情况。正是这一系列技术，使得系统能够从原始企业数据过渡到智能体可执行的操作。

随着智能体开始在企业中运行，学习变得至关重要。适用于人类的方法并不总是能直接应用于智能体。通过捕获执行轨迹——智能体如何使用工具、使用顺序以及最终结果——系统可以从智能体的实际工作中学习。这些轨迹构成了企业记忆，记录了智能体在一段时间内真正有效的操作方法。流程理解并非仅仅来自场景图谱，而是源于结构理解和学习行为的结合。

当你退后一步，将所有这些层级——连接器、索引、图以及个人和企业内存——进行统筹整体审视时，你会意识到自己实际上构建了一个全新的数据平台。这个平台并非为报表或分析而设计，而是作为智能体自动化的底座：一个观察工作如何进行、从实践中学习，并使智能体能够可靠地在整个企业中推进工作的系统。

场景是智能体工作的基础

Jaya 和 Ashu 的文章背后真正的问题是：我们如何才能让智能体在企业中高效完成工作？他们如何才能像企业一样学习、理解和运作？如果智能体想要承担更多工作，那么这种机会取决于一个能够理解企业数据、关系和流程的上下文基础。