AI可以写诗、通过考试,但仍然无法可靠地预约会议或遵循基本指令。
这并非什么秘密,
这是设计上的缺陷。
这就是2026年人工智能面临的根本问题,我们解决了泛化问题,却破坏了专业化,而专业化才是真正完成工作的关键。
如今大多数AI都被设计成具备通用思维,它对很多事物都有所了解,但实际工作需要的并非通用思维,而是合适的思维——拥有正确的知识、设定合理的界限,并能准确记录自身工作成果的思维。
人工智能解决方案失败的原因有三点:
- 他们不知道事物是什么。
- 他们不追踪他们的所作所为。
- 他们试图了解一切
这些是能力、绩效和范围方面的问题。
场景图谱可以解决这些问题。
能力问题
人类语言具有一些根本性的特质,它是人类信息交流的工具,语言能力必须与语言运用区分开来。
了解规则并不等同于正确执行规则。
人类能理解这一点,AI却不能。
小孩能在流利说话之前很久就掌握语法规则,这叫做语言能力。当他们真正开口说话,犯错并纠正错误时,这叫做语言运用。语言知识和语言运用是两个独立的概念。
如今的人工智能系统面临着相反的问题,人工智能已经接触过数十亿个案例。
但它实际上并不理解自己在做什么。
他们看过数百万条日历条目,却不明白什么是会议。他们处理过无数封电子邮件,却无法理解为什么有些邮件紧急,而有些可以稍后处理。
这就是基础层的作用所在,基础层是一种场景结构,它定义了事物的本质。不是例子,也不是统计数据,而是定义和关系。
对于日历管理而言,底层定义了什么是会议。它知道会议有所有参会者,而且所有参会者都必须在线。它知道时区很重要,它知道有些会议可以更改时间,有些则不能。它知道“找到合适的时间”意味着要核实参会者的实际可用的时间,而不是仅仅猜测。
这些基础层与能力的概念直接相关,它们是使绩效表现得以实现的深层知识。没有它们,你就是在要求人工智能根据模式即兴发挥;有了它们,你就为人工智能提供了正确推理所需的基础。
初始基础层提供基本概念,合成基础层添加特定场景下的知识,它们共同构成了人工智能目前所缺乏的能力。
表现问题
知道该做什么还不够,你还需要追踪实际发生的事情。
医疗人工智能可能知道所有已知药物的相互作用,具备完美的胜任能力。但如果它向对阿司匹林过敏的人推荐阿司匹林,那就是表现失败。系统拥有相关知识,但执行时却出了问题。
这就需要用到记录系统了,它属于表现层,负责追踪人工智能实际执行了哪些操作、使用了哪些数据以及取得了哪些结果。
绩效表现总是参差不齐的。人都会犯错,他们会在说话说到一半时改变主意。他们会用错词,然后自己纠正。但所有这些表现数据都很有价值,它能告诉你知识和实践之间存在哪些差距。
对于人工智能系统而言,记录系统也发挥着同样的作用。它记录每一个动作、每一次推理以及导致最终结果的每一条数据。这并非用于调试的日志记录,而是用于学习的绩效表现跟踪。
当你的日历AI安排了错误的会议时间时,记录系统会准确地告诉你原因。它会显示它进行了哪些可用性检查,应用了哪些规则,又忽略了哪些规则,你可以清楚地看到在哪些环节出现了问题。
这就形成了一个反馈循环,表现记录显示了底层架构哪些方面需要改进,也许人工智能不知道哪些会议是定期召开的,也许它漏掉了时区转换规则,表现数据直接指明了能力存在的差距。
如果没有这一层,你就如同盲人摸象。你知道人工智能失败了,但却不知道原因。有了它,就能拥有从认知到行动的完整审计追踪。
范围问题
前沿模型体量庞大,它们肩负着整个世界的重担。当你要求通用模型回答关于你自身的业务问题时,它会把所有关于莎士比亚、量子物理学和网络迷因的知识都倾囊相授。
想象一下图书馆。一个典型的例子是,一位图书管理员读遍了图书馆里的每一本书,却找不到你收件箱里的某封邮件。当你询问这封重要的邮件时,图书管理员会吟诵一首诗,或者跟你讲述纸张的历史,他的知识固然令人印象深刻,但却毫无用处。这与任务自动化完全不符。
你不需要一个在预订会议时无所不知的人工智能,你需要的是一个只知道日历、空闲时间和日程安排等必要信息的人工智能。不多不少,恰到好处。
这就是应用边界的范围问题,大型模型追求的是广度。它们需要回答历史问题、创作诗歌、调试代码,还要解释量子物理学。因此,它们承载着数十亿个参数,代表着人类的全部知识。
但对于大多数实际任务来说,这纯粹是浪费,纯粹是开销。你为了读取一页内容,却要把整个库加载到内存里。
更糟糕的是,模型范围过广会导致可靠性问题。模型知道的越多,出错的可能性就越大。你让它安排会议,它可能会开始探讨时间的本质;你让它清点库存,它可能会把你的仓库和它在训练期间读过的小说里的仓库搞混。
聚焦范围解决了这个问题。场景图谱允许你精确定义每个任务的关键要素,例如对于日历管理,只需要可用时间的数据、时区规则和日程安排约束。仅此而已,不需要模型具备天文学、文学或烹饪方面的知识。
这一点的意义影响深远。如果合理限定模型范围,就不需要最大的模型。你可以使用规模更小、推理能力依然强大的模型,但它们的权重要低得多。它们速度更快、成本更低、可靠性更高。
一个包含 70 亿个参数但具有合适上下文的模型,其表现可能优于一个包含 4050 亿个参数但缺乏上下文的模型。较小的模型无需记住所有信息,它只需利用所需的信息进行推理即可。
场景图谱如何解决这三个问题
场景图谱的概念很简单,它们是连接实体、概念并定义关系的知识结构,但它们可以同时解决所有这三个问题。
- 为了提升能力,它们提供基础层。这些层定义了事物是什么,以及它们之间的关系。例如,会议有参会者,参会者有自己的日历,日历有时区。这些不是统计模式,而是能够建立真正理解的正式定义。
- 为了提升表现,他们维护一套记录系统。人工智能的每一个操作都会被记录在图表中,每一次数据查询也是如此。图表最终会完整地记录下发生了什么以及原因。
- 为了缩小范围,它们将场景限定在关键信息上,无需加载模型的整个知识库,只需加载相关的子图即可。例如,对于日程安排,这包括日历概念和可用时间数据;对于库存管理,这包括库存水平和订单历史记录。每个任务都能获得其所需的确切上下文。
这种三层方法——基础构建、记录保存和聚焦范围——彻底改变了人工智能系统的工作方式。它们不再是靠模式匹配碰运气的引擎,而是基于既定知识进行推理、跟踪自身表现并在适当范围内运行的系统。
它的妙处在于简洁,你不需要新的模型架构,也不需要不同的训练方法,你只需要正确地构建知识结构,并适当地限定范围即可。
场景图谱兼具这些特点。它们通过形式化的基础赋予人工智能系统所需的能力,通过完整的记录跟踪绩效表现,它们通过仅提供相关上下文来解决范围问题。
本体论:让一切皆有可能
本体论是一种正式描述领域内存在事物及其相互关系的方法,它提供的不是模糊的描述,而是给出精确的定义。例如,会议是一种事件,事件有参与者,参与者有可用的时间。每个陈述都是正式的、机器可读的、无歧义的。
本体为底层架构提供了基础结构,它们以形式化的方式定义了能力模型。例如,日历本体精确地规定了日历是什么、它有哪些属性以及哪些操作是有效的。这并非训练数据,而是一个逻辑规范。
为了进行表现跟踪,本体提供了一个标准模式。人工智能的每一个动作都会使用相同的本体结构进行记录,你可以使用形式逻辑查询记录系统。例如,显示人工智能安排会议重叠的所有时间点,或者显示违反时区规则的案例,本体使这些查询成为可能。
就范围而言,本体是模块化的,可以为不同的领域创建单独的本体,例如日历、库存、客户记录、医疗保健等等。每个本体在其范围内都是完整的,当需要特定的场景信息时,只需加载相关的本体即可,人工智能系统能够获得它所需的概念框架,不多不少。
如果没有本体,场景图谱就只是数据结构。有了本体,它们就变成了形式化的知识系统。本体赋予人工智能进行正确推理所需的精确度,为跟踪性能提供了结构,并实现了模块化,使聚焦范围成为可能。
本体论将场景图谱从概念转化为工程。
前进之路
场景图谱将彻底改变了人工智能的经济格局。
现在,人人都想要最大的模型。那些耗资数十亿美元训练的前沿模型,给我们的能源供应能力带来了巨大压力,因为更大的模型意味着更智能、更强大、更好的结果。
这种逻辑在场景图谱中就不成立了,一个拥有正确上下文的小模型总是比一个没有上下文的大模型更优。
想想这些数字:一个前沿模型可能拥有数万亿个参数,运行它需要花费巨资,但其中99%的参数对于任何特定任务都无关紧要,你是在为用不到的知识买单。
一个 7B 或 13B 参数的模型成本要低得多,占用内存更少,运行速度更快。而且,只要有合适的场景图谱,它就具备了所需的一切。底层架构提供了强大的支持,记录系统跟踪了表现,而聚焦的范围则消除了噪声。
这开启了新的可能性,你可以在设备端、边缘服务器上运行人工智能,也可以在那些无法承受调用前沿模型 API 带来的延迟和成本的环境中运行。可以部署数百个专用模型,每个模型都有自己的场景图谱,并针对特定任务进行了优化。
你还可以对所有操作进行审计。由于场景图谱会跟踪所有性能,因此可以确切地知道人工智能做了什么,以及为什么这样做。这对于医疗保健、金融、法律——任何需要解释和问责的领域——都至关重要。
未来并非一个包罗万象的巨型模型,而是由多个小型模型组成,它们在精确定义的环境中运行,追踪自身表现,并在合适的范围内运作。
场景图谱使这种未来成为可能。它们通过基础层解决了能力问题,通过记录系统解决了性能问题,通过聚焦上下文解决了范围问题。
最终得到的人工智能能够可靠地完成特定任务,而不是无所不知。它只知道自己需要什么。
这就是通用知识服务和实用任务自动化之间的区别,场景图谱提供的是后者,而这正是我们真正需要的。
人工智能的未来并非在于某个无所不知的单一模型。
它会在你需要的时候,从场景图谱中准确检索你需要的内容——不多也不少。