首页 > 科技 > 正文

专访中科院张立波:智能体的决策过程,可能被解释吗?

2026-03-09 14:10:12 21世纪经济报道 21财经APP 肖潇

21世纪经济报道记者 肖潇 北京报道 

如果一项技术难以解释、不被理解,人们能信任它吗?

电灯、电视和电脑刚出现时,大多数人并不理解内部机制,但这并不妨碍被广泛使用。人工智能却不太一样,尤其是今年开始密集出现的智能体,它们不再只是回答问题,而能真正操作世界——读文件、改文档、调应用,在手机和电脑里串联起一整条生活服务流程。

智能体OpenClaw风靡全球科技圈之后,有从业者感叹,历史上很少有一项技术,在人们还没有真正理解它的路径、边界和风险时,就已经被如此热烈地追捧。

不过在研究者看来,很多技术场景都存在类似情况。“深度学习刚出现的时候,大家也普遍认为它的可解释性很差。直到后来,围绕模型决策过程的可解释性研究逐渐兴起,形成一门独立的研究领域。”中国科学院软件研究所研究员张立波说。

从技术史来看,这种能力往往不是在技术诞生时就完全具备,而是随着应用规模扩大逐渐补齐。端侧智能体,或许正处在一个类似的阶段。 

张立波在接受《21世纪经济报道》商业秩序工作室采访时指出,需要让智能体先落地执行。只有在真实执行过程中,才会逐渐发现哪些工程逻辑没有覆盖到,哪些模型能力还需要提高。他认为随着技术逐渐成熟,可解释性会随之增强,“最终的状态应该是每个执行步骤都可以解释和回溯。” 

张立波还提到,端侧智能体是一个必然趋势。智能体调用各个软件的服务,让普通人成为“施令者”而非执行者,是这轮技术革新的方向。 

在这种情况下,调用标准接口是性价比最高的一条路线,而GUI路线作为一种过渡方案,能够快速落地和验证场景。技术从业者关心这类现实解决方案,同时也强调必须遵循数据最小化、更细粒度的权限控制、可中断的原则,才能在上路的同时系好安全带。

(在全球最大技术社区GitHub中,开源端侧智能体OpenClaw成为最快获得10万星标的项目,目前位于星标榜第一)


从执行者转向施令者

《21世纪》:OpenClaw的全球爆火,被很多人看作是端侧智能体规模化的起点。端侧智能体的出现对于 AI 行业意味着什么?

张立波:我觉得端侧智能体肯定是一个必然趋势。之前的大语言模型也好、多模态模型也好,在实际应用的时候,往往只能完成比较单一的任务。但在我们实际工作和生活里,需要做的往往不是一个孤立的任务,而是长逻辑链路组合的复杂任务。

简单来说,可以把智能体理解为能多轮决策、能多任务组合执行的系统,使用需求一定会催生这种形态。而端侧智能体,不管是部署在手机端、平板电脑还是台式机上,本质也是为了满足与现实世界的交互,完成更多的组合性任务,。

《21世纪》:最近美股经历了一波软件股的“末日抛售”,很多人认为,端侧智能体可能会彻底改变图形界面交互,甚至推翻 SaaS 软件和互联网 App 的商业模式。您怎么看这种危机情绪?端侧智能体的出现对软件行业,以及我们普通人的生活,到底可能有什么改变?

张立波:我一直是这么认同的。同样的发展趋势可能同样存在于操作系统,在比较早期的时候就有一个判断:未来人和操作系统的交互,其实不需要过于复杂的图形界面。

无论是App 还是操作系统,现在的操作方式本都是人先在脑子里想清楚要做什么,然后通过自己一步一步点击,来执行这些步骤。有智能体之后,这些原本需要人自己去思考和操作的步骤,大部分都可以让系统自动完成。人的角色就会发生变化,从一个具体的执行者,变成下达指令的人。 

正因为人的角色从“执行者”变成了“指令发布者”,后续软件的开发方式以及最终的使用形态,都会发生变化,比如前端的图形界面可能会消失了——这是第一个改变。

第二个变化是,未来的软件形态可能更像是每个人的“智能管家”。用户只需要面对一个管家式的入口,不需要再分别打开很多不同的 App。App只需要向管家提供接口能力,不一定要再提供完整的前端界面。从这个角度看,我觉得未来的软件形态确实可能被颠覆。 

《21世纪》:虽然说是端侧智能体,但收集、处理、执行并不是100%来自端侧,大部分智能体处理数据需要上云。您怎么看这个现状? 

张立波:现阶段的端侧算力确实有局限。如果只依赖端侧计算,智能体只能完成一些相对简单的任务;一旦任务变得比较复杂,往往还是需要和云端进行协同,也就是端云混合的模式。 

但这个问题也不是智能体独有的,在很多技术场景中都存在类似情况,尤其是早期阶段。比如自动驾驶汽车,当网络信号不好的时候,就需要更多依赖车端本地智能;如果信号好,车端和云端才可以协同辅助。

所以从整体发展阶段来看,我觉得端侧智能体还在很早期的阶段。另一个直观现象是,每当有新技术出现时,都会伴随着大量争论,甚至还会出现一些限制和禁用。这其实从侧面说明,行业规则还没有完全建立起来,智能体还处在探索期。

 用“过渡方案”来验证场景

《21世纪》:端侧智能体面临的一个核心争议,来自不同技术路线的选择:一种是调用官方接口(API等路线),另一种是让智能体自己去读屏模拟操作(GUI路线)。你怎么看不同的技术选择,以及它们带来的影响? 

张立波:通过接口调用的方式,最大优势是标准化高、兼容性好,对平台和智能体双方都是最节约资源的选择。但如果不同厂商之间不愿意开放接口,那智能体就没有办法调用对方能力。这种方式在技术上很理想,现实中会受到平台生态和商业策略的影响。

另一条通过读屏、模拟点击的方式来操作App,优势就是不需要适配,现有软件基本都可以直接被调用。在当前阶段,它的最大好处是可以快速落地,很快验证各种应用场景。但风险是需要解析屏幕内容,也会带来伦理挑战。 

我个人的判断是,在相当长一段时间里,智能体会同时兼容这两种技术路线。业界应该对 API、GUI 等多条技术路线开展多元化探索,依托市场竞争与技术迭代实现科学择优,推动技术生态健康发展。AI助手是兼具社会价值的效率工具,代表了特定领域内的人工智能技术发展方向,发展初期应包容创新、精准防控风险,为技术创新留足空间,助力产业健康有序发展。

《21世纪》:这种转变大概什么时候会发生,可能的契机是什么?

张立波:什么时候出台了国家层面的智能体接口标准,行业可能就会往接口调用方向发展。因为对调用方和被调用方来说,接口调用其实都是性价比更高的一条路线,它既标准化,又能减少很多额外的开发成本。理性地说,双方其实都应该希望采用接口调用这种方式。

《21世纪》:那为什么需要GUI路线来“过渡”,它能起到哪些作用?毕竟如果只把GUI路线理解为一种绕开商业合作的策略,其实作用有限,不想合作的App还是可以拒绝智能体模拟操作。

张立波:我是这么理解它的逻辑的:无论是接口调用还是模拟操作,这两种执行路线都只是智能体任务里完整流程的一小部分。智能体还包括很多其他能力,比如理解用户意图,根据用户反馈优化执行流程,而这些部分都很重要,可能占智能体大约八成工作内容。

API路线和GUI路线是不同的技术选择,并非仅仅二选一。在这个阶段GUI路线毫无疑问提供了一个重要可选路径,尤其是实现用户意图、解决长尾问题上具有突破性。在用户授权的情况下读取屏幕信息,利用智能体能力拆解需求,可以直观向用户展示智能体意图理解、任务分解、任务执行的全方位能力,让用户体会到人工智能的便利。通过这种方案,可以把整个链路跑通,先把智能体的完整流程串起来。只有投入真实的使用,在各个环节上进行提升,才能开始逐步完善智能体。

 可解释性还需要更多研究

《21世纪》:您之前一直在做算法科普,过去治理算法的主要工具箱是透明度和可解释性。在透明度和可解释性上,您有没有观察现在智能体普遍情况如何?该怎么理解它们的重要性?

张立波:深度学习刚出现的时候,大家也普遍认为它的可解释性很差。很多时候我们只知道模型给出了一个结果,但不知道为什么会有这个结果,也不知道背后是怎样一条推理链。比如为什么会向某个用户推荐A视频,而不是B视频?如果不知道背后的逻辑,也很难放心去执行。

直到后来,才出现专门的算法可解释性研究,并形成一门独立的研究领域。现在学界已经可以从很多维度解释推荐算法,包括特征维度、角色组合、可视化呈现。也就是说,原来深度学习的推荐算法是一个完全的“黑箱”,随着技术发展,慢慢可以看到一些过程,透明度也在提高。 

在端侧智能体这个领域,存在类似的“黑箱”问题。但我觉得随着技术成熟,可解释性研究的不断发展,端侧智能体的最终决策是能被更好解释的。

不过智能体和单一模型相比,确实面临更复杂的问题,主要是整个决策链条的可回溯性——一个单独的模型往往只是在某一步做出判断,但智能体是通过多步决策、多个环节组合在一起,最终得到结果。这种长链条的可回溯问题,现在还远远没有被解决。

可能在执行结果正确的时候,大家不会太在意这个问题,但一旦出现错误,可解释性就会变得非常重要。举个最简单的例子,我让智能体帮我买一杯奶茶,虽然它确实买到了,但我发现它没用优惠券。那是哪个环节出现了偏差? 

这种情况下,如果智能具备可回溯和可解释能力,比如能通过某种日志或者流程记录,把整个推理决策过程展示出来,责任分配才可能变得清晰。 

《21世纪》:生成式 AI 出现后,很多人认为它是一个更难解释的概率黑箱,智能体的推理决策路径又更长了。所以在您看来,一个足够透明、可解释的智能体最终是可以实现的?要朝这个方向努力,现在需要在哪些环节加强?

张立波:拿抖音的推荐系统来说,它有复杂的召回、重排、双塔模型(注:互联网信息检索和推荐系统常用,可以理解为让“用户”和“内容”各自变成一个向量,分别比较两边向量有多像,从而判断是否匹配),还有冷启动环节(注:评估新注册用户的喜爱)。现在每一个步骤都是可以被解释的,可能解释的深度会有所不同,但整体来说都是有迹可循的。 

如果把智能体放在这个框架里理解,可以把它看作是“人的逻辑 + 多个模型的逻辑”。智能体里面既包含很多机器模型之间的串联,也包含人手写的判断规则。从这个角度来说,我认为它的可解释性其实是比较强的。

之所以现在有些地方看起来不可解释,一个很重要的原因是系统还不完备。举个简单的例子,比如刚才我们说,智能体买奶茶没用优惠券,可能是因为开发者就没有写进“优惠券”的判断条件,也可能是模型记忆太长产生了遗忘,需要一步步排查。

所以现在需要让智能体先落地执行。只有在真实执行过程中,才会逐渐发现哪些工程逻辑没有覆盖到,哪些模型能力还需要提高。随着技术逐渐成熟,我认为可解释性也会随之增强,最终的状态应该是每个执行步骤都可以解释、回溯。 

《21世纪》:一些观点会觉得,以前治理传统App的规则可能不适用于智能体了,您怎么看?

张立波:我觉得最重要的还是“最小必要原则”,这仍然是互联网产品在遵循的基本规范。在保证目的的前提下,只获取必要的用户数据和权限。 

至于具体的用户授权模式,我觉得确实可能会变化。现在 App 授权大概只有两种方式:一种是“始终允许”,另一种是“仅在应用使用时允许”。如果到了智能体形态,这样的授权粒度就显得太粗了。

未来很可能会出现更细粒度的授权方式,比如按任务授权。当我给智能体下达“买奶茶”的具体任务,在执行这个任务的过程中,一系列权限是可以允许调用的;一旦任务已经结束,这些授权就应该自动失效。

另外一个方式是成本控制。智能体目前还是非常消耗token,如果不加控制地调用模型,可能会造成不必要的开销,所以预算授权会是一个重要部分。

另外智能体的“可中断性”以后可能也会成为一个比较明确的要求。比如在用户发出停止指令之后,系统必须需要在几秒钟之内彻底停止操作。再比如,现在很多大语言模型已经有“深度思考”功能,只要看到它的思考链条,往往就能判断它是对还是错。如果在实际执行任务的时候也能看到这样的过程信息,用户就可以在中途判断要不要继续,避免不必要的错误和损失。

《21世纪》:假如现在一个智能体产品发布前,必须要遵循三条安全原则,您会选什么?

张立波:首先是伦理审查和安全审查。智能体和以前的App和大语言模型都不一样,它真正能够代替我们和现实世界发生交互。既需要确保它用于合法目的,也需要确保手段的合法合理。所以我觉得做智能体的公司,内部要有一个前置的伦理风险审查和测评机制。

第二个是透明度和可中断性。整个执行过程的信息要清晰,这不仅是为了让运作更透明,也是为了给用户能随时中断的能力。

第三个,还是最小必要原则。未来可能会根据任务来设计权限,类似一个任务包的概念,只给智能体完成这个任务所需要的最小功能。

21财经客户端下载