专访中科院张立波：智能体的决策过程，可能被解释吗？

首页 > 科技 > 正文

2026-03-09 14:10:12 21世纪经济报道 21财经APP 肖潇

21世纪经济报道记者肖潇北京报道

如果一项技术难以解释、不被理解，人们能信任它吗？

电灯、电视和电脑刚出现时，大多数人并不理解内部机制，但这并不妨碍被广泛使用。人工智能却不太一样，尤其是今年开始密集出现的智能体，它们不再只是回答问题，而能真正操作世界——读文件、改文档、调应用，在手机和电脑里串联起一整条生活服务流程。

智能体OpenClaw风靡全球科技圈之后，有从业者感叹，历史上很少有一项技术，在人们还没有真正理解它的路径、边界和风险时，就已经被如此热烈地追捧。

不过在研究者看来，很多技术场景都存在类似情况。“深度学习刚出现的时候，大家也普遍认为它的可解释性很差。直到后来，围绕模型决策过程的可解释性研究逐渐兴起，形成一门独立的研究领域。”中国科学院软件研究所研究员张立波说。

从技术史来看，这种能力往往不是在技术诞生时就完全具备，而是随着应用规模扩大逐渐补齐。端侧智能体，或许正处在一个类似的阶段。

张立波在接受《21世纪经济报道》商业秩序工作室采访时指出，需要让智能体先落地执行。只有在真实执行过程中，才会逐渐发现哪些工程逻辑没有覆盖到，哪些模型能力还需要提高。他认为随着技术逐渐成熟，可解释性会随之增强，“最终的状态应该是每个执行步骤都可以解释和回溯。”

张立波还提到，端侧智能体是一个必然趋势。智能体调用各个软件的服务，让普通人成为“施令者”而非执行者，是这轮技术革新的方向。

在这种情况下，调用标准接口是性价比最高的一条路线，而GUI路线作为一种过渡方案，能够快速落地和验证场景。技术从业者关心这类现实解决方案，同时也强调必须遵循数据最小化、更细粒度的权限控制、可中断的原则，才能在上路的同时系好安全带。

(在全球最大技术社区GitHub中，开源端侧智能体OpenClaw成为最快获得10万星标的项目，目前位于星标榜第一）

从执行者转向施令者

《21世纪》：OpenClaw的全球爆火，被很多人看作是端侧智能体规模化的起点。端侧智能体的出现对于 AI 行业意味着什么？

张立波：我觉得端侧智能体肯定是一个必然趋势。之前的大语言模型也好、多模态模型也好，在实际应用的时候，往往只能完成比较单一的任务。但在我们实际工作和生活里，需要做的往往不是一个孤立的任务，而是长逻辑链路组合的复杂任务。

简单来说，可以把智能体理解为能多轮决策、能多任务组合执行的系统，使用需求一定会催生这种形态。而端侧智能体，不管是部署在手机端、平板电脑还是台式机上，本质也是为了满足与现实世界的交互，完成更多的组合性任务，。

《21世纪》：最近美股经历了一波软件股的“末日抛售”，很多人认为，端侧智能体可能会彻底改变图形界面交互，甚至推翻 SaaS 软件和互联网 App 的商业模式。您怎么看这种危机情绪？端侧智能体的出现对软件行业，以及我们普通人的生活，到底可能有什么改变？

张立波：我一直是这么认同的。同样的发展趋势可能同样存在于操作系统，在比较早期的时候就有一个判断：未来人和操作系统的交互，其实不需要过于复杂的图形界面。

无论是App 还是操作系统，现在的操作方式本都是人先在脑子里想清楚要做什么，然后通过自己一步一步点击，来执行这些步骤。有智能体之后，这些原本需要人自己去思考和操作的步骤，大部分都可以让系统自动完成。人的角色就会发生变化，从一个具体的执行者，变成下达指令的人。

正因为人的角色从“执行者”变成了“指令发布者”，后续软件的开发方式以及最终的使用形态，都会发生变化，比如前端的图形界面可能会消失了——这是第一个改变。

第二个变化是，未来的软件形态可能更像是每个人的“智能管家”。用户只需要面对一个管家式的入口，不需要再分别打开很多不同的 App。App只需要向管家提供接口能力，不一定要再提供完整的前端界面。从这个角度看，我觉得未来的软件形态确实可能被颠覆。

《21世纪》：虽然说是端侧智能体，但收集、处理、执行并不是100%来自端侧，大部分智能体处理数据需要上云。您怎么看这个现状？

张立波：现阶段的端侧算力确实有局限。如果只依赖端侧计算，智能体只能完成一些相对简单的任务；一旦任务变得比较复杂，往往还是需要和云端进行协同，也就是端云混合的模式。

但这个问题也不是智能体独有的，在很多技术场景中都存在类似情况，尤其是早期阶段。比如自动驾驶汽车，当网络信号不好的时候，就需要更多依赖车端本地智能；如果信号好，车端和云端才可以协同辅助。

所以从整体发展阶段来看，我觉得端侧智能体还在很早期的阶段。另一个直观现象是，每当有新技术出现时，都会伴随着大量争论，甚至还会出现一些限制和禁用。这其实从侧面说明，行业规则还没有完全建立起来，智能体还处在探索期。

用“过渡方案”来验证场景

《21世纪》：端侧智能体面临的一个核心争议，来自不同技术路线的选择：一种是调用官方接口（API等路线），另一种是让智能体自己去读屏模拟操作（GUI路线）。你怎么看不同的技术选择，以及它们带来的影响？

张立波：通过接口调用的方式，最大优势是标准化高、兼容性好，对平台和智能体双方都是最节约资源的选择。但如果不同厂商之间不愿意开放接口，那智能体就没有办法调用对方能力。这种方式在技术上很理想，现实中会受到平台生态和商业策略的影响。

另一条通过读屏、模拟点击的方式来操作App，优势就是不需要适配，现有软件基本都可以直接被调用。在当前阶段，它的最大好处是可以快速落地，很快验证各种应用场景。但风险是需要解析屏幕内容，也会带来伦理挑战。

我个人的判断是，在相当长一段时间里，智能体会同时兼容这两种技术路线。业界应该对 API、GUI 等多条技术路线开展多元化探索，依托市场竞争与技术迭代实现科学择优，推动技术生态健康发展。AI助手是兼具社会价值的效率工具，代表了特定领域内的人工智能技术发展方向，发展初期应包容创新、精准防控风险，为技术创新留足空间，助力产业健康有序发展。

《21世纪》：这种转变大概什么时候会发生，可能的契机是什么？

张立波：什么时候出台了国家层面的智能体接口标准，行业可能就会往接口调用方向发展。因为对调用方和被调用方来说，接口调用其实都是性价比更高的一条路线，它既标准化，又能减少很多额外的开发成本。理性地说，双方其实都应该希望采用接口调用这种方式。

《21世纪》：那为什么需要GUI路线来“过渡”，它能起到哪些作用？毕竟如果只把GUI路线理解为一种绕开商业合作的策略，其实作用有限，不想合作的App还是可以拒绝智能体模拟操作。

张立波：我是这么理解它的逻辑的：无论是接口调用还是模拟操作，这两种执行路线都只是智能体任务里完整流程的一小部分。智能体还包括很多其他能力，比如理解用户意图，根据用户反馈优化执行流程，而这些部分都很重要，可能占智能体大约八成工作内容。

API路线和GUI路线是不同的技术选择，并非仅仅二选一。在这个阶段GUI路线毫无疑问提供了一个重要可选路径，尤其是实现用户意图、解决长尾问题上具有突破性。在用户授权的情况下读取屏幕信息，利用智能体能力拆解需求，可以直观向用户展示智能体意图理解、任务分解、任务执行的全方位能力，让用户体会到人工智能的便利。通过这种方案，可以把整个链路跑通，先把智能体的完整流程串起来。只有投入真实的使用，在各个环节上进行提升，才能开始逐步完善智能体。

可解释性还需要更多研究

《21世纪》：您之前一直在做算法科普，过去治理算法的主要工具箱是透明度和可解释性。在透明度和可解释性上，您有没有观察现在智能体普遍情况如何？该怎么理解它们的重要性？

张立波：深度学习刚出现的时候，大家也普遍认为它的可解释性很差。很多时候我们只知道模型给出了一个结果，但不知道为什么会有这个结果，也不知道背后是怎样一条推理链。比如为什么会向某个用户推荐A视频，而不是B视频？如果不知道背后的逻辑，也很难放心去执行。

直到后来，才出现专门的算法可解释性研究，并形成一门独立的研究领域。现在学界已经可以从很多维度解释推荐算法，包括特征维度、角色组合、可视化呈现。也就是说，原来深度学习的推荐算法是一个完全的“黑箱”，随着技术发展，慢慢可以看到一些过程，透明度也在提高。

在端侧智能体这个领域，存在类似的“黑箱”问题。但我觉得随着技术成熟，可解释性研究的不断发展，端侧智能体的最终决策是能被更好解释的。

不过智能体和单一模型相比，确实面临更复杂的问题，主要是整个决策链条的可回溯性——一个单独的模型往往只是在某一步做出判断，但智能体是通过多步决策、多个环节组合在一起，最终得到结果。这种长链条的可回溯问题，现在还远远没有被解决。

可能在执行结果正确的时候，大家不会太在意这个问题，但一旦出现错误，可解释性就会变得非常重要。举个最简单的例子，我让智能体帮我买一杯奶茶，虽然它确实买到了，但我发现它没用优惠券。那是哪个环节出现了偏差？

这种情况下，如果智能具备可回溯和可解释能力，比如能通过某种日志或者流程记录，把整个推理决策过程展示出来，责任分配才可能变得清晰。

《21世纪》：生成式 AI 出现后，很多人认为它是一个更难解释的概率黑箱，智能体的推理决策路径又更长了。所以在您看来，一个足够透明、可解释的智能体最终是可以实现的？要朝这个方向努力，现在需要在哪些环节加强？

张立波：拿抖音的推荐系统来说，它有复杂的召回、重排、双塔模型（注：互联网信息检索和推荐系统常用，可以理解为让“用户”和“内容”各自变成一个向量，分别比较两边向量有多像，从而判断是否匹配），还有冷启动环节（注：评估新注册用户的喜爱）。现在每一个步骤都是可以被解释的，可能解释的深度会有所不同，但整体来说都是有迹可循的。

如果把智能体放在这个框架里理解，可以把它看作是“人的逻辑 + 多个模型的逻辑”。智能体里面既包含很多机器模型之间的串联，也包含人手写的判断规则。从这个角度来说，我认为它的可解释性其实是比较强的。

之所以现在有些地方看起来不可解释，一个很重要的原因是系统还不完备。举个简单的例子，比如刚才我们说，智能体买奶茶没用优惠券，可能是因为开发者就没有写进“优惠券”的判断条件，也可能是模型记忆太长产生了遗忘，需要一步步排查。

所以现在需要让智能体先落地执行。只有在真实执行过程中，才会逐渐发现哪些工程逻辑没有覆盖到，哪些模型能力还需要提高。随着技术逐渐成熟，我认为可解释性也会随之增强，最终的状态应该是每个执行步骤都可以解释、回溯。

《21世纪》：一些观点会觉得，以前治理传统App的规则可能不适用于智能体了，您怎么看？

张立波：我觉得最重要的还是“最小必要原则”，这仍然是互联网产品在遵循的基本规范。在保证目的的前提下，只获取必要的用户数据和权限。

至于具体的用户授权模式，我觉得确实可能会变化。现在 App 授权大概只有两种方式：一种是“始终允许”，另一种是“仅在应用使用时允许”。如果到了智能体形态，这样的授权粒度就显得太粗了。

未来很可能会出现更细粒度的授权方式，比如按任务授权。当我给智能体下达“买奶茶”的具体任务，在执行这个任务的过程中，一系列权限是可以允许调用的；一旦任务已经结束，这些授权就应该自动失效。

另外一个方式是成本控制。智能体目前还是非常消耗token，如果不加控制地调用模型，可能会造成不必要的开销，所以预算授权会是一个重要部分。

另外智能体的“可中断性”以后可能也会成为一个比较明确的要求。比如在用户发出停止指令之后，系统必须需要在几秒钟之内彻底停止操作。再比如，现在很多大语言模型已经有“深度思考”功能，只要看到它的思考链条，往往就能判断它是对还是错。如果在实际执行任务的时候也能看到这样的过程信息，用户就可以在中途判断要不要继续，避免不必要的错误和损失。

《21世纪》：假如现在一个智能体产品发布前，必须要遵循三条安全原则，您会选什么？

张立波：首先是伦理审查和安全审查。智能体和以前的App和大语言模型都不一样，它真正能够代替我们和现实世界发生交互。既需要确保它用于合法目的，也需要确保手段的合法合理。所以我觉得做智能体的公司，内部要有一个前置的伦理风险审查和测评机制。

第二个是透明度和可中断性。整个执行过程的信息要清晰，这不仅是为了让运作更透明，也是为了给用户能随时中断的能力。

第三个，还是最小必要原则。未来可能会根据任务来设计权限，类似一个任务包的概念，只给智能体完成这个任务所需要的最小功能。