21对话|联汇科技CEO赵天成:具身智能演进方向的“非常答”
21世纪经济报道记者 陈归辞 上海报道
7月26日-28日,2025世界人工智能大会(下称“WAIC”)在上海举行。联汇科技CEO兼首席科学家赵天成接受了21世纪经济报道记者的采访。
赵天成表示,今年WAIC异常火爆,一票难求。这是其公司连续第三年参展,明显感受到行业周期的变化:2023年最热门的是大模型,2024年是机器人,今年则是进入技术融合后百花齐放的AI落地应用。
赵天成表示,具身智能是今年最大的热点之一,也是联汇科技的核心方向。联汇科技是全国最早研发多模态模型的企业,2022年就获得了工信部大模型检测的001号证书。多模态模型最好的应用场景是去赋能智能终端,让这些智能硬件、智能机器人变得具有自主意识、能够完成任务。“当前看到多模态模型越来越强了之后,我真的觉得具身智能可以从实验室走向真正在物理世界里去帮我们完成各种任务。”
日前,联汇科技发布了全球首个“万物具身”智能体平台OmAgent。赵天成解释道,不同于Manus、豆包等聚焦数字空间的智能体,OmAgent面向物理世界,可以控制无人机、机器人等硬件载体。该智能体具备两大能力:一是基于纯视觉,通过空间感知知道周围发生了什么事情,二是根据任务决策做什么,比如该如何移动、操作、说话等。
OmAgent的核心技术是联汇科技的多模态模型,目前该模型已经从2021年的第一代迭代至第五代,迭代速度约为一年一迭代。当前其强调以智能终端为核心,具备三个特点:一是实时性要求高,二是低幻觉、高准确率,三是做深度的视觉系统,能够不仅仅理解表面的意义,还可以根据任务去做深度的视觉思考。
关于具身智能从当前 L2 阶段向 L3、L4 阶段演进的方向,赵天成表达了自己一个“非常规”的观点,他认为,具身不一定是人形的,任何有智能、有硬件载体的,只要有具体身体,都属于具身智能。不同的载体的发展阶段是不同的,人形机器人目前可能属于L1、L2阶段,更成熟的本体如四足狗可能已经进入L3阶段,再成熟些的如摄像头、无人机可能已经到L3、L4阶段了。所以,具身智能的落地会分智能载体的成熟度、分阶段、分批次地去落地。
联汇科技是一家杭州公司,近期,其将国际总部落户上海张江。赵天成表示,选择浦东张江,一是看重它是大量智能终端与具身机器人的聚集地,能对接到更多供应链企业;二是看重丰富的应用场景,无论是物流、码头还是工业制造等领域,都存在大量大的场景,为物理AI发挥其能力提供了绝佳的场景。