首页 > 科技 > 正文

端侧AI加速落地 Arm如何出招?

2025-05-30 05:00:00 21世纪经济报道 骆轶琪

作为AI Agent元年,今年不仅为大模型厂商带来商业化空间,也为身处上游的芯片企业打开新机会。

近日,Arm高级副总裁兼终端事业部总经理Chris Bergey在接受21世纪经济报道等记者采访时指出,AI模型正变得更加智能,同时规模变得更小、能力却更强。这是因为所需计算量的变化以及模型本身的演进,正在推动端侧AI发展。这一趋势已经远远超出智能手机的范畴。

“我们开始看到AI智能体的出现,以及由实体AI衍生的新机遇。”他进一步指出,AI智能体方面,有两个颇受关注的领域:利用AI进行编程、代码审查和修改;利用AI提升客户支持与客户服务。

他举例道,实体AI比如机器人技术,虽然目前还没达到与人类操作水平相当的智能水平,但在接下来的一到三年内,当自主模式运行时,机器狗、配送机器人等智能设备有望能够媲美人类的操作,这将带来巨大机遇。

在此背景下,记者观察发现,端侧AI正在加速向更大众化的市场辐射下沉。这也意味着,对数据中心、云计算的需求将激增,如何更好抢占正持续扩大的端云协同AI芯片市场,正成为当前的重要命题。

图片来源:IC photo

端侧智能扩散

在本轮AI浪潮下,Chris Bergey指出,构建AI系统的基础要素有三个关键。首先,从云端到边缘打造一个无处不在的平台将具有极大价值。因为很多时候AI在端侧运行,但某些情况下,又希望能将工作负载转移到云端。因此,拥有一个高度且可移植的平台,对于推动先进技术及产品的实现,同时为现有产品增加新功能,都非常有价值。

第二是电力和每瓦性能。AI催生了巨大机遇,但同时也极为耗电。已经看到数据中心的能耗从兆瓦级(MW)跃升至吉瓦(GW)级,其中超过50%实际上来自于机架和半导体设备。这意味着“每瓦性能”可能是最关键的衡量指标。

此外,虽然为AI构建硬件颇具挑战性,但软件同样至关重要。于是在2024年,Arm推出了AI软件库Arm Kleidi。

Chris Bergey告诉21世纪经济报道记者,AI能力的确将持续提升,这对Arm而言意味着更大机遇。

他分析道,当前很多讨论都集中在模型的构建和训练上。但现实情况是,在构建好模型后,推理才是实现AI商业价值的唯一方式。因为正是推理赋予了AI智能性,例如可以让机器人做出正确决策、让手机比预想得更智能。

“事实上,训练当今世界上最大规模模型所需的计算量,大约是推理所需10的11次方倍。举例来说,全球每天的网页搜索次数大约是10的10次方。也就是,需要把全球十天内的所有搜索量加起来,才能抵得上训练一个这样模型所需的计算量。由此可以想象,我们需要运行多少推理,才能让投入训练的计算资源实现商业回报。”Chris Bergey续称。

同时,厂商持续将大模型能力,推进到更低价位段的手机产品中。

Chris Bergey对记者指出,AI会越来越多地应用到入门级手机产品中,原因包括:第一,AI在Arm CPU和GPU上都能很好地运行,而这些硬件覆盖了各个价格区间;第二,AI将为这些用户带来巨大的价值,设想在新兴市场,一部能运行大语言模型(LLM)的手机,将能让从未接触过专家指导的人群获得教育机会,这将带来巨大经济潜力,不仅有助于抵消本地部署AI的成本,还会激发用户对更强大AI的需求。

但是,随着AI趋势逐渐演进叠加摩尔定律走向放缓,芯片设计也面临更多困难。

Chris Bergey分析道,Arm的大部分业务实际上是向整个行业提供标准化产品和平台解决方案,比如标准化IP模块,这些模块被集成到各种不同的SoC中,应用于各个细分市场。

“当前,随着AI快速演进,芯片设计变得越来越具有技术挑战性,成本也越来越高;产品的上市时间变得愈发关键,其重要性甚至与技术本身相当。此外,由于摩尔定律放缓,设计过程中对工艺的定制化需求也持续增长。这也是Arm推出计算子系统(CSS)的原因之一。通过CSS,我们为从云端、汽车到终端等不同细分市场的合作伙伴提供计算子系统,帮助合作伙伴有效提升性能、降低成本,并加快产品上市周期。”不过他强调,CSS仍然是标准化产品,而非定制化业务。Arm的主要业务仍然是提供标准化平台解决方案。

他还提前透露,Arm将在今年晚些时候推出新的Armv9旗舰CPU(代号Travis)。届时,在目前业内IPC(每时钟周期指令数)性能最高的Arm处理器基础上,再次实现两位数IPC性能提升。

“我们曾强调,Cortex-X925具备业内最高水平的IPC性能。这至关重要,因为IPC与频率的乘积决定了整个平台的性能。相较于单纯依赖提高频率来提升性能,提升IPC可以更高效地实现性能增强,同时还能显著改善能耗表现。”Chris Bergey指出,不久将推出的新品,将是第一代引入Armv9可伸缩矩阵扩展(Scalable Matrix Extension)的处理器。

该扩展功能是专门为加速AI工作负载设计,并将成为安卓生态系统中最先进的可伸缩矩阵扩展实现。“Arm在GPU方面也持续进行大量投入,今年我们在此基础上加入了Arm精锐超级分辨率技术(Arm ASR),使用户能够在移动设备上实现游戏主机级画质和游戏体验。”Chris Bergey表示。

冲刺数据中心

不止边缘端AI快速下沉带来更多机会,在数据中心端,Arm也在积极参与竞争,以争夺更大市场份额。

从传统视角看,数据中心市场长期以来都是x86架构占据绝对主导地位,Arm如何快速抢占份额备受关注。

Chris Bergey受访时坦言,数据中心和PC此前是Arm架构普及程度相对较低的领域。“x86架构过去长期在数据中心市场占主导地位,如今我们预测在2025年,出货到头部超大规模云服务提供商的算力中,有近50%是基于Arm架构。推动这一增长的,正是云计算的发展,如今AI计算也成为强劲驱动力。”

他续称,Arm架构在PC与平板市场的需求也在大幅成长,预估2025年将占整体出货量的40%以上。

“Arm的真正优势在于,我们在全球范围内有超2200万名软件开发者。几乎所有重要的软件开发不仅能在Arm架构上运行,而且都针对Arm架构进行了优化。再加上Arm架构本身的设计及商业模式,开发者仅需一次开发,就能在整个半导体生态系统中众多采用ArmCPU的SoC上运行。”Chris Bergey如此分析。

对于这一推进进程,Chris Bergey指出,最初,云服务提供商自身的第一方工作负载迁移至Arm平台,随后,第三方工作负载也纷纷转向Arm平台,这为头部云服务提供商带来了超过40%的能效提升。

他举例道,全球最大的云服务提供商亚马逊云科技(AWS)去年秋季就曾分享,他们有相当一部分自身的工作负载是运行在基于Arm架构的AWS Graviton处理器上。过去两年,AWS新部署的CPU算力中,有超过50%是基于Arm技术的Graviton。

与此同时,数据中心的发展正逐步从通用计算向AI计算转型。

“领先的AI平台也正基于Arm架构优化。”Chris Bergey表示,比如NVIDIA Grace Blackwell和Vera Rubin以及许多云服务提供商的自研加速器。这些加速器无论是用于训练还是推理,通常都会与Arm处理器配合使用,因为在芯粒层级,它们之间可以实现紧密耦合,从而带来更好的计算密度、I/O密度和带宽表现。

21财经客户端下载

<--统计调用-->