生成式AI驱动数据计算加速演进,Arm提出系列解决方案
21世纪经济报道记者骆轶琪 深圳报道
随着AI近两年来的快速发展,人们对于数据传输速率的要求日益高企,由此也对芯片架构和生态灵活性提出更多挑战。
近日,Arm高级副总裁兼基础设施事业部总经理Mohamed Awad表示,通过提供Arm全面计算解决方案 (Arm Total Compute Solutions)、Arm Neoverse平台、Arm Corstone、SOAFEE等,Arm在包括移动、基础设施、物联网与汽车等目标应用市场,正在向生态伙伴提供一个完整、集成的解决方案。“希望合作伙伴能选择适合自身的方式进行产品开发――我们既可以为合作伙伴提供一个完整的解决方案;他们也可以选用个别Arm IP,根据需求自由选择。”
(Arm高级副总裁兼基础设施事业部总经理Mohamed Awad,图源:受访者提供)
他表示,中国是Arm重要的市场之一。来自中国市场的创新也是Arm不断发展,并在业务上取得成功的原因之一。如今,中国合作伙伴基于Arm架构芯片的总出货量已累计达300亿颗。“目前我们在中国有近400家技术授权客户,我们也一直通过与安谋科技合作以进一步助力本土合作伙伴。”
架构新挑战
Mohamed Awad分析道,传统的服务器系统架构,是由内存连接到一个通用的现成CPU,该CPU又负责管理多个加速器。这是过去市场上唯一可用的架构。
(传统服务器系统架构,图源:21世纪经济报道记者拍摄)
“但问题在于这个通用的现成CPU和加速器之间的接口直接限制了产品最终性能水平,因为所有加速器都必须要通过一个通用的现成CPU访问额外内存,这样就无法达到内存一致性,也就意味着加速器的性能无法被充分利用,也无法很好支持生成式AI时代的需求。”他分析道。
因此出现一种现代化系统架构:每颗CPU都可以单独和一个加速器相连,由此可实现较强的内存一致性。“这种新型架构的关键在于,设计方可以根据用户实际场景和用例进行CPU定制化设计,如此一来,便能提高加速器的使用效率。这种架构设计,才能更好支持未来基础设施的市场需求,包括生成式AI。”他续称。
(现代化系统架构,图源:21世纪经济报道记者拍摄)
但这种架构并不是Arm的构想,正是NVIDIA(英伟达)GH200 Grace Hopper超级芯片所使用的架构。在该架构中,72颗Arm Neoverse核心,加上来自NVIDIA的GPU组合,其AI性能较基于x86架构的系统可提升10倍。
国内已经有大量采用Arm Neoverse的应用案例。阿里巴巴倚天710就是基于Arm Neoverse平台打造的CPU;鸿钧微电子、遇贤微电子、云豹智能则根据需要基于Arm Neoverse平台打造相应SoC或DPU解决方案;联想更多是将基于Arm架构的解决方案部署到5G领域。
Arm中国区业务全球副总裁邹挺介绍道,Arm Neoverse在中国市场,特别是基础设施领域有很多客户。过去三、四年中,整个Neoverse在中国的发展非常强劲。同时Arm也积极参与数据中心、云计算等本土生态、开源软件社区,包括龙蜥社区等,希望帮助这些社区更好融入Arm全球生态系统中。
Mohamed Awad在受访时表示,现在判断一个CPU对一个GPU作为加速器,是不是未来主趋势或唯一趋势,仍为时尚早。“但我认为会发生的是,鉴于我们正处于计算加速时代,在未来架构中,任何通用CPU旁,一定会有一个加速器。不管是通过紧密耦合、中度耦合或中散耦合的方式(进行连接)。但具体这个加速器是什么样、采用什么架构,目前业界也在不断探索中。”
更重要的是,该CPU是定制,跟加速器实现一对一组合后,整体链路及数据吞吐率会达到最高,以提高加速器本身的利用水平。
“Arm的独特之处在于,能够帮助合作伙伴从头开始、根据所需构建定制化CPU,并做好CPU和加速器之间的连接。此外我们庞大丰富的软件生态系统,可以赋能整个开发,加速产品上市进程。”他指出。
应对定制化
生成式AI为半导体厂商进一步打开发展空间,当然更多样化的市场落地需求,也对相关芯片产品的灵活性提出更高要求。
Mohamed Awad指出,为了缓解未来基础设施的压力,行业需要依赖强大的软件生态系统,在高效、可扩展的多核计算基础上,打造专用处理能力。为此,当下的基础设施建设已逐渐趋向定制化。“我们赋予合作伙伴将有限的资源专注在关键差异化的能力,Arm也继续在提供可扩展且高效的计算基础。”
今年8月,Arm推出Arm Neoverse CSS(计算子系统),该产品预集成了Arm Neoverse平台,并完成验证配置,可降低开发成本并加速产品上市进程。
合作伙伴反馈,通过使用Neoverse CSS,节省了80人/年的工程师时间;也有反馈称,Neoverse CSS助力他们的项目从概念到流片仅耗时13个月。
在Neoverse CSS基础上,其又提出Arm全面设计 (Arm Total Design)生态项目,旨在进一步结合生态系统的力量,简化定制化芯片的开发流程,让交付变得更加容易、便捷,从而让基于Arm Neoverse的专用解决方案能覆盖AI、云、网络、边缘等各种基础设施领域。
“人工智能时代已经到来,AI的关键在于硬件和软件紧密集成,以及性能和计算能力提升。当今70%的机器学习工作负载运行在Arm平台上。”Mohamed Awad指出,Arm为移动平台所提供的Arm全面计算解决方案,能够赋能移动设备上AI的实现,推出的Arm Cortex-M52、Cortex-M55,都是针对物联网所推出支持AI的产品。
他强调,Arm希望从更加广义的角度界定AI。传统意义上提到的AI主要指服务器中的AI或生成式AI,但AI其实还可以存在于边缘、网络中。即从传统数据端,到存储、服务器等,AI将融入每一个过程中。
Mohamed Awad介绍,Arm Neoverse平台用例增长迅速。目前全球主要公有云厂商都在提供基于Neoverse的云实例,“我们很多合作伙伴将会在2024年将第一代CSS设计投入生产,微软Cobalt 100在2023年就已经实现。”