今天下午,一年一度的ArmTechSymposia年度技术大会在深圳圆满结束。
Arm在本次大会上深入探讨了AI对计算的需求,并分享了如何通过硬件、软件、生态系统三大核心更好地把握AI的发展机遇,在场与会者也共同探讨了基于Arm的技术创新和AI发展趋势。
Arm终端事业部产品管理副总裁JamesMcNiven在深圳场的大会主题演讲中强调,Armv9作为Arm最新的技术架构,推出伊始便是为支撑AI计算而设计,并持续迭代更新,通过SVE、SVE2、SME等关键技术,Arm以架构创新和强大的软硬件协同能力不断优化移动端AI体验,赋能开发者实现卓越的AI性能。
它实现了与主流AI框架的深度集成,能够为开发者提供丝滑的开发体验;当与ArmCSS搭配使用时,KleidiAI通过整合Neon
、SVE2和SME2等一系列Arm加速技术,从而显著提升计算应用的性能表现。
据悉,KleidiAI是一套专门面向AI框架开发者的高性能计算内核。
它能够帮助开发者在各种设备上轻松发挥ArmCPU上的最佳性能,并充分利用Neon、SVE2和SME2等关键Arm架构的核心特性。
此外,KleidiAI还集成了PyTorch、Tensorflow、MediaPipe等热门AI框架,对MetaLlama3、Phi-3等模型进行了性能优化,并且还采用了可前后兼容的设计。
这样做的好处是,确保Arm未来在引入更多技术时依然能适用未来市场的需求。
据介绍,KleidiAI的集成显著提升了生成式AI的工作效率。
数据显示,与参考实现方案(基于,但不含Kleidi软件优化)相比,在新的ArmCortex-X925CPU上,使用(集成了KleidiAI的)的MetaLlama3和微软Phi-3大语言模型(LLM)的词元(Token)首次响应时间加快了190%。
KleidiAI的另一大优势在于易于集成。
据悉,Arm的工程团队只用不到24小时就完成了Llama3的性能优化测试。
此外,KleidiAI还通过XNNPACK与MediaPipe集成,为在移动设备上运行的开源GemmaLLM提供支持。得益于此,GooglePixel8Pro智能手机上Gemma2B的词元首次响应时间缩短了25%。
与此同时,Arm还与Unity合作开发端侧AI推理引擎——Sentis,可让游戏开发者在所有支持Unity游戏引擎的设备上打造全新的AI游戏体验。
另外,作为迄今速度最快的Arm计算平台,Arm终端CSS在计算和图形性能方面实现了超过30%的提升,足以应对各类严苛的Android工作负载。
与此同时,Arm终端CSS也提高了59%的AI推理速度,适用于更广泛的AI/机器学习(ML)和计算视觉工作负载。
Arm终端CSS的核心优势在于其搭载了Arm迄今性能最强、效率最高、功能最全面的CPU集群,致力于实现性能与能效的最佳平衡。
而凭借新一代ArmCortex®-XCPU,AI优化的Arm终端CSS带来最高的IPC同比提升,性能提高36%;新的ArmImmortalis
GPU的图形性能提高37%。
ArmImmortalis-G925GPU是Arm性能最强、效率最高的GPU,在多款手游应用中实现了37%的性能提升,并在多个AI和ML网络上提升了34%的性能。

Immortalis-G925主要面向旗舰智能手机市场。
而包括ArmMali
-G725和Mali-G625GPU在内的全新高可扩展性GPU系列,则面向从高端手机到智能手表和XR可穿戴设备等广泛的消费电子设备市场。
Arm预计到2025年底,全球将有超过1000亿台具备AI能力的Arm设备。
从传感器、智能手机,到工业物联网、汽车和数据中心,就像建造摩天大楼需要坚实的地基,AI技术的蓬勃发展也离不开强大而高效的计算平台作为支撑。
凭借在芯片架构与技术创新上的不懈努力,Arm正在为这座「AI摩天大楼」打造最可靠的基石,也将在这场技术变革中扮演愈发关键的角色。
爱范儿|原文链接··新浪微博
