竹笋

首页 » 问答 » 问答 » 服务全球百万用户的最佳实践硬件创新经验没
TUhjnbcbe - 2023/1/30 21:35:00

硬件创新有没有经验可循?从亚马逊云科技服务全球百万用户的最佳实践来看,硬件创新经验没有压缩算法,只有从用户中来到用户中去。

作为特别接地气的技术实用主义公司,亚马逊云科技在云计算方面的创新一直没有停止,而创新的动力源泉就是客户的需求,其90%以上的创新都来自于客户的需求反馈,剩下10%是和用户交流过程中亚马逊云科技自己的思考。在今年的亚马逊云科技re:Invent全球大会主题演讲上,亚马逊云科技CEOAdamSelipsky表示:“16年来,亚马逊云科技一直在优化和创新计算、存储和网络基础设施服务,以支持您的所有工作负载。目前亚马逊云科技已有多种不同的计算实例类型,因此您可以找到适合您的所有应用需求的正确资源组合。”

“从客户中来,到客户中去”不只是一句简单的口号,而是亚马逊云科技的持续积累和创新实践。通过硬件创新,不断扩展云计算的边界,用更丰富的云计算服务,赋能客户的上云业务场景。亚马逊云科技为所有客户业务负载,提供全方位的计算能力支持。

服务全球百万用户,依靠亚马逊云科技全球布局的“下一代云基础架构”,将技术积累和技术创新不断转化为云计算底层能力,赋能全球客户。所以,亚马逊云科技在硬件上的创新,才更受万众瞩目。

加速硬件创新,满足客户多样性需求

目前亚马逊云科技已经在Nitro系统的加持下,有超过款计算实例,几乎可以满足一切云上负载的需求。如今每天有超过0万个新的EC2实例在亚马逊云科技上被创建。

自年推出AmazonNitro系统以来,亚马逊云科技已经开发了多个自研芯片,包括五代Nitro系统、致力于为各种工作负载提升性能和优化成本的三代AmazonGraviton芯片、用于加速机器学习推理的两代AmazonInferentia芯片,以及用于加速机器学习训练的AmazonTrainium芯片。

亚马逊云科技在芯片设计和验证的敏捷开发周期中使用基于云的电子设计自动化,这使团队能够更快地创新,更快地将芯片提供给客户。实践证明,亚马逊云科技更现代化、更节能的半导体处理确保了芯片的快速迭代及交付。每推出一款新的芯片,亚马逊云科技都进一步提升了这些芯片支持的AmazonEC2实例的性能、效率以及更优化的成本,为客户提供了更多的芯片和实例组合选择,针对他们独特的工作负载进行了优化。

年11月30日,亚马逊云科技在re:Invent全球大会上宣布,推出新的自研芯片支持的AmazonElasticComputeCloud(AmazonEC2)实例,为客户广泛的工作负载提供更高性价比。

高性能计算方面,硬件产品持续升级

亚马逊云科技在大会上推出了AmazonEC2Hpc7g实例,采用最新款的AmazonGraviton3E处理器,为高性能计算工作负载提供极佳的性价比。新的HPC7g实例类型具有最多64个vCPU和GB内存,主要适用于天气预报、生命科学、工程计算等高性能计算场景。与当前一代C6gn实例相比浮点性能提高了2倍,与当前一代Hpc6a实例相比性能提高了20%,为亚马逊云科技上的高性能计算工作负载提供了超高性价比。

此次发布的AmazonEC2C7gn由AmazonGraviton3E处理器提供支持。配备了新一代AmazonNitro的C7gn实例,具有增强的网络处理能力,是目前AmazonEC2网络优化型实例中,提供最高网络带宽和数据包转发性能的实例。新推出的C7gn实例相比于C7g,为网络密集型工作负载而设计,如数据分析、集群计算作业场景,以及网络虚拟设备等,将支持Gbps的网络带宽,提高50%的数据包处理性能。

机器学习,实例创新从未停止

在机器学习方面,此次也有不少实例创新。在re:Invent中,AmazonEC2P4deinstance全新升级,客户可以将它们部署在大的集群中进行机器学习训练。此次发布了AmazonEC2Inf2实例,采用最新款的AmazonInferentia2机器学习加速推理芯片,是专门为运行多达1,亿个参数的大型深度学习模型而构建的,与当前一代Inf1实例相比可提供高达4倍的吞吐量,降低多达10倍的延迟。

同时,亚马逊云科技还发布了专门用于训练机器学习模型的定制芯片AmazonTrainium,并于年发布了对应的Trn1实例。AmazonTrainium支持TensorFlow、PyTorch和MXNet。Trn1实例支持最多16颗Trainium加速芯片。在Trn1上运行HuggingFaceBERT大模型,其性能对比GPU实例有42%的提升,成本则降低了54%。Trn1第一次把实例的网络带宽提高到了GB。在re:Invent上,面向新的AI训练需求,亚马逊云科技推出了基于Trainium的Trn1n训练芯片,针对网络通信进行优化,增加了1GbpsEFA网络功能,使其能够更快地处理超大规模分布式模型训练场景。

基于Intel芯片,加速优化升级

面对高性能计算场景,亚马逊云科技还基于英特尔芯片做了持续创新,推出AmazonEC2R7iz的预览版,该实例采用第四代英特尔至强可扩展处理器,更好地实现内存优化。第四代至强处理器为EC2?R7iz实例提供最大3.9GHz的全核睿频频率,与其他高频率EC2实例相比,该实例的性能提高20%。R7iz实例基于第四代英特尔可扩展处理器和Amazon?Nitro系统,提供包含专用硬件和轻量级虚拟机管理软件的结合,在性能和安全性上有显著提高。

以HPC客户的需求为例,亚马逊云科技正式发布了用于高性能计算(HPC)的新亚马逊弹性计算云AmazonEC2Hpc6idinstance,基于AmazonNitro系统构建的EC2Hpc6id实例提供Gbps弹性结构适配器网络,用于高吞吐量节点间通信,使客户HPC工作负载能够大规模运行,实现成本优化。Adam表示:“Hpc6id实例旨在为数据、内存密集型HPC工作负载、更高的内存带宽、更快的本地SSD存储和弹性结构适配器增强的网络提供领先的性价比。使用EC2Hpc6id实例,可以降低HPC工作负载的成本,同时利用亚马逊云科技的弹性和可扩展性。”

亚马逊云科技AmazonEC2副总裁DavidBrown表示:“从Graviton到Trainium、Inferentia再到Nitro,亚马逊云科技每一代自研芯片都为客户的各种工作负载提供更高的性能、更优化的成本和更高的能效。我们不断推陈出新让客户获得卓越的性价比,这也一直驱动着我们的持续创新。我们今天推出的AmazonEC2实例为高性能计算、网络密集型工作负载和机器学习推理工作负载提供了显著的性能提升,客户有了更多的实例选择来满足他们的特定需求。”

Graviton全球和中国最佳实践

现在,亚马逊云科技已经在全球百万用户的基础上,汲取了千行百业的客户需求和最佳实践,每一个实例背后都有一个客户应用场景。

Mobiuspace大宇无限是一家提供先进的基于AI的内容发现和娱乐平台公司。最近,Mobiuspace在新的基于AmazonGraviton2的AmazonEC2M6g实例上,测试了其基于Java的容器化后端服务,与M5实例相比,性能提高了40%。由于这种性能改进和AmazonEC2M6g实例价格降低20%,Mobiuspace公司期待着采用它们。

EpicGames成立于年,缔造了《堡垒之夜》、《虚幻》、《战争机器》、《暗影情结》和《无尽之剑》等系列游戏。Epic的虚幻引擎技术为PC、游戏机、移动设备、AR、VR和Web提供高保真的交互体验。“展望未来,我们期待为玩家打造更加身临其境、引人入胜的体验,并且很高兴能够使用基于AmazonGraviton3的EC2C7g实例。我们的测试表明,它们甚至适用于最苛刻的延迟敏感型工作负载,同时能提供显著的性价比优势,并扩展了《堡垒之夜》内的可能性和任何虚幻引擎营造的体验。”MarkImbriaco,EpicGames高级工程总监说到。

Formula1(F1)赛车始于年,是世界上最负盛名的赛车比赛,也是世界上最受欢迎的年度体育系列。“基于Graviton2的C6gn实例为我们的一些CFD工作负载提供了最佳性价比。我们现在发现,在相同的模拟中,Graviton3C7g实例比Graviton2C6gn实例快40%。我们很高兴EFA将成为此实例类型的标准,并鉴于性价比的大幅提升,我们预计基于Graviton3的实例将成为运行我们所有CFD工作负载的最佳选择。”PatSymonds,Formula1Management的首席技术官说道。

00:30

开启增长飞轮,引发更多云计算思考

从6年起,亚马逊云科技宣布降价次。表面的是价格的降低,但更多的是亚马逊云科技将规模与技术的红利反馈给客户。这是亚马逊云科技无法模仿的增长飞轮,而跟随者的飞轮需要额外推力才能保持运转。

亚马逊云科技从不在高性能、高安全性和低成本这三方面进行妥协,在选择悖论中,亚马逊云科技给出的答案是:通过自身技术的不断演进和创新,让云计算可以兼顾高性能、高安全性和低成本。

作为全球排名第一的云计算平台,亚马逊云科技通过支持丰富的客户应用场景的经验反馈,更推进了亚马逊云科技的芯片创新之路,这是无法比拟的,同时资源的投入,及用户规模的增长,亚马逊云科技的云计算之路已越走越快,越走越宽。

1
查看完整版本: 服务全球百万用户的最佳实践硬件创新经验没