首页 导报现场 正文

亚马逊云科技打造AI定制版IaaS“样板房”,兼顾强大、高效与安全

2025-03-27 17:47 中国发展网 成静
亚马逊云科技 IDC

摘要:日前,在全球市场分析机构国际数据公司(IDC)发布的《2025年IDC MarketScape:全球公有云基础设施即服务(IaaS)报告》中,亚马逊云科技被评为“领导者”,在能力和战略的双维度上均为“领导者”。

中国发展网讯 记者成静报道 日前,在全球市场分析机构国际数据公司(IDC)发布的《2025年IDC MarketScape:全球公有云基础设施即服务(IaaS)报告》中,亚马逊云科技被评为“领导者”,在能力和战略的双维度上均为“领导者”。IDC在该报告中表示,全球公有云IaaS继续快速增长,预计2025年的整体规模将达到1880亿美元。

IDC在该报告中指出,AI正在通过多种方式重塑云基础设施。AI带动了对GPU、TPU和FPGA等专用硬件的大量投资;改善了自动化基础设施管理的运营效率和成本;推动了安全升级,企业需要以AI驱动型安全工具来响应日益复杂的威胁;提供需求预测以优化资源分配;推动开发AI驱动的服务与应用等。报告中,IDC为技术买家提供一系列的建议,其中重点提及了部署决策的原则、AI功能的集成度以及系统可观测性相关的安全性:工作负载部署决策不能仅局限于成本考量,服务集成度、供应商服务的广度,以及对互操作性和开放标准的支持力度,均至关重要;将AI功能集成到云基础设施中也越来越成为一个关键的差异化因素;建议优先选择具备强大开箱即用安全功能,且对系统可观测性有全面方案的供应商。

据了解,亚马逊云科技自2006年成立以来,在基础设施覆盖的范围、以及IaaS领域涵盖的核心服务如计算、网络、安全等多个方面进行持续扩展及创新。特别是在AI领域,亚马逊首席执行官Andy Jassy在2025年2月的第四季度财报电话会议中表示,亚马逊在2025年的资本投资预计达1000亿美元,其中大部分将用于亚马逊云科技AI基础设施的建设等。具体表现在四个方面:

——亚马逊云科技的基础设施遍及36个地理区域的114个可用区,并已公布计划在新西兰和沙特阿拉伯等新建4个区域、12个可用区。同时,为了支持AI创新并满足客户不断变化的需求,亚马逊云科技持续推动数据中心本身的创新,包括简化电气和机械设计,在冷却、机架设计和控制系统进行创新。Anthropic计算部门杰出工程师James Bradbury表示:“亚马逊云科技的设计改进显著提升了基础设施的安全性、可扩展性和效率,为AI模型的运行和创新提供了强有力的支撑。”

——作为全球云计算的开创者和引领者,亚马逊云科技是率先进入自研芯片领域的云供应商。革命性的Nitro虚拟化平台全面加速了亚马逊云科技在自研芯片领域的创新速度。迄今为止,亚马逊云科技已推出了多个系列的自研芯片,包括Amazon Nitro系统、通用处理器芯片Amazon Graviton、机器学习训练芯片Amazon Trainium和推理芯片Amazon Inferentia,同时保持稳定的更新频率,且每次更新均提供两位数以上的百分比的性价比提升。在2024年的re:Invent上,亚马逊云科技推出全面升级的Amazon Trainium2芯片,以及基于该芯片的Amazon EC2 Trn2实例和超级服务器。Amazon EC2 Trn2实例与当前基于GPU的EC2 P5e和P5en实例相比,Amazon EC2 Trn2实例的性价比提升30-40%。单实例配备16个Trainium2芯片,可提供高达20.8 Petaflops浮点算力的性能,非常适合训练和推理高达数十亿参数的大型语言模型。

Amazon EC2 Trn2 UltraServers服务器是亚马逊云科技在纵向扩展领域的又一次突破,用以满足大规模生成式AI训练和实时推理的性能需求。此外,亚马逊云科技发布了新一代AI训练芯片Amazon Trainium3。Trainium3是亚马逊云科技首款采用3纳米工艺制造的芯片。搭载Trainium3的UltraServers性能预计将是Trn2 UltraServers的4倍。首批基于Trainium3的实例预计将在2025年末上线。

——亚马逊云科技在2024年re:Invent上推出了第二代UltraCluster网络架构,也称为"10p10u"网络,支持超过20,000个GPU协同工作,带宽达10Pb/s,延迟低于10μs(微秒),这一突破性的性能跃迁将模型训练时间缩短至少15%。同时还推出了兼具中央控制和优化及分布式的速度和弹性的SIDR(Scalable, Intent Driven Routing)全新网络路由协议。相比传统的BGP、OSPF等协议,SIDR在亚马逊云科技的10p10u网络中能在不到1秒内恢复网络,速度比传统方法快10倍,显著提升了分布式AI训练中的可靠性和实时性,确保网络在故障发生时也能保持高效运行。10p10u是亚马逊云科技有史以来扩展最快的网络,在2024年,安装了超过300万条链路。

——亚马逊云科技认为“安全是设计出来的”,无论是基础设施还是服务,从设计之初就应该将安全作为首要任务,并嵌入到从架构到操作的各个环节,从而为客户提供灵活、安全的云计算环境。亚马逊云科技还不断使用创新技术提升基础设施的安全性,例如亚马逊云科技通过自动推理技术实现以可验证的方式提升系统的可观测性,为关键系统按预期运行提供了严格的数学保证。正如亚马逊云科技CEO Matt Garman所说:“万事皆以安全性为起始。在亚马逊云科技,安全性是众多客户放心将云工作负载托付给我们的原因之一。它是所有服务构建所依托的核心基础层。”

正如IDC在报告中提到:“亚马逊云科技在服务范围方面无可匹敌,其众多服务通常会在其盛大的年度re:Invent大会上发布。丰富的服务种类使亚马逊云科技对需要专业能力、混合基础设施或高度可扩展应用程序的企业具有吸引力。”“当需要最广泛的云服务组合以及经过验证的可扩展性和创新能力时,可以考虑亚马逊云科技。”

IDC分析师、报告作者Dave McCarthy表示:“亚马逊云科技通过广泛的服务组合和持续的创新,在公有云IaaS市场中处于领导地位。广泛的全球基础设施,结合Amazon Graviton等定制芯片计划以及在AI领域的重大投资,使其在满足企业需求方面独具优势。其在可扩展性方面的卓越表现、成熟的开发者社区以及对AI基础设施的积极投入,使其成为需要先进云能力的企业的首选。”

责任编辑:成静


返回首页
相关新闻
返回顶部