作者:孙妍 来源:IT时报
【资料图】
横空出世的ChatGPT,在全球掀起生成式人工智能热潮,“大模型+大算力”让AI实现范式突破,也让算力成为抢手资源。而在算力的背后,是数据中心和“电老虎”的竞赛。
5月29日,在COMPUTEX2023(中国台北国际计算机展)上,IT解决方案提供商Supermicro提出了两个关键词:加速和降耗。Supermicro采用Server Building Block Solutions服务器构建方法,整合Intel、AMD和NVIDIA的最新CPU及GPU技术,设计和制造服务器和存储系统,以应对AI、云计算、5G以及从数据中心到边缘计算的大量需求。
“我们的机架级液冷方案可以将数据中心的电力支出降低40%,并能加快上市时间,每月向全球发运4000机架,预计到年底将提高到5000以上。” Supermicro总裁兼首席执行官梁见后(Charles Liang)表示。
Supermicro已有产品组合可为人工智能工作负载和其他垂直领域提供支持。基于第四代Intel Xeon可扩展处理器和第四代AMD EPYC 处理器的单插槽和双插槽机架安装系统,提供1U、2U、4U、5U和8U规格,并支持1到10 GPU。此外还包括在8U机箱中支持20个NVIDIA H100 GPU的密度优化型SuperBlade系统,以及专门针对物联网和边缘环境设计的SuperEdge系统。最新发布的E3.S Petascale存储系统在利用超大规模的人工智能数据集进行训练时,其性能、容量、吞吐量、耐用性以及能效表现都较好。
在英伟达发布超大规模生成式AI加速平台这一算力“杀器”的同一时间,Supermicro宣布,基于NVIDIA Grace CPU超级芯片的新产品系列将很快上市。这些新服务器均包含144个核心,双CPU及900 GB/s 一致性接口,可运行高响应度的人工智能应用程序和需要极低延迟响应的应用程序。此外,CPU以500W TDP的速度运行,该系统将为云原生工作负载和下一代人工智能应用降低能耗。
NVIDIA超大规模和高性能计算副总裁Ian Buck表示:“面对严苛的客户需求,NVIDIA与Supermicro快速为新的服务器设计带来创新。随着Supermicro采用Grace CPU 超级芯片的服务器上市在即,以及H100 GPU在全球范围的使用普及,我们正在共同努力,将人工智能带到广泛的市场和应用中。”
生成式AI给算力带来了巨大的挑战,Supermicro的应对方案是GPU服务器集成双CPU和多达8个NVIDIA HGX H100 GPU,并用液体冷却降低运营成本。此外,Supermicro正在支持新的NVIDIA MGX参考架构,该架构将为一系列人工智能、高性能计算和Omniverse应用提供超过100种服务器配置。这种模块化的参考架构包括CPU、GPU和DPU,适用于多代处理器。
Supermicro还将在广泛的解决方案中纳入最新的NVIDIA Spectrum-X网络平台。该平台是第一个专门为提高基于以太网的AI云的性能和效率而设计的平台。Spectrum-X建立在由NVIDIA Spectrum-4以太网交换机与NVIDIA BlueField-3数据处理单元(DPU)紧密耦合的网络创新之上。这项突破性技术实现了1.7倍的整体人工智能性能和能源效率提升,同时在多租户环境中实现了一致、可预测的性能。
目前,数据中心消耗的电力占到了全球电力需求的1%至1.5%,因此绿色计算对于数据中心至关重要。Supermicro机架级液冷解决方案可以大幅降低对传统冷却方法的需求。通过冗余和热插拔电源和泵,机架上的所有高性能AI和HPC优化服务器都能够得到有效冷却,不用担心电源或泵发生任何故障。该解决方案还为CPU和GPU量身定制了水冷板,相较于传统设计能够更有效地去除热量。如果数据中心利用Supermicro技术将其PUE降低至近1.0,能节省高达100亿美元的能源成本,相当于减少建造30座化石燃料发电厂。
机架级集成是数据中心运营商所需的另一项核心竞争力。要想给生产效率加速,就必须将随时可用的全部机架及时交付给数据中心。Supermicro的 L11和L12服务器集群已通过全面测试并且进行适当配置,可以在必要时实现大规模液体冷却。