英伟达GH200超级芯片首秀MLPerf v3.1，性能跃升17%

发布日期：2023/9/12 16:49:07 访问次数：512

传说中的英伟达GH200在MLPerf 3.1中冷艳亮相，功能间接碾压H100，抢先了17%。继4月份参加LLM训练测试后，MLPerf再次迎来重磅更新！刚刚，MLCommons发布了MLPerf v3.1版本更新，并参加了两个全新基准：LLM推理测试MLPerf Inference v3.1，以及存储功能测试MLPerf Storage v0.5。而这，这也是英伟达GH200测试成果的初次亮相！相比于单张H100配合英特尔CPU，GH200的Grace CPU+H100 GPU的组合，在各个项目上都有15%左右的提升。英伟达GH200超级芯片首秀毫无疑问，英伟达的GPU在MLPerf Inference 3.1基准测试中表现是最亮眼的。其中，最新发布的GH200 Grace Hopper超级芯片，也是初次在MLPerf Inference 3.1上亮相。Grace Hopper超级芯片将英伟达的Grace CPU与H100 GPU集成在一同，经过超高的带宽衔接，从而比单个H100配合其他的CPU能提供更强的功能表现。「Grace Hopper初次展现了十分微弱的功能，与我们的H100 GPU提交相比，功能进步了17%，我们曾经片面抢先，」英伟达人工智能总监Dave Salvator在旧事发布会上表示。功能大幅增长详细来说，它将一个H100 GPU和Grace CPU集成在一同，经过900GB/s的NVLink-C2C衔接。而CPU和GPU辨别装备了480GB的LPDDR5X内存和96GB的HBM3或许144GB的HBM3e的内存，集成了高达576GB以上的高速拜访内存。英伟达GH200 Grace Hopper超级芯片专爲计算密集型打工负载而设计，可以满足各种严苛的要求和各项功用。比方训练和运转数万亿参数的大型Transformer模型，或许是运转具无数TB大小的嵌入表的引荐零碎和向量数据库。GH200 Grace Hopper超级芯片还在MLPerf Inference测试中有着十分优异的表现，刷新了英伟达单个H100 SXM在每个项目中创下的最佳成果。NVIDIA Grace Hopper MLPerf Inference数据中心功能与DGX H100 SXM的比照后果，每个数值都是GH200的功能抢先幅度GH200 Grace Hopper超级芯片集成了96 GB的HBM3，并提供高达4 TB/s的HBM3内存带宽，而H100 SXM辨别爲80 GB和3.35 TB/s。与H100 SXM相比，更大的内存容量和更大的内存带宽使得在NVIDIA GH200 Grace Hopper超级芯片上运用更大的批处置大小来处置打工负载。例如，在效劳器场景中，RetinaNet和DLRMv2的批处置大小都添加了一倍，在离线场景中，批处置大小添加了50%。GH200 Grace Hopper超级芯片在Hopper GPU和Grace CPU之间的高带宽NVLink-C2C衔接可以完成CPU和GPU之间的疾速通讯，从而有助于进步功能。例如，在MLPerf DLRMv2中，在H100 SXM上经过PCIe传输一批张量（Tensor）大约需求22%的批处置推理工夫。运用了NVLink-C2C的GH200 Grace Hopper超级芯片仅运用3%的推理工夫就完成了相反的传输。由于具有更高的内存带宽和更大的内存容量，与MLPerf Inference v3.1的H100 GPU相比，Grace Hopper超级芯片的单芯片功能劣势高达17%。推理和训练片面抢先在MLPerf的首秀中，GH200 Grace Hopper Superchip在封锁类别（Closed Division）的一切打工负载和场景上都表现出杰出的功能。而在主流的效劳器使用中，L4 GPU可以提供一个低功耗，紧凑型的算力处理方案，与CPU处理方案相比的功能也有了大幅的提升。Salvator表示，「与测试中很好的x86 CPU相比，L4的功能也十分微弱，进步了6倍」。关于其他的AI使用和机器人使用，Jetson AGX Orin和Jetson Orin NX模块完成了出色的功能。将来的软件优化有助于进一步释放弱小的英伟达Orin SoC在这些模块中的潜力。在目前十分盛行的目的检测AI网络——RetinaNet上，英伟达的商品的功能进步了高达84%。英伟达开放局部（Open Division）的后果，展现了经过模型优化可以在坚持极高精度的同时大幅进步推理功能的潜力。全新MLPerf 3.1基准测试当然，这并不是MLCommons第一次尝试对大言语模型的功能停止基准测试。早在往年6月，MLPerf v3.0就初次参加了LLM训练的基准测试。不过，LLM的训练和推理义务，区别很大。推理打工负载对计算要求高，而且品种单一，这就要求平台可以疾速处置各品种型的数据预测，并能在各种AI模型上停止推理。关于希望部署AI零碎的公司来说，需求一种办法来客观评价根底设备在各种打工负载、环境和部署场景中的功能。所以关于训练和推理的基准测试都是很重要的。MLPerf Inference v3.1包括了两项重要更新，来更好地反映如今AI实践的运用状况：首先，添加了基于GPT-J的大型言语模型 (LLM)推理的测试。GPT-J是一个开源的6B参数LLM，对CNN/每日邮报数据集停止文本总结。除了GPT-J之外，这次还更新了DLRM测试。针对MLPerf Training v3.0中引入的DLRM，采用了新的模型架构和更大的数据集，更好地反映了引荐零碎的规模和复杂性。MLCommons开创人兼执行董事David Kanter表示，训练基准侧重于更大规模的根底模型，而推理基准执行的实践义务，则代表了更普遍的用例，大局部组织都可以停止部署。在这方面，爲了可以对各种推理平台和用例停止有代表性的测试，MLPerf定义了四种不同的场景。每个基准都由数据集和质量目的定义。每个基准都需求以下场景：在MLPerf v3.1基准测试中，有超越13,500个后果，其中不少提交者的功能比3.0基准进步了20%，甚至更多。其他提交者包括华硕，Azure，cTuning，Connect Tech，戴尔，富士通，Giga Computing，谷歌，H3C，HPE，IEI，英特尔，Intel Habana Labs，Krai，联想，墨芯，Neural Magic，Nutanix，甲骨文，高通，Quanta Cloud Technology，SiMA，Supermicro，TTA和xFusion等。

联系人：卧虎

TG：xylmwohu