返回首页

虑(lǜ)狙(jū)胎(tāi)为什么会上热搜?

时间:2024-03-20 来源:原创/投稿/转载作者:管理员点击:

  当地时间3月18日,人工智能(AI)芯片龙头厂商NVIDIA在美国加州圣何塞召开了GTC2024大会,正式发布了面向下一代数据中心和人工智能应用的“核弹”基于Blackwell架构的B200 GPU,将在计算能力上实现巨大的代际飞跃,预计将在今年晚些时候正式出货。

  NVIDIA创始人兼CEO黄仁勋,NVIDIA目前按照每隔2年的更新频率,升级一次GPU构架,进一步大幅提升AI芯片的性能。

  据介绍,B200 GPU基于台积电的N4P制程工艺(这是上一代Hopper H100和Ada Lovelace架构GPU使用的N4工艺的改进版本),晶体管数量达到了2080亿个,是H100/H200的800亿个晶体管两倍多。这也使得B200的人工智能性能达到了20 PFlops。

  具体取决于各种Blackwell构架GPU设备的内存容量和频宽配置,工作运算执行力的实际性能可能会更高。

  需要指出的是,B200并不是传统意义上的单一GPU。相反,它由两个紧密耦合的GPU芯片组成,不过根据NVIDIA的说法,它们确实可以作为一个统一的CUDA GPU。

  这两个芯片通过10 TB/s的NV-HBI(NVIDIA高带宽接口)连接连接,以确保它们能够作为一个完全一致的芯片正常工作。

  AMD MI300X之所以被广泛关注,除了其性能大幅提升之外,其所配备的容量高达192GB HBM(高带宽内存)也是非常关键,相比NVIDIAH100 SXM芯片的80GB高了一倍多。

  此次NVIDIA推出的B200则配备了同样的192GBHBM3e内存,可提供8 TB/s的带宽,弥补了这一薄弱环节。

  虽然NVIDIA尚未提供关于B200确切的芯片尺寸,从曝光的照片来看,B200将使用两个全掩模尺寸的芯片,每个管芯周围有四个HMB3e堆栈,每个堆栈为24GB,每个堆栈在1024 bit接口上具有1TB/s的带宽。

  需要指出的是,H100采用的是6个HBM3堆栈,每个堆栈16GB(H200将其增加到6个24GB),这意味着H100管芯中有相当一部分专门用于六个HBM内存控制器。

  B200通过将每个芯片内部的HBM内存控制器接口减少到四个,并将两个芯片连接在一起,这样可以相应地减少HBM内存控制器接口所需的管芯面积,可以将更多的晶体管用于计算。

  基于Blackwell架构的B200通过一种新的FP4数字格式达到了这个数字,其吞吐量是Hopper H100的FP8格式的两倍。

  因此,如果我们将B200与H100坚持使用FP8算力来比较,B200仅提供了比H100多2.5倍的理论FP8计算(具有稀疏性),其中很大一部分原因来自于B200拥有两个计算芯片。

  对于H100和B200都支持的大多数的数字格式,B200最终在理论上每芯片算力提升了1.25倍。

  移除两个HBM3接口,并制作一个稍大的芯片可能意味着B200在芯片级的计算密度上甚至不会显着更高。当然,两个芯片之间的NV-HBI接口也会占用一些管芯面积。

  因此,FP8的吞吐量是FP4吞吐量的一半(10PFlops级),FP16/BF16的吞吐量是5PFlops级的一半,TF32的支持是FP16的一半(2.5PFlops级)所有这些都具有稀疏性,因此密集操作的速率是这些速率的一半。

  H100被评定为每GPU可提供60万亿次的密集FP64计算。如果B200具有与其他格式类似的缩放比例,则每个双芯片GPU将具有150万亿次浮点运算。

  但是,实际上,B200的FP64性能有所下降,每个GPU约为45万亿次浮点运算。这也需要一些澄清,因为GB200超级芯片将是关键的构建块之一。

  它有两个B200 GPU,可以进行90万亿次的密集FP64计算,与H100相比,其他因素可能会提高经典模拟的原始吞吐量。

  另外,就使用FP4而言,NVIDIA有一个新的第二代Transformer Engine,它将帮助用户自动将模型转换为适当的格式,以达到最大性能。

  除了支持FP4,Blackwell还将支持一种新的FP6格式,这是一种介于FP4缺乏必要精度但也不需要FP8的情况下的解决方案。

  NVIDIA还推出了GB200超级芯片,它基于两个B200 GPU,外加一个Grace CPU,也就是说,GB200超级芯片的理论算力将会达到40PFlops,整个超级芯片的可配置TDP高达2700W。

  黄仁勋也进一步指出,包含了两个Blackwell GPU和一个采用Arm构架的Grace CPU的B200,其推理模型性能比H100提升30倍,成本和能耗降至了原来的1/25。

  除了GB200超级芯片之外,NVIDIA还带来了面向服务器的解决方案HGX B200,它基于在单个服务器节点中使用八个B200 GPU和一个x86 CPU(可能是两个CPU)。

  值得注意的是,在这三款芯片当中,HBM3e的每个GPU的带宽似乎都是8 TB/s。因此,只有功率,以及GPU核心时钟,也许还有核心数上会有不同。

  但是,NVIDIA尚未透露任何Blackwell GPU中有多少CUDA内核或流式多处理器的细节。

  新的NVLink芯片具有1.8 TB/s的全对全双向带宽,支持576 GPU NVLink域。它也是基于台积电N4P节点上制造的,拥有500亿个晶体管。

  与H100多节点互连相比,全新的NVSwitch提供了18X的加速。这将大大提高万亿参数模型人工智能网络的可扩展性。

  与此相关的是,每个Blackwell GPU都配备了18个第五代NVLink连接。这是H100链接数量的18倍。

  具体来说,GB200 NVL72基本上是一个完整的机架式解决方案,有18个1U服务器,每个服务器都有两个GB200超级芯片。

  曝光图片和规格表明,两个B200 GPU与一个Grace CPU匹配,而GH100使用了一个较小的解决方案,将一个GraceCPU与一个H100 GPU放在一起。

  这些也是1U液冷托盘,每个托盘有两个NVLink交换机,每个机架有九个这样的托盘。每个托盘提供14.4 TB/s的总带宽,加上前面提到的Sharp v4计算。

  目前,亚马逊的AWS已计划采购由2万片GB200芯片组建的服务器集群,可以部署27万亿个参数的模型。

【责任编辑:管理员】
随机推荐 更多>>