夸克建站系统源码下载制作ppt-万宁市网站建设公司-Seo优化

夸克建站系统源码下载,制作ppt,宁波谷歌优化,免费的网站域名查询app网络是GPU和TPU差异最大的领域之一。正如我们所见#xff0c;TPU之间以二维或三维环面连接#xff0c;每个TPU仅与其相邻的TPU相连。这意味着在两个TPU之间发送消息必须经过中间所有TPU#xff0c;这迫使我们只能在网状网络中使用统一的通信模式。虽然这在某些方面不太方便TPU之间以二维或三维环面连接每个TPU仅与其相邻的TPU相连。这意味着在两个TPU之间发送消息必须经过中间所有TPU这迫使我们只能在网状网络中使用统一的通信模式。虽然这在某些方面不太方便但也意味着每个TPU的链路数量是恒定的我们可以扩展到任意规模的TPU“pod”而不会损失带宽。另一方面GPU 使用更传统的基于树状结构的层级交换网络。8 个 GPU 组成一组称为节点GB200 最多可达 72 个。这些节点之间通过称为 NVLink 的高带宽互连线以 1 跳的距离连接然后通过连接到每个 GPU 的网卡使用低带宽的 InfiniBand (IB) 或以太网连接成更大的单元称为SU或可扩展单元。这些 SU 又可以通过更高级别的交换机连接成任意大小的单元。**图**典型的 H100 网络示意图。一组 8 个 GPU 通过 NVSwitch也称为 NVLink 交换机连接到一个节点或 NVLink 域这些节点之间通过交换式 InfiniBand 架构相互连接。每个 H100 在 NVLink 域中具有约 450GB/s 的出口带宽每个节点在 IB 网络中具有 400GB/s 的出口带宽。在节点层面GPU 节点是一个小型单元通常由 8 个 GPU 组成GB200 最多可达 72 个通过全带宽、低延迟的 NVLink 互连连接。每个节点包含多个高带宽 NVSwitch用于在所有本地 GPU 之间交换数据包。实际的节点级拓扑结构随着时间的推移发生了相当大的变化包括每个节点的交换机数量但对于 H100每个节点有 4 个 NVSwitchGPU 以5 4 4 5链路模式连接到这些交换机如下图所示**图**从 Pascall (P100) 开始的节点又称 NVLink域图。自 Volta (V100) 起我们使用一组交换机实现了节点内所有设备的互联。H100 节点有 4 个 NVSwitch 连接到所有 8 个 GPU链路速率为 25GB/s。对于 Hopper 一代NVLink 4.0每个 NVLink 链路都具有 25GB/s 的全双工传输速率。16带宽B200 为 50GB/s使18 * 25450GB/s每个 GPU 都能以全双工带宽连接到网络。大型 NVSwitch 最多可配备 64 个 NVLink 端口这意味着一个配备 4 个交换机的 8xH100 节点可以处理高达 50GB/s64 * 25e9 * 46.4TB/s的带宽。以下概述了这些数字如何随 GPU 代际变化Blackwell (B200) 拥有 8 个 GPU 的节点。GB200NVL72 支持更大的 NVLink 域最多可容纳 72 个 GPU。我们将详细介绍 8 个 GPU 和 72 个 GPU 的系统。测验 2GPU 节点这里还有一些关于网络通信的问答题。我觉得这些题特别适合课后练习因为它们能让你深入了解实际的通信模式。问题 1 [H100 节点的总带宽]在一个包含 8 个 H100 节点和 4 个交换机的节点系统中每个节点的总带宽是多少*提示*同时考虑 NVLink 和 NVSwitch 的带宽。答我们有 4 台 Gen4 NVSwitch每台交换机都具有64 * 25e91.6TB/s一定的单向带宽。这可以提供4 * 1.6e126.4e12交换机级别的带宽。但是请注意每台 GPU 只能处理 450GB/s 的单向带宽这意味着我们最多只能获得 450GB/s 的450e9 * 8 3.6TB/s带宽。由于这个值较小峰值带宽为 3.6TB/s。问题 2 [二分带宽]二分带宽定义为网络中任意两个相等分区之间可用的最小带宽。换句话说如果将网络分成两个相等的部分这两个部分之间有多少带宽你能计算一个 8x H100 节点的二分带宽吗*提示*二分带宽通常包含双向流量。答任何偶数分区每一半都将包含 4 个 GPU每个 GPU 都可以访问4 * 450GB/s另一半。考虑双向流量这可以提供8 * 450GB/s跨越分区的字节数或 3.6TB/s 的二分带宽。这是 NVIDIA 报告的数据例如此处所示。问题 3 [AllGather 开销]给定一个 B 字节的数组在 8xH100 节点上执行一次吞吐量受限的AllGather 操作需要多长时间计算 bf16[D X , F]的值D4096其中F65,536。建议在回答此问题之前阅读 TPU 集体操作部分。在这里先思考一下我们接下来会更详细地讨论集体操作。答每块GPU可以输出450GB/s的数据并且每块GPU有B/N字节其中是N8节点大小。我们可以想象每个节点将其字节发送给其他所有节点。N− 1节点一个接一个地连接总共需要 (N - 1) 圈每一圈都……T 通讯 ( B / ( N ∗ W 单向) )或者T 通讯 ( N − 1 ) ∗ B / ( N ∗ W 单向这大约是B / ( N ∗ W 大学或者B / 3.6e12二分带宽。对于给定的数组我们有B4096 * 65536 * 2512MB因此总时间为536e6 * (8 - 1) / 3.6e12 1.04ms。这可能受限于延迟因此在实践中可能需要更长时间在实践中大约需要 1.5 毫秒。超越节点级别在节点级别之外GPU 网络的拓扑结构标准化程度较低。NVIDIA 发布了参考架构 DGX SuperPod该架构使用 InfiniBand 连接比单个节点更多的 GPU但客户和数据中心提供商可以根据自身需求进行定制。以下是一个参考 1024 GPU H100 系统的示意图其中底行的每个盒子都是一个 8xH100 节点包含 8 个 GPU、8 个 400Gbps CX7 网卡每个 GPU 一个和 4 个 NVSwitch。**图**参考级 1024 H100 DGX SuperPod 的示意图包含 128 个节点有时为 127 个每个节点配备 8 个 H100 GPU并连接到 InfiniBand 横向扩展网络。32 个节点256 个 GPU组成的一组称为“可扩展单元”SU。叶脊式 InfiniBand 交换机提供足够的带宽以实现节点间的全二分带宽。可扩展单元每组 32 个节点称为一个“可扩展单元”或 SU它们隶属于一组 8 台叶级 InfiniBand 交换机。该 SU 包含 256 个 GPU每个节点配备 4 台 NVSwitch并由 8 台 InfiniBand 叶级交换机组成。图中所示的所有线缆均为 InfiniBand NDR50Gb/s 全双工并配备 64 端口 NDR IB 交换机每个端口也支持 50Gb/s。请注意IB 交换机的带宽是 NVSwitch 的两倍64 个端口链路带宽为 400 Gbps。SuperPod整个 SuperPod 将 4 个 SU 与 16 个顶层“脊”IB 交换机连接起来从而形成 1024 个 GPU其中包含 512 个节点级 NVSwitch、32 个叶 IB 交换机和 16 个脊 IB 交换机总计 512 32 16 560 个交换机。叶交换机以 32 个节点为一组连接到节点因此每组 256 个 GPU 有 8 个叶交换机。所有叶交换机都连接到所有脊交换机。我们有多少带宽 InfiniBand 网络称为“横向扩展网络”的整体拓扑结构是一个胖树其电缆和交换机保证了节点级以上的完全二分带宽此处为 400GB/s。这意味着如果我们把节点分成两半每个节点都可以同时以 400GB/s 的速率向另一分区中的一个节点输出数据。更重要的是这意味着在横向扩展网络中AllReduce 的带宽应该大致恒定虽然实际实现可能并非如此但您可以想象在横向扩展网络中对任意数量的节点进行环形归约因为您可以构建一个包含所有节点的环。相比之下TPU v5p 的单链路出口带宽约为 90GB/s或沿 3D 环面所有轴向的出口带宽约为 540GB/s。虽然这不是点对点通信因此只能用于受限的、统一的通信模式但它仍然提供了更高的 TPU 间带宽可以扩展到任意规模的拓扑结构至少最多可达 8960 个 TPU。理论上通过添加额外的交换机或间接层可以将 GPU 交换结构扩展到任意大小但代价是会增加延迟和昂贵的网络交换机。GB200 NVL72 NVIDIA 近期开始生产新型 GB200 NVL72 GPU 集群该集群将 72 个 GPU 集成在一个 NVLink 域中GPU 间带宽高达 900GB/s。这些域可以链接成更大的 SuperPod从而获得更高9 倍的 IB 胖树带宽。下图展示了该拓扑结构**图**示意图展示了一个包含 576 个 GPU 的 GB200 DGX SuperPod。底层每个机架包含 72 个 GB200 GPU。计算单个节点的出口带宽上图中的橙色线我们得到的4 * 18 * 400 / 8 3.6TB/s到叶节点的带宽是 H100 的 9 倍正如该节点包含的 GPU 数量是 H100 的 9 倍一样。这意味着关键节点的出口带宽要高得多因此跨节点的总带宽实际上可能低于节点内部的带宽。测验 3超越节点层级问题 1 [胖树拓扑]使用上图所示的 DGX H100 图计算节点级 1024 个 GPU pod 的二分带宽。证明每条链路的带宽选择都确保了二分带宽的完整性。提示务必同时计算链路带宽和交换机带宽。答我们逐个组件进行分析首先每个节点都通过 8 条 400Gbps NDR IB 线缆连接到叶交换机从而为每个节点提供8 * 400 / 8 400 GB/s到叶交换机的带宽。我们有 8 台叶交换机每台的带宽为 3.2TB/s64 条 400Gbps 链路但我们只能使用 64 个端口中的 32 个端口从 SU 接入数据因此这32 * 400 / 8 12.8TB/s32 个节点的带宽正好是 400GB/s。然后在脊交换机层我们使用8 * 16 * 2400Gbps NDR IB 线缆将每个 SU 连接到脊交换机从而为每个 SU 提供8 * 16 * 2 * 400 / 8 12.8 TB/s到叶交换机的带宽。同样每个节点的带宽为 400GB/s。我们有 16 台脊交换机每台交换机的带宽为 3.2TB/s因此16 * 3.2 51.2 TB/s在 128 个节点上总带宽同样为 400GB/s。因此如果我们以任何方式对节点进行二分每个GPU将获得400GB/s的带宽。每个组件都拥有足够的带宽来确保树的完整性。问题 2 [扩展到更大的 DGX pod]假设我们想用 2048 个 GPU 而不是 1024 个进行训练。修改上述 DGX 拓扑结构以处理这种情况的最简单/最佳方法是什么如果是 4096 个 GPU 呢提示没有唯一正确答案但尽量降低成本同时考虑链路容量。答一种方案是保持SU架构不变8台交换机下32个节点然后增加SU的数量和顶层交换机的数量。这样我们需要两倍数量的脊交换机也就是8个SU每条SU配备32台脊交换机就能满足带宽需求。这样做的一个问题是每个叶交换机只有 64 个端口而上图中我们已经用完了所有端口。但我们可以简单地在每个脊交换机上使用一根 400 Gbps NDR 线缆而不是两根这样既能保持总带宽不变又能节省一些端口。对于 4096 个 GPU 来说端口数量实际上已经不够用了所以我们需要增加一层间接层也就是增加一个层级结构。NVIDIA 将这些称为“核心交换机”并使用 128 个脊交换机和 64 个核心交换机构建了一个 4096 GPU 集群。你可以自己计算一下这足以提供足够的带宽。

夸克建站系统源码下载制作ppt

h5自助建站系统网上卡片制作

wordpress 付款插件东莞seo计费

怎么模板建站住房和城乡建设厅官方网站

网站怎么做域名跳转网站建设全网推广小程序

做网站网站的代理算网站罪吗苏州建站公司速找苏州聚尚网络

查询数据的网站怎么做简单学校网站模板免费下载