夸克建站系统源码下载制作ppt

张小明 2026/1/11 17:06:13
夸克建站系统源码下载,制作ppt,宁波谷歌优化,免费的网站域名查询app网络是GPU和TPU差异最大的领域之一。正如我们所见#xff0c;TPU之间以二维或三维环面连接#xff0c;每个TPU仅与其相邻的TPU相连。这意味着在两个TPU之间发送消息必须经过中间所有TPU#xff0c;这迫使我们只能在网状网络中使用统一的通信模式。虽然这在某些方面不太方便TPU之间以二维或三维环面连接每个TPU仅与其相邻的TPU相连。这意味着在两个TPU之间发送消息必须经过中间所有TPU这迫使我们只能在网状网络中使用统一的通信模式。虽然这在某些方面不太方便但也意味着每个TPU的链路数量是恒定的我们可以扩展到任意规模的TPU“pod”而不会损失带宽。另一方面GPU 使用更传统的基于树状结构的层级交换网络。8 个 GPU 组成一组称为节点GB200 最多可达 72 个。这些节点之间通过称为 NVLink 的高带宽互连线以 1 跳的距离连接然后通过连接到每个 GPU 的网卡使用低带宽的 InfiniBand (IB) 或以太网连接成更大的单元称为SU或可扩展单元。这些 SU 又可以通过更高级别的交换机连接成任意大小的单元。**图**典型的 H100 网络示意图。一组 8 个 GPU 通过 NVSwitch也称为 NVLink 交换机连接到一个节点或 NVLink 域这些节点之间通过交换式 InfiniBand 架构相互连接。每个 H100 在 NVLink 域中具有约 450GB/s 的出口带宽每个节点在 IB 网络中具有 400GB/s 的出口带宽。在节点层面GPU 节点是一个小型单元通常由 8 个 GPU 组成GB200 最多可达 72 个通过全带宽、低延迟的 NVLink 互连连接。每个节点包含多个高带宽 NVSwitch用于在所有本地 GPU 之间交换数据包。实际的节点级拓扑结构随着时间的推移发生了相当大的变化包括每个节点的交换机数量但对于 H100每个节点有 4 个 NVSwitchGPU 以5 4 4 5链路模式连接到这些交换机如下图所示**图**从 Pascall (P100) 开始的节点又称 NVLink域图。自 Volta (V100) 起我们使用一组交换机实现了节点内所有设备的互联。H100 节点有 4 个 NVSwitch 连接到所有 8 个 GPU链路速率为 25GB/s。对于 Hopper 一代NVLink 4.0每个 NVLink 链路都具有 25GB/s 的全双工传输速率。16带宽B200 为 50GB/s使18 * 25450GB/s每个 GPU 都能以全双工带宽连接到网络。大型 NVSwitch 最多可配备 64 个 NVLink 端口这意味着一个配备 4 个交换机的 8xH100 节点可以处理高达 50GB/s64 * 25e9 * 46.4TB/s的带宽。以下概述了这些数字如何随 GPU 代际变化Blackwell (B200) 拥有 8 个 GPU 的节点。GB200NVL72 支持更大的 NVLink 域最多可容纳 72 个 GPU。我们将详细介绍 8 个 GPU 和 72 个 GPU 的系统。测验 2GPU 节点这里还有一些关于网络通信的问答题。我觉得这些题特别适合课后练习因为它们能让你深入了解实际的通信模式。问题 1 [H100 节点的总带宽]在一个包含 8 个 H100 节点和 4 个交换机的节点系统中每个节点的总带宽是多少*提示*同时考虑 NVLink 和 NVSwitch 的带宽。答我们有 4 台 Gen4 NVSwitch每台交换机都具有64 * 25e91.6TB/s一定的单向带宽。这可以提供4 * 1.6e126.4e12交换机级别的带宽。但是请注意每台 GPU 只能处理 450GB/s 的单向带宽这意味着我们最多只能获得 450GB/s 的450e9 * 8 3.6TB/s带宽。由于这个值较小峰值带宽为 3.6TB/s。问题 2 [二分带宽]二分带宽定义为网络中任意两个相等分区之间可用的最小带宽。换句话说如果将网络分成两个相等的部分这两个部分之间有多少带宽你能计算一个 8x H100 节点的二分带宽吗*提示*二分带宽通常包含双向流量。答任何偶数分区每一半都将包含 4 个 GPU每个 GPU 都可以访问4 * 450GB/s另一半。考虑双向流量这可以提供8 * 450GB/s跨越分区的字节数或 3.6TB/s 的二分带宽。这是 NVIDIA 报告的数据例如此处所示。问题 3 [AllGather 开销]给定一个 B 字节的数组在 8xH100 节点上执行一次吞吐量受限的AllGather 操作需要多长时间计算 bf16[D X , F]的值D4096其中F65,536。建议在回答此问题之前阅读 TPU 集体操作部分。在这里先思考一下我们接下来会更详细地讨论集体操作。答每块GPU可以输出450GB/s的数据并且每块GPU有B/N字节其中 是N8节点大小。我们可以想象每个节点将其字节发送给其他所有节点。N− 1节点一个接一个地连接总共需要 (N - 1) 圈每一圈都……T 通讯 ( B / ( N ∗ W 单向) )或者T 通讯 ( N − 1 ) ∗ B / ( N ∗ W 单向这大约是B / ( N ∗ W 大学或者B / 3.6e12二分带宽。对于给定的数组我们有B4096 * 65536 * 2512MB因此总时间为536e6 * (8 - 1) / 3.6e12 1.04ms。这可能受限于延迟因此在实践中可能需要更长时间在实践中大约需要 1.5 毫秒。超越节点级别在节点级别之外GPU 网络的拓扑结构标准化程度较低。NVIDIA 发布了参考架构 DGX SuperPod该架构使用 InfiniBand 连接比单个节点更多的 GPU但客户和数据中心提供商可以根据自身需求进行定制。以下是一个参考 1024 GPU H100 系统的示意图其中底行的每个盒子都是一个 8xH100 节点包含 8 个 GPU、8 个 400Gbps CX7 网卡每个 GPU 一个和 4 个 NVSwitch。**图**参考级 1024 H100 DGX SuperPod 的示意图包含 128 个节点有时为 127 个每个节点配备 8 个 H100 GPU并连接到 InfiniBand 横向扩展网络。32 个节点256 个 GPU组成的一组称为“可扩展单元”SU。叶脊式 InfiniBand 交换机提供足够的带宽以实现节点间的全二分带宽。可扩展单元每组 32 个节点称为一个“可扩展单元”或 SU它们隶属于一组 8 台叶级 InfiniBand 交换机。该 SU 包含 256 个 GPU每个节点配备 4 台 NVSwitch并由 8 台 InfiniBand 叶级交换机组成。图中所示的所有线缆均为 InfiniBand NDR50Gb/s 全双工并配备 64 端口 NDR IB 交换机每个端口也支持 50Gb/s。请注意IB 交换机的带宽是 NVSwitch 的两倍64 个端口链路带宽为 400 Gbps。SuperPod整个 SuperPod 将 4 个 SU 与 16 个顶层“脊”IB 交换机连接起来从而形成 1024 个 GPU其中包含 512 个节点级 NVSwitch、32 个叶 IB 交换机和 16 个脊 IB 交换机总计 512 32 16 560 个交换机。叶交换机以 32 个节点为一组连接到节点因此每组 256 个 GPU 有 8 个叶交换机。所有叶交换机都连接到所有脊交换机。我们有多少带宽 InfiniBand 网络称为“横向扩展网络”的整体拓扑结构是一个胖树其电缆和交换机保证了节点级以上的完全二分带宽此处为 400GB/s。这意味着如果我们把节点分成两半每个节点都可以同时以 400GB/s 的速率向另一分区中的一个节点输出数据。更重要的是这意味着在横向扩展网络中AllReduce 的带宽应该大致恒定虽然实际实现可能并非如此但您可以想象在横向扩展网络中对任意数量的节点进行环形归约因为您可以构建一个包含所有节点的环。相比之下TPU v5p 的单链路出口带宽约为 90GB/s或沿 3D 环面所有轴向的出口带宽约为 540GB/s。虽然这不是点对点通信因此只能用于受限的、统一的通信模式但它仍然提供了更高的 TPU 间带宽可以扩展到任意规模的拓扑结构至少最多可达 8960 个 TPU。理论上通过添加额外的交换机或间接层可以将 GPU 交换结构扩展到任意大小但代价是会增加延迟和昂贵的网络交换机。GB200 NVL72 NVIDIA 近期开始生产新型 GB200 NVL72 GPU 集群该集群将 72 个 GPU 集成在一个 NVLink 域中GPU 间带宽高达 900GB/s。这些域可以链接成更大的 SuperPod从而获得更高9 倍的 IB 胖树带宽。下图展示了该拓扑结构**图**示意图展示了一个包含 576 个 GPU 的 GB200 DGX SuperPod。底层每个机架包含 72 个 GB200 GPU。计算单个节点的出口带宽上图中的橙色线我们得到的4 * 18 * 400 / 8 3.6TB/s到叶节点的带宽是 H100 的 9 倍正如该节点包含的 GPU 数量是 H100 的 9 倍一样。这意味着关键节点的出口带宽要高得多因此跨节点的总带宽实际上可能低于节点内部的带宽。测验 3超越节点层级问题 1 [胖树拓扑]使用上图所示的 DGX H100 图计算节点级 1024 个 GPU pod 的二分带宽。证明每条链路的带宽选择都确保了二分带宽的完整性。提示务必同时计算链路带宽和交换机带宽。答我们逐个组件进行分析首先每个节点都通过 8 条 400Gbps NDR IB 线缆连接到叶交换机从而为每个节点提供8 * 400 / 8 400 GB/s到叶交换机的带宽。我们有 8 台叶交换机每台的带宽为 3.2TB/s64 条 400Gbps 链路但我们只能使用 64 个端口中的 32 个端口从 SU 接入数据因此这32 * 400 / 8 12.8TB/s32 个节点的带宽正好是 400GB/s。然后在脊交换机层我们使用8 * 16 * 2400Gbps NDR IB 线缆将每个 SU 连接到脊交换机从而为每个 SU 提供8 * 16 * 2 * 400 / 8 12.8 TB/s到叶交换机的带宽。同样每个节点的带宽为 400GB/s。我们有 16 台脊交换机每台交换机的带宽为 3.2TB/s因此16 * 3.2 51.2 TB/s在 128 个节点上总带宽同样为 400GB/s。因此如果我们以任何方式对节点进行二分每个GPU将获得400GB/s的带宽。每个组件都拥有足够的带宽来确保树的完整性。问题 2 [扩展到更大的 DGX pod]假设我们想用 2048 个 GPU 而不是 1024 个进行训练。修改上述 DGX 拓扑结构以处理这种情况的最简单/最佳方法是什么如果是 4096 个 GPU 呢提示没有唯一正确答案但尽量降低成本同时考虑链路容量。答一种方案是保持SU架构不变8台交换机下32个节点然后增加SU的数量和顶层交换机的数量。这样我们需要两倍数量的脊交换机也就是8个SU每条SU配备32台脊交换机就能满足带宽需求。这样做的一个问题是每个叶交换机只有 64 个端口而上图中我们已经用完了所有端口。但我们可以简单地在每个脊交换机上使用一根 400 Gbps NDR 线缆而不是两根这样既能保持总带宽不变又能节省一些端口。对于 4096 个 GPU 来说端口数量实际上已经不够用了所以我们需要增加一层间接层也就是增加一个层级结构。NVIDIA 将这些称为“核心交换机”并使用 128 个脊交换机和 64 个核心交换机构建了一个 4096 GPU 集群。你可以自己计算一下这足以提供足够的带宽。
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

h5自助建站系统网上卡片制作

Markdown引用块使用:突出TensorFlow权威资料来源 在AI工程实践中,一个常见的痛点是“环境不一致”——开发者常说的“在我机器上能跑”,到了同事或生产环境却频频报错。这种问题往往源于深度学习框架、CUDA驱动、Python版本之间复杂的依赖关…

张小明 2026/1/9 22:00:56 网站建设

wordpress 付款插件东莞seo计费

关键词:人工智能大模型 人工智能培训 大模型培训 具身智能培训 智能体 VLA 通过AI大模型实现检测报告智能生成、多维数据交互检索、技术标准智能解析等业务功能,是当前工业智能化、数字化转型的重要方向。以下是针对这三类核心业务功能的技术实现思路与关…

张小明 2026/1/11 10:04:03 网站建设

怎么模板建站住房和城乡建设厅官方网站

在算法备案的过程中,很多撰写者都遇到过这样一个令人头疼的问题:自己写的算法备案文档,改了又改,问题却越来越多。这到底是为什么呢?今天,我们就来深入探讨一下这个问题,希望能帮助大家找到解决…

张小明 2026/1/10 9:35:24 网站建设

网站怎么做域名跳转网站建设全网推广小程序

emuelec 手柄配置不灵?一文搞懂控制器映射,新手也能秒上手 你有没有遇到过这种情况:兴致勃勃插上心爱的手柄,准备重温《超级马里奥》或《拳皇97》,结果按A键跳成了开菜单,方向键失灵,甚至根本识…

张小明 2026/1/10 9:35:25 网站建设

查询数据的网站怎么做简单学校网站模板免费下载

一、引子 每天下班前,我都有一个“强迫症”习惯:把电脑上所有打开的程序都关掉,再执行关机。 这不仅是为了让第二天开机时系统清爽、启动迅速,更是为了避免: 浏览器恢复几十个标签页,拖慢系统&#xff1b…

张小明 2026/1/10 9:35:29 网站建设