中职网站建设与管理南京网站建设公司 雷

张小明 2026/1/7 16:30:34
中职网站建设与管理,南京网站建设公司 雷,做翻译赚钱的网站好,如何在google上免费推广训练营简介 2025年昇腾CANN训练营第二季#xff0c;基于CANN开源开放全场景#xff0c;推出0基础入门系列、码力全开特辑、开发者案例等专题课程#xff0c;助力不同阶段开发者快速提升算子开发技能。获得Ascend C算子中级认证#xff0c;即可领取精美证书#xff0c;完成…训练营简介 2025年昇腾CANN训练营第二季基于CANN开源开放全场景推出0基础入门系列、码力全开特辑、开发者案例等专题课程助力不同阶段开发者快速提升算子开发技能。获得Ascend C算子中级认证即可领取精美证书完成社区任务更有机会赢取华为手机平板、开发板等大奖。报名链接https://www.hiascend.com/developer/activities/cann20252#cann-camp-2502-intro前言在科学计算如蛋白质预测 AlphaFold和社交网络分析中图神经网络 (GNN)是绝对的主角。 GNN 的核心范式是Message Passing消息传递$$h_v^{(k)} \text{Update} \left( h_v^{(k-1)}, \text{Aggregate} ( \{ h_u^{(k-1)} | u \in \mathcal{N}(v) \} ) \right)$$翻译成人话就是每个节点收集邻居的信息更新自己。在工程实现上我们通常不使用邻接矩阵太稀疏浪费显存而是使用边表 (Edge Index, COO格式)。这意味着我们需要遍历每一条边把源节点Source的信息“发”给目标节点Target。这就涉及到了我们在第四十三期学过的两个原子操作的组合先 Gather抓取源节点特征再 Scatter累加到目标节点。一、 核心图解信鸽传书GNN 的计算过程就像是无数只信鸽在节点之间飞来飞去。二、 算法映射Scatter-Gather 范式假设我们有 $N$ 个节点$E$ 条边。 输入x: 节点特征矩阵 $[N, D]$。edge_index: 边索引 $[2, E]$。第一行是 Source ID第二行是 Target ID。计算流程以 $Sum$ 聚合为例Loop over Edges遍历每一条边 $e (u, v)$。Gather: 根据 $u$ (Source ID) 从x中读取特征 $h_u$。Scatter: 将 $h_u$ 原子累加到out[v](Target ID) 中。三、 实战Ascend C 实现 MessagePassing3.1 Kernel 类定义我们需要处理的是以边为中心 (Edge-Centric)的并行。class KernelGNN { public: __aicore__ inline void Init(GM_ADDR x, GM_ADDR edge_index, GM_ADDR out, uint32_t num_edges, uint32_t feature_dim) { // ... Init ... // Tiling 策略通常按边的数量切分 // 每个 Core 处理一部分边 this-edgeLen num_edges; this-featDim feature_dim; } __aicore__ inline void Process() { // 循环处理边的分块 for (int i 0; i tileNum; i) { Compute(i); } } };3.2 Compute 核心逻辑__aicore__ inline void Compute(int32_t i) { // 1. 搬运 Edge Index 到 UB // 假设一次处理 128 条边 LocalTensorint32_t srcIdx inQueueSrc.DeQueint32_t(); LocalTensorint32_t dstIdx inQueueDst.DeQueint32_t(); // 也就是 target node index // 2. 准备特征 Buffer LocalTensorfloat featLoc tmpQueue.AllocTensorfloat(); // 3. Gather (收集源节点特征) // 根据 srcIdx 从 xGm (Global Memory) 中抓取特征到 featLoc // featLoc shape: [128, featDim] // Ascend C Gather 接口示意 (具体参数视芯片版本) // 如果没有直接的高阶 Gather需要循环调用 DataCopy Gather(featLoc, xGm, srcIdx, 128); // 4. Message Computation (可选) // 如果是 GCN这里直接传特征。 // 如果是 GAT这里需要算 Attention Score 并乘在 featLoc 上。 // Mul(featLoc, featLoc, attn_scores, ...); // 5. Scatter (聚合到目标节点) // 将 featLoc 的数据累加到 outGm 的 dstIdx 位置 // 必须开启原子加因为不同的边可能指向同一个 target node SetAtomicAddfloat(); // Scatter 接口示意将 featLoc 数据分散写回 outGm Scatter(outGm, featLoc, dstIdx, 128); SetAtomicNone(); // ... 资源释放 ... }四、 性能优化的“胜负手”GNN 算子是典型的Latency Bound延迟受限和Bandwidth Bound带宽受限因为全是随机访存。4.1 索引排序 (Sorting Indices)如果edge_index是乱序的如 Source: [1, 1000, 5]Gather效率极低。优化策略在 Host 侧或预处理阶段对edge_index进行Reordering重排。按 Source 排序优化Gather效率读连续。按 Target 排序优化Scatter效率写连续且减少原子冲突。通常推荐按 Target 排序因为写冲突Atomic Add的代价比读延迟更高。4.2 稀疏矩阵乘法 (SpMM)如果图结构是静态的可以将 Scatter-Gather 转化为SpMM (Sparse Matrix-Matrix Multiplication)。 $A \times X Y$ 其中 $A$ 是稀疏邻接矩阵$X$ 是稠密特征矩阵。 利用 Cube 单元的稀疏计算能力如果有或者专门优化过的 SpMM Kernel通常比通过 Vector 逐条边处理要快得多。五、 总结图计算是 AI 算子开发中“最狂野”的领域。思维模式从 Tensor 视角切换到 Graph 视角点、边、邻居。核心操作Gather读邻居 Scatter写中心。性能关键局部性Locality。谁能把图数据排布得更紧凑谁就能赢得性能。掌握了 GNN 算子你就有能力去优化 AlphaFold、推荐系统等前沿模型。
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

如何让建设一个简单的网站做网页的素材

你是否曾经下载了精美的Wallpaper Engine壁纸,想要提取其中的纹理素材进行二次创作,却发现PKG文件无法直接打开,TEX纹理格式也无法用普通图片查看器识别?RePKG正是为解决这一痛点而生的开源工具,它能轻松解包PKG资源文…

张小明 2026/1/7 8:17:19 网站建设

五华县建设工程交易中心网站棋牌网站

实验拓扑实验需求1.按照图示配置IP地址,公网地址100.1.1.1/242.私网A通过NAPT,使R1接入到互联网,私网B通过EASY IP,使R3接入到互联网3.私网A配置NAT SERVER把Telnet的Telnet服务发布到公网,使PC2可以访问三、实验思路1…

张小明 2026/1/7 8:34:04 网站建设

开源网站后台苏州正规网站制作公司

亥姆霍兹线圈在生物领域的应用主要集中在利用其产生的可控、均匀磁场来研究磁场与生物系统之间的相互作用。以下是其主要应用方向:生物磁场效应研究:用于探索磁场对生物细胞、组织或分子的影响,例如研究磁场如何调控细胞生长、分化或基因表达…

张小明 2026/1/5 23:05:11 网站建设

网站分页符素材濂溪区建设局网站

Origami Simulator入门指南:5步掌握实时折纸模拟技术 【免费下载链接】OrigamiSimulator Realtime WebGL origami simulator 项目地址: https://gitcode.com/gh_mirrors/or/OrigamiSimulator 想要体验数字折纸的魅力吗?Origami Simulator这款基于…

张小明 2026/1/6 2:58:25 网站建设

柳州公司网站建设仁寿建设局网站

昇腾NPU性能调优实战:从延迟优化到端侧部署的完整指南 【免费下载链接】openPangu-Embedded-1B-V1.1 昇腾原生的开源盘古 Embedded-1B-V1.1 语言模型 项目地址: https://ai.gitcode.com/ascend-tribe/openPangu-Embedded-1B-V1.1 还在为昇腾NPU上AI推理性能不…

张小明 2026/1/7 15:17:55 网站建设

广西建设培训中心网站wordpress 简历插件

Stable Diffusion 3.5 FP8 版本深度解析:如何实现推理延迟下降近40%? 在生成式AI的竞赛中,模型能力的提升往往伴随着部署成本的飙升。当Stable Diffusion 3.5以惊人的图像质量和提示理解能力刷新文生图天花板时,它的“副作用”也显…

张小明 2026/1/7 6:38:23 网站建设