国家超算中心 西安站 异构加速卡2 显存16GB详细配置, 海光 Z100SM HCU
2026/6/16 1:49:16 网站建设 项目流程

国家超算中心 西安站 异构加速卡2 显存16GB详细配置, 海光 Z100SM HCU

设备信息汇总 & 解读

一、整体硬件概览

机器搭载4 颗海光 C86 7285 CPU+4 张海光 Z100SM HCU(gfx906 架构,兼容 ROCm),系统正常识别所有硬件,ROCm 环境加载正常。


二、rocm-smi 状态(空载)

HCU 0~3 共4张卡 - 温度:45~46℃(空载温度优秀) - 功耗:21~25W(极低空载功耗) - 功耗上限:450W/卡 - 负载:VRAM、HCU 占用均 0%,当前无任务运行 - 运行模式:Normal 正常模式,Perf 为 manual(手动功耗/性能档位)

三、rocminfo 详细参数

1. CPU 部分(Agent1~4)

  • 型号:Hygon C86 7285 32核处理器,共 4 路 CPU
  • 主频上限:2000 MHz
  • 单路内存池容量:约 32GB+,大内存带宽配置,适合多卡并行、大模型训练
  • 设备类型:纯 CPU 计算节点,无 GPU 计算单元

2. HCU 加速卡部分(Agent5~8,共4卡 Z100SM)

核心架构:gfx906(兼容 AMD ROCm 生态,对标 MI50 架构)

  1. 基础规格

    • 单卡显存:16760832 KB ≈ 16368 MB ≈ 16GB
    • 计算单元 CU:64 个/卡
    • 主频上限:1319 MHz
    • L1 Cache:16KB,L2 Cache:8192KB(8MB)
  2. 算力/调度参数

    • Wavefront 大小:64(AMD 系标准调度粒度)
    • 单工作组最大线程:1024
    • 支持Fast F16,FP16 运算加速原生支持
    • ISA 指令集:amdgcn-amd-amdhsa--gfx906:sramecc+:xnack-,标准 ROCm 编译目标
  3. 兼容性说明

    • 驱动模块:C-3000 module正常加载,海光 HCU ROCm 驱动就绪
    • 完全兼容基于 ROCm 的深度学习、HPC、AI 推理/训练框架

四、关键结论 & 建议

  1. 硬件状态:4 卡 HCU 全部识别正常,温度、功耗、硬件状态无异常,适合上线任务。
  2. 软件环境:ROCm 栈完整,gfx906架构可直接运行适配 AMD GPU 的代码/镜像。
  3. 使用建议
    • 编译模型/算子时,指定目标架构:--rocm-arch=gfx906
    • 当前为manual性能模式,如需满负载跑任务,可调整为自动性能档位提升算力释放。
    • 单卡 16GB 显存,适合中小规模模型推理、微调、传统 HPC 计算;多卡可做分布式训练。

需要我给你几条常用的ROCm 环境查看、架构编译、多卡任务调度实用命令吗?

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询