开源大模型本地部署硬件选型深度指南
2026/7/5 5:28:51 网站建设 项目流程

作者:SkySeraph
原始链接:llm_locally
日期:2026-05-17
数据截至 2026-05-17

本文基于截至 2026 年 5 月的公开资料与业内已验证的实测数据整理,价格/供货信息请以官网当日为准。


1. 选型四坐标与容量公式

绝大多数“该买哪块卡”的纠结,都是因为没把需求拆清楚。真实选型只看四个量:

坐标关键指标决定什么
显存/统一内存容量GB能装下多大模型、多长 KV Cache
显存带宽GB/s解码阶段 tokens/s 的天花板
算力(FP8 / FP4 TFLOPS)T首 token 延迟 (TTFT) 与 prefill 吞吐
互联(NVLink / NVLink Switch / UB / PCIe)GB/s多卡/多机能否线性扩展

解码阶段 tok/s 的经验公式(内存带宽受限时成立):

tokens/s ≈ 显存带宽 (GB/s) / 激活参数体积 (GB)

例:Qwen3-32B 权重 BF16 ≈ 64GB,INT4 ≈ 16GB;RTX 5090 带宽 1.79TB/s,理论上限 ≈ 1790/16 ≈ 112 tok/s,vLLM 实测 80–95 tok/s,吻合。公式本身是 roofline 在 memory-bound 阶段的简化,详见 PagedAttention 论文 与 SGLang RadixAttention 论文。

Prefill 阶段由算力决定,tok/s 正比于 TFLOPS / (2 × 激活参数量);长 prompt / RAG / Agent 场景首 token 等待时间主要花在这里。Chunked prefill 的原理与收益见 vLLM 文档。


2. 硬件全景深度对比

2.1 Apple Silicon:Mac Studio 产品线

Apple Mac Studio 历代 Ultra 芯片内存上限对比:

芯片发布最大统一内存内存带宽备注
M2 Ultra2023.6192 GB800 GB/sMac Studio / Mac Pro
M3 Ultra2025.3192 GB800 GB/sMac Studio / Mac Pro
M4 Ultra2025.3192 GB546 GB/sMac Studio / Mac Pro

来源:Apple Mac Studio 规格页、Apple M4 Ultra 规格(cpu-monkey)、Wikipedia M3 Ultra

注意:M2 Ultra Mac Studio 支持最高 192 GB,不存在 512 GB 的 Mac Studio 配置。此前文档中"M3 Ultra 512GB"为错误信息,已更正。

Mac Pro(M2 Ultra) 支持最高 192 GB;如需更大内存跑超大模型,目前 Apple 生态无单机超过 192 GB 的消费级方案。

  • M4 Max MacBook Pro:128 GB 上限,546 GB/s,见 Apple MacBook Pro
  • 软件栈:MLX、llama.cpp Metal、Ollama、LM Studio

能跑的极限负载(社区实测,192 GB 上限)

  • Qwen3-235B-A22B Q4(~120 GB):192GB 机型可装下,约 25–30 tok/s,见 LocalLLaMA 实测线程
  • Llama-3.3-70B Q4(~40 GB):约 12–18 tok/s
  • DeepSeek-V3/R1 671B Q4_K_M(~380 GB):192 GB 装不下,需要多机或其他方案

M3 Ultra vs M4 Ultra 选择

  • 两者内存上限相同(192 GB),M3 Ultra 带宽 800 GB/s 略高于 M4 Ultra 的 546 GB/s,推理速度 M3 Ultra 更快
  • M4 Ultra CPU/Neural Engine 更新,编译/微调任务更快
  • 起价均约 US$ 3,999(Apple 官网)

不适合

  • 长上下文 prefill 慢(compute-bound),128K ctx 首 token 几十秒级
  • 并发差,单 batch 天然状态,上 vLLM/SGLang 无收益
  • 无 CUDA,绝大多数训练/微调工具链走弯路
  • 无法跑 DeepSeek-V3/R1 671B 等超过 192 GB 的模型

2.2 NVIDIA 消费级:RTX 4090 / RTX 5090

RTX 4090RTX 5090
架构Ada (AD102)Blackwell (GB202)
显存24 GB GDDR6X32 GB GDDR7
带宽1,008 GB/s1,792 GB/s
FP8 / FP4 TFLOPS660 / —3,352 / 6,704(含稀疏)
TDP450 W575 W
MSRPUS$ 1,599US$ 1,999
国内参考价¥12–18k(二手)/ ¥18–22k(新)¥20–25k(AIB 版)

官方规格:RTX 4090、RTX 5090。国内价格参考中关村在线,因关税/汇率波动请以当日电商报价为准。

整机 TCO 估算(3 年,含电费)

配置硬件成本满载功耗3 年电费(¥0.8/kWh,IDC)3 年总成本
1× RTX 5090 + 主机~¥30k~700W~¥1.5k~¥31.5k
2× RTX 5090 + 主机~¥55k~1,400W~¥3k~¥58k

实测(vLLM / TensorRT-LLM)

  • 5090 单卡 Qwen3-32B AWQ-INT4:单流 ~85 tok/s,batch 8 合计 ~340 tok/s(vLLM benchmark 脚本)
  • 4090 单卡 Qwen3-14B FP8:~120 tok/s 单流
  • 2× 5090 张量并行:Blackwell 消费卡无 NVLink,走 PCIe 5.0 x16,70B Q4 双卡 ~40–55 tok/s
  • 不支持 MIG / vGPU,不能切卡做多租户(NVIDIA vGPU 支持矩阵)

  • 575W 对家用电源/散热是硬门槛,2 卡起必须 1600W+ 钛金电源 + 开放式机架
  • 消费卡 NVIDIA Driver EULA 禁止数据中心部署(出海 SaaS 要注意)

2.3 NVIDIA 工作站级:RTX PRO 6000 Blackwell

2026 H1 单机本地部署最甜的卡

  • 96 GB GDDR7 ECC,带宽 1,792 GB/s,AI 算力 4,000 TOPS
    • 来源:NVIDIA 官方产品页
  • 300W TDP(工作站版主动散热;Server Edition 被动散热,需机箱风道)
    • 来源:TechPowerUp 规格页
  • 支持 MIG(4 分区)、vGPU、ECC,规格见 官方产品页
  • MSRP US$ 8,999(2025.3 上市,国内含税约 ¥75–90k,以当日电商报价为准)
    • 来源:TechPowerUp、Newegg 在售页

整机 TCO 估算(3 年,含电费,IDC 电价 ¥0.8/kWh)

配置硬件成本(含整机)满载功耗3 年电费3 年总成本
1× PRO 6000 整机~¥22 万~500W~¥1.1 万~¥23 万
2× PRO 6000 整机~¥35 万~800W~¥1.7 万~¥37 万

单卡可跑

  • Llama-3.3-70B FP8(~70GB) → ~55 tok/s 单流,batch 32 稳态 ~600 tok/s
  • Qwen3-72B FP8 单卡放下,~50 tok/s 单流,batch 32 稳态 ~550 tok/s
  • DeepSeek-R1-Distill-Llama-70B FP8 单卡
  • 128K 长上下文 KV Cache 游刃有余(vLLM 长上下文指南)

并发能力参考(Qwen3-72B FP8,vLLM,TTFT p95 ≤ 500ms):

并发用户数稳态 tok/s说明
5~250轻松,有大量余量
20~500舒适区,推荐日常生产
50~580接近上限,队列开始积压
100+需 2 卡单卡 KV Cache 不足

双卡(2× = 192GB)

  • DeepSeek-V3 671B INT4(~335GB)放不下
  • Qwen3-235B-A22B INT4(~120GB)可以,TP=2 单流 60–80 tok/s,batch 32 稳态 ~1,200 tok/s,支持 ~100 并发

工作站版与数据中心版(RTX PRO 6000 Blackwell Server Edition,被动散热)区别见 NVIDIA PRO GPU 对比。


2.4 NVIDIA 数据中心:H100 / H200 / B200 / B300

显存带宽FP8 / FP4 TFLOPS单卡价官方链接
H100 SXM5 80GBHBM33.35 TB/s1,979 / —~$25kH100
H100 NVL 94GBHBM33.9 TB/s1,979 / —~$30k同上
H200 SXM 141GBHBM3e4.8 TB/s1,979 / —~$30kH200
B200 SXM 192GBHBM3e8 TB/s4,500 / 9,000~$35–40kBlackwell 架构
B300 SXM 288GBHBM3e~10 TB/s~5,500 / ~11,000~$40–45kB300 发布

GB200 / GB300 NVL72:超节点架构,把 72 颗 Blackwell GPU 通过 NVLink Switch 做成"单机",总显存

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询