作者:SkySeraph
原始链接:llm_locally
日期:2026-05-17
数据截至 2026-05-17
本文基于截至 2026 年 5 月的公开资料与业内已验证的实测数据整理,价格/供货信息请以官网当日为准。
1. 选型四坐标与容量公式
绝大多数“该买哪块卡”的纠结,都是因为没把需求拆清楚。真实选型只看四个量:
| 坐标 | 关键指标 | 决定什么 |
|---|---|---|
| 显存/统一内存容量 | GB | 能装下多大模型、多长 KV Cache |
| 显存带宽 | GB/s | 解码阶段 tokens/s 的天花板 |
| 算力(FP8 / FP4 TFLOPS) | T | 首 token 延迟 (TTFT) 与 prefill 吞吐 |
| 互联(NVLink / NVLink Switch / UB / PCIe) | GB/s | 多卡/多机能否线性扩展 |
解码阶段 tok/s 的经验公式(内存带宽受限时成立):
tokens/s ≈ 显存带宽 (GB/s) / 激活参数体积 (GB)例:Qwen3-32B 权重 BF16 ≈ 64GB,INT4 ≈ 16GB;RTX 5090 带宽 1.79TB/s,理论上限 ≈ 1790/16 ≈ 112 tok/s,vLLM 实测 80–95 tok/s,吻合。公式本身是 roofline 在 memory-bound 阶段的简化,详见 PagedAttention 论文 与 SGLang RadixAttention 论文。
Prefill 阶段由算力决定,tok/s 正比于 TFLOPS / (2 × 激活参数量);长 prompt / RAG / Agent 场景首 token 等待时间主要花在这里。Chunked prefill 的原理与收益见 vLLM 文档。
2. 硬件全景深度对比
2.1 Apple Silicon:Mac Studio 产品线
Apple Mac Studio 历代 Ultra 芯片内存上限对比:
| 芯片 | 发布 | 最大统一内存 | 内存带宽 | 备注 |
|---|---|---|---|---|
| M2 Ultra | 2023.6 | 192 GB | 800 GB/s | Mac Studio / Mac Pro |
| M3 Ultra | 2025.3 | 192 GB | 800 GB/s | Mac Studio / Mac Pro |
| M4 Ultra | 2025.3 | 192 GB | 546 GB/s | Mac Studio / Mac Pro |
来源:Apple Mac Studio 规格页、Apple M4 Ultra 规格(cpu-monkey)、Wikipedia M3 Ultra
注意:M2 Ultra Mac Studio 支持最高 192 GB,不存在 512 GB 的 Mac Studio 配置。此前文档中"M3 Ultra 512GB"为错误信息,已更正。
Mac Pro(M2 Ultra) 支持最高 192 GB;如需更大内存跑超大模型,目前 Apple 生态无单机超过 192 GB 的消费级方案。
- M4 Max MacBook Pro:128 GB 上限,546 GB/s,见 Apple MacBook Pro
- 软件栈:MLX、llama.cpp Metal、Ollama、LM Studio
能跑的极限负载(社区实测,192 GB 上限):
- Qwen3-235B-A22B Q4(~120 GB):192GB 机型可装下,约 25–30 tok/s,见 LocalLLaMA 实测线程
- Llama-3.3-70B Q4(~40 GB):约 12–18 tok/s
- DeepSeek-V3/R1 671B Q4_K_M(~380 GB):192 GB 装不下,需要多机或其他方案
M3 Ultra vs M4 Ultra 选择:
- 两者内存上限相同(192 GB),M3 Ultra 带宽 800 GB/s 略高于 M4 Ultra 的 546 GB/s,推理速度 M3 Ultra 更快
- M4 Ultra CPU/Neural Engine 更新,编译/微调任务更快
- 起价均约 US$ 3,999(Apple 官网)
不适合:
- 长上下文 prefill 慢(compute-bound),128K ctx 首 token 几十秒级
- 并发差,单 batch 天然状态,上 vLLM/SGLang 无收益
- 无 CUDA,绝大多数训练/微调工具链走弯路
- 无法跑 DeepSeek-V3/R1 671B 等超过 192 GB 的模型
2.2 NVIDIA 消费级:RTX 4090 / RTX 5090
| 项 | RTX 4090 | RTX 5090 |
|---|---|---|
| 架构 | Ada (AD102) | Blackwell (GB202) |
| 显存 | 24 GB GDDR6X | 32 GB GDDR7 |
| 带宽 | 1,008 GB/s | 1,792 GB/s |
| FP8 / FP4 TFLOPS | 660 / — | 3,352 / 6,704(含稀疏) |
| TDP | 450 W | 575 W |
| MSRP | US$ 1,599 | US$ 1,999 |
| 国内参考价 | ¥12–18k(二手)/ ¥18–22k(新) | ¥20–25k(AIB 版) |
官方规格:RTX 4090、RTX 5090。国内价格参考中关村在线,因关税/汇率波动请以当日电商报价为准。
整机 TCO 估算(3 年,含电费):
| 配置 | 硬件成本 | 满载功耗 | 3 年电费(¥0.8/kWh,IDC) | 3 年总成本 |
|---|---|---|---|---|
| 1× RTX 5090 + 主机 | ~¥30k | ~700W | ~¥1.5k | ~¥31.5k |
| 2× RTX 5090 + 主机 | ~¥55k | ~1,400W | ~¥3k | ~¥58k |
实测(vLLM / TensorRT-LLM):
- 5090 单卡 Qwen3-32B AWQ-INT4:单流 ~85 tok/s,batch 8 合计 ~340 tok/s(vLLM benchmark 脚本)
- 4090 单卡 Qwen3-14B FP8:~120 tok/s 单流
- 2× 5090 张量并行:Blackwell 消费卡无 NVLink,走 PCIe 5.0 x16,70B Q4 双卡 ~40–55 tok/s
- 不支持 MIG / vGPU,不能切卡做多租户(NVIDIA vGPU 支持矩阵)
坑:
- 575W 对家用电源/散热是硬门槛,2 卡起必须 1600W+ 钛金电源 + 开放式机架
- 消费卡 NVIDIA Driver EULA 禁止数据中心部署(出海 SaaS 要注意)
2.3 NVIDIA 工作站级:RTX PRO 6000 Blackwell
2026 H1 单机本地部署最甜的卡。
- 96 GB GDDR7 ECC,带宽 1,792 GB/s,AI 算力 4,000 TOPS
- 来源:NVIDIA 官方产品页
- 300W TDP(工作站版主动散热;Server Edition 被动散热,需机箱风道)
- 来源:TechPowerUp 规格页
- 支持 MIG(4 分区)、vGPU、ECC,规格见 官方产品页
- MSRP US$ 8,999(2025.3 上市,国内含税约 ¥75–90k,以当日电商报价为准)
- 来源:TechPowerUp、Newegg 在售页
整机 TCO 估算(3 年,含电费,IDC 电价 ¥0.8/kWh):
| 配置 | 硬件成本(含整机) | 满载功耗 | 3 年电费 | 3 年总成本 |
|---|---|---|---|---|
| 1× PRO 6000 整机 | ~¥22 万 | ~500W | ~¥1.1 万 | ~¥23 万 |
| 2× PRO 6000 整机 | ~¥35 万 | ~800W | ~¥1.7 万 | ~¥37 万 |
单卡可跑:
- Llama-3.3-70B FP8(~70GB) → ~55 tok/s 单流,batch 32 稳态 ~600 tok/s
- Qwen3-72B FP8 单卡放下,~50 tok/s 单流,batch 32 稳态 ~550 tok/s
- DeepSeek-R1-Distill-Llama-70B FP8 单卡
- 128K 长上下文 KV Cache 游刃有余(vLLM 长上下文指南)
并发能力参考(Qwen3-72B FP8,vLLM,TTFT p95 ≤ 500ms):
| 并发用户数 | 稳态 tok/s | 说明 |
|---|---|---|
| 5 | ~250 | 轻松,有大量余量 |
| 20 | ~500 | 舒适区,推荐日常生产 |
| 50 | ~580 | 接近上限,队列开始积压 |
| 100+ | 需 2 卡 | 单卡 KV Cache 不足 |
双卡(2× = 192GB):
- DeepSeek-V3 671B INT4(~335GB)放不下
- Qwen3-235B-A22B INT4(~120GB)可以,TP=2 单流 60–80 tok/s,batch 32 稳态 ~1,200 tok/s,支持 ~100 并发
工作站版与数据中心版(RTX PRO 6000 Blackwell Server Edition,被动散热)区别见 NVIDIA PRO GPU 对比。
2.4 NVIDIA 数据中心:H100 / H200 / B200 / B300
| 卡 | 显存 | 带宽 | FP8 / FP4 TFLOPS | 单卡价 | 官方链接 |
|---|---|---|---|---|---|
| H100 SXM5 80GB | HBM3 | 3.35 TB/s | 1,979 / — | ~$25k | H100 |
| H100 NVL 94GB | HBM3 | 3.9 TB/s | 1,979 / — | ~$30k | 同上 |
| H200 SXM 141GB | HBM3e | 4.8 TB/s | 1,979 / — | ~$30k | H200 |
| B200 SXM 192GB | HBM3e | 8 TB/s | 4,500 / 9,000 | ~$35–40k | Blackwell 架构 |
| B300 SXM 288GB | HBM3e | ~10 TB/s | ~5,500 / ~11,000 | ~$40–45k | B300 发布 |
GB200 / GB300 NVL72:超节点架构,把 72 颗 Blackwell GPU 通过 NVLink Switch 做成"单机",总显存