开源大模型本地部署硬件选型深度指南-酒店常州论坛

作者：SkySeraph
原始链接：llm_locally
日期：2026-05-17
数据截至 2026-05-17

本文基于截至 2026 年 5 月的公开资料与业内已验证的实测数据整理，价格/供货信息请以官网当日为准。

1. 选型四坐标与容量公式

绝大多数“该买哪块卡”的纠结，都是因为没把需求拆清楚。真实选型只看四个量：

坐标	关键指标	决定什么
显存/统一内存容量	GB	能装下多大模型、多长 KV Cache
显存带宽	GB/s	解码阶段 tokens/s 的天花板
算力（FP8 / FP4 TFLOPS）	T	首 token 延迟 (TTFT) 与 prefill 吞吐
互联（NVLink / NVLink Switch / UB / PCIe）	GB/s	多卡/多机能否线性扩展

解码阶段 tok/s 的经验公式（内存带宽受限时成立）：

tokens/s ≈ 显存带宽 (GB/s) / 激活参数体积 (GB)

例：Qwen3-32B 权重 BF16 ≈ 64GB，INT4 ≈ 16GB；RTX 5090 带宽 1.79TB/s，理论上限 ≈ 1790/16 ≈ 112 tok/s，vLLM 实测 80–95 tok/s，吻合。公式本身是 roofline 在 memory-bound 阶段的简化，详见 PagedAttention 论文与 SGLang RadixAttention 论文。

Prefill 阶段由算力决定，tok/s 正比于 TFLOPS / (2 × 激活参数量)；长 prompt / RAG / Agent 场景首 token 等待时间主要花在这里。Chunked prefill 的原理与收益见 vLLM 文档。

2. 硬件全景深度对比

2.1 Apple Silicon：Mac Studio 产品线

Apple Mac Studio 历代 Ultra 芯片内存上限对比：

芯片	发布	最大统一内存	内存带宽	备注
M2 Ultra	2023.6	192 GB	800 GB/s	Mac Studio / Mac Pro
M3 Ultra	2025.3	192 GB	800 GB/s	Mac Studio / Mac Pro
M4 Ultra	2025.3	192 GB	546 GB/s	Mac Studio / Mac Pro

来源：Apple Mac Studio 规格页、Apple M4 Ultra 规格（cpu-monkey）、Wikipedia M3 Ultra

注意：M2 Ultra Mac Studio 支持最高 192 GB，不存在 512 GB 的 Mac Studio 配置。此前文档中"M3 Ultra 512GB"为错误信息，已更正。

Mac Pro（M2 Ultra） 支持最高 192 GB；如需更大内存跑超大模型，目前 Apple 生态无单机超过 192 GB 的消费级方案。

M4 Max MacBook Pro：128 GB 上限，546 GB/s，见 Apple MacBook Pro
软件栈：MLX、llama.cpp Metal、Ollama、LM Studio

能跑的极限负载（社区实测，192 GB 上限）：

Qwen3-235B-A22B Q4（~120 GB）：192GB 机型可装下，约 25–30 tok/s，见 LocalLLaMA 实测线程
Llama-3.3-70B Q4（~40 GB）：约 12–18 tok/s
DeepSeek-V3/R1 671B Q4_K_M（~380 GB）：192 GB 装不下，需要多机或其他方案

M3 Ultra vs M4 Ultra 选择：

两者内存上限相同（192 GB），M3 Ultra 带宽 800 GB/s 略高于 M4 Ultra 的 546 GB/s，推理速度 M3 Ultra 更快
M4 Ultra CPU/Neural Engine 更新，编译/微调任务更快
起价均约 US$ 3,999（Apple 官网）

不适合：

长上下文 prefill 慢（compute-bound），128K ctx 首 token 几十秒级
并发差，单 batch 天然状态，上 vLLM/SGLang 无收益
无 CUDA，绝大多数训练/微调工具链走弯路
无法跑 DeepSeek-V3/R1 671B 等超过 192 GB 的模型

2.2 NVIDIA 消费级：RTX 4090 / RTX 5090

项	RTX 4090	RTX 5090
架构	Ada (AD102)	Blackwell (GB202)
显存	24 GB GDDR6X	32 GB GDDR7
带宽	1,008 GB/s	1,792 GB/s
FP8 / FP4 TFLOPS	660 / —	3,352 / 6,704（含稀疏）
TDP	450 W	575 W
MSRP	US$ 1,599	US$ 1,999
国内参考价	¥12–18k（二手）/ ¥18–22k（新）	¥20–25k（AIB 版）

官方规格：RTX 4090、RTX 5090。国内价格参考中关村在线，因关税/汇率波动请以当日电商报价为准。

整机 TCO 估算（3 年，含电费）：

配置	硬件成本	满载功耗	3 年电费（¥0.8/kWh，IDC）	3 年总成本
1× RTX 5090 + 主机	~¥30k	~700W	~¥1.5k	~¥31.5k
2× RTX 5090 + 主机	~¥55k	~1,400W	~¥3k	~¥58k

实测（vLLM / TensorRT-LLM）：

5090 单卡 Qwen3-32B AWQ-INT4：单流 ~85 tok/s，batch 8 合计 ~340 tok/s（vLLM benchmark 脚本）
4090 单卡 Qwen3-14B FP8：~120 tok/s 单流
2× 5090 张量并行：Blackwell 消费卡无 NVLink，走 PCIe 5.0 x16，70B Q4 双卡 ~40–55 tok/s
不支持 MIG / vGPU，不能切卡做多租户（NVIDIA vGPU 支持矩阵）

坑：

575W 对家用电源/散热是硬门槛，2 卡起必须 1600W+ 钛金电源 + 开放式机架
消费卡 NVIDIA Driver EULA 禁止数据中心部署（出海 SaaS 要注意）

2.3 NVIDIA 工作站级：RTX PRO 6000 Blackwell

2026 H1 单机本地部署最甜的卡。

96 GB GDDR7 ECC，带宽 1,792 GB/s，AI 算力 4,000 TOPS
- 来源：NVIDIA 官方产品页
300W TDP（工作站版主动散热；Server Edition 被动散热，需机箱风道）
- 来源：TechPowerUp 规格页
支持 MIG（4 分区）、vGPU、ECC，规格见官方产品页
MSRP US$ 8,999（2025.3 上市，国内含税约 ¥75–90k，以当日电商报价为准）
- 来源：TechPowerUp、Newegg 在售页

整机 TCO 估算（3 年，含电费，IDC 电价 ¥0.8/kWh）：

配置	硬件成本（含整机）	满载功耗	3 年电费	3 年总成本
1× PRO 6000 整机	~¥22 万	~500W	~¥1.1 万	~¥23 万
2× PRO 6000 整机	~¥35 万	~800W	~¥1.7 万	~¥37 万

单卡可跑：

Llama-3.3-70B FP8（~70GB） → ~55 tok/s 单流，batch 32 稳态 ~600 tok/s
Qwen3-72B FP8 单卡放下，~50 tok/s 单流，batch 32 稳态 ~550 tok/s
DeepSeek-R1-Distill-Llama-70B FP8 单卡
128K 长上下文 KV Cache 游刃有余（vLLM 长上下文指南）

并发能力参考（Qwen3-72B FP8，vLLM，TTFT p95 ≤ 500ms）：

并发用户数	稳态 tok/s	说明
5	~250	轻松，有大量余量
20	~500	舒适区，推荐日常生产
50	~580	接近上限，队列开始积压
100+	需 2 卡	单卡 KV Cache 不足

双卡（2× = 192GB）：

DeepSeek-V3 671B INT4（~335GB）放不下
Qwen3-235B-A22B INT4（~120GB）可以，TP=2 单流 60–80 tok/s，batch 32 稳态 ~1,200 tok/s，支持 ~100 并发

工作站版与数据中心版（RTX PRO 6000 Blackwell Server Edition，被动散热）区别见 NVIDIA PRO GPU 对比。

2.4 NVIDIA 数据中心：H100 / H200 / B200 / B300

卡	显存	带宽	FP8 / FP4 TFLOPS	单卡价	官方链接
H100 SXM5 80GB	HBM3	3.35 TB/s	1,979 / —	~$25k	H100
H100 NVL 94GB	HBM3	3.9 TB/s	1,979 / —	~$30k	同上
H200 SXM 141GB	HBM3e	4.8 TB/s	1,979 / —	~$30k	H200
B200 SXM 192GB	HBM3e	8 TB/s	4,500 / 9,000	~$35–40k	Blackwell 架构
B300 SXM 288GB	HBM3e	~10 TB/s	~5,500 / ~11,000	~$40–45k	B300 发布

GB200 / GB300 NVL72：超节点架构，把 72 颗 Blackwell GPU 通过 NVLink Switch 做成"单机"，总显存

企业官网建设流程全解析

1. 选型四坐标与容量公式

2. 硬件全景深度对比

2.1 Apple Silicon：Mac Studio 产品线

2.2 NVIDIA 消费级：RTX 4090 / RTX 5090

2.3 NVIDIA 工作站级：RTX PRO 6000 Blackwell

2.4 NVIDIA 数据中心：H100 / H200 / B200 / B300

热门文章

文章分类

标签云

需要专业的网站建设服务？

企业官网建设流程全解析

1. 选型四坐标与容量公式

2. 硬件全景深度对比

2.1 Apple Silicon：Mac Studio 产品线

2.2 NVIDIA 消费级：RTX 4090 / RTX 5090

2.3 NVIDIA 工作站级：RTX PRO 6000 Blackwell

2.4 NVIDIA 数据中心：H100 / H200 / B200 / B300

热门文章

文章分类

标签云

相关文章

百度网盘下载限速太慢？PDown免登录高速下载器3步解决

如何快速解决嵌入式固件烧录问题：新手避坑完整指南

Skills Manager：开源AI技能管理工具，让AI助手告别重复Prompt输入

需要专业的网站建设服务？