RTX 5080 + RTX 3090 配置:Qwen 3.6 27B Q8 实现 80+ 令牌/秒高速运行!
2026/6/14 10:37:13 网站建设 项目流程

RTX 5080与RTX 3090的配置契机

一年前,购买了一张RTX 5080用于游戏和AI实验,当时没想到会沉浸在本地大语言模型(LLM)配置的乐趣中。到了2026年,随着Qwen 3.5、Gemma、Qwen 3.6等模型的出现,16GB显存不够用了,于是买了一张翻新的24GB RTX 3090。运行Qwen 3.6 Q4量化模型,起初速度约为30令牌/秒,使用多线程处理(MTP)后能达到50 - 60令牌/秒,但仍感觉受限制,且RTX 5080几乎没怎么用到。

双显卡协同工作的准备

开始研究让两张显卡协同工作,已准备好DDR4内存和SSD硬盘,选择了华硕Prime X570 - Pro主板,“Pro”版本能确保16x PCIe接口可以拆分为2x8。由于RTX 5080功耗较大,买了一根高质量的PCIe 4延长线,将其插在第二个插槽上。

BIOS设置

BIOS设置比预想复杂。不能以BIOS/MBR模式启动操作系统,否则两张显卡都无法使用,即便使用其中一张,也需对内核参数进行不必要的调整。需要设置的参数如下:进入 “Boot” 选项卡,将 “CSM(兼容性支持模块)” 设置为 “Disabled”;进入 “Advanced” 选项卡 -> “PCI Subsystem Settings”;将 “Above 4G Decoding” 设置为 “Enabled”;将 “ReSize BAR Support” 设置为 “Auto” 或 “Enabled”;仍然在 “Advanced” 选项卡中,将 “PCIEX16_1 Link Mode” 设置为 “Gen 4”;将 “PCIEX16_2 Link Mode” 设置为 “Gen 4”。

内核设置

NVIDIA的文档有些混乱,驱动安装步骤链接可查看相关内容。由于两张GPU型号不同,无法使用相关配置。测试发现不同型号、不同代的GPU很可能会失败。不过,对于拥有两张相同型号显卡的幸运读者,在构建/安装补丁驱动后,需卸载 `nvidia - dkms - open`,屏蔽新的 `nova` 驱动,这样新补丁驱动才能在启动时加载。若拥有不同型号的NVIDIA显卡,直接使用 `nvidia - open` 驱动即可。使用 `nvidia` 驱动重启后,可检查驱动是否能识别显卡。

llama.cpp设置

使用特定编译标志来支持这两代显卡,关键标志是 `CMAKE_CUDA_ARCHITECTURES = "86;120"`,能同时启用 “Ampere” 和 “Blackwell” 架构。注意 `-DGGML_CUDA_NCCL = OFF` 这个标志,`nccl` 实际上会起反作用。启动选项有具体要求,要点如下:[Huihui - Qwen3.6 - 27B - abliterated - ggml - model - Q8_0.gguf] 这个模型的 `q8` 量化版本在230k上下文和KV缓存量化为 `q8` 的情况下,能适配总共39GB的显存;`--spec - type ngram - mod,draft - mtp --spec - draft - n - max 3` 结合了 `ngram` 提示和MTP推测加速;`-sm tensor` 参考了相关文档;`-ts 2,3` 是显卡使用比例,对充分利用每张显卡的显存很重要。

结果

通过这样的配置,能够以 `q8` 量化运行完整的 [Qwen3.6] 模型,速度高达80 + 令牌/秒,根据任务不同,最高可达90 + 令牌/秒。在显卡计算时,可用命令检查它们是否全速运行,对于每个PCIe端口,若在16x/2拆分模式下运行工作负载,会看到相应结果。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询