RTX 5080 + RTX 3090 配置：Qwen 3.6 27B Q8 实现 80+ 令牌/秒高速运行！-酒店常州论坛

RTX 5080与RTX 3090的配置契机

一年前，购买了一张RTX 5080用于游戏和AI实验，当时没想到会沉浸在本地大语言模型（LLM）配置的乐趣中。到了2026年，随着Qwen 3.5、Gemma、Qwen 3.6等模型的出现，16GB显存不够用了，于是买了一张翻新的24GB RTX 3090。运行Qwen 3.6 Q4量化模型，起初速度约为30令牌/秒，使用多线程处理（MTP）后能达到50 - 60令牌/秒，但仍感觉受限制，且RTX 5080几乎没怎么用到。

双显卡协同工作的准备

开始研究让两张显卡协同工作，已准备好DDR4内存和SSD硬盘，选择了华硕Prime X570 - Pro主板，“Pro”版本能确保16x PCIe接口可以拆分为2x8。由于RTX 5080功耗较大，买了一根高质量的PCIe 4延长线，将其插在第二个插槽上。

BIOS设置

BIOS设置比预想复杂。不能以BIOS/MBR模式启动操作系统，否则两张显卡都无法使用，即便使用其中一张，也需对内核参数进行不必要的调整。需要设置的参数如下：进入 “Boot” 选项卡，将 “CSM（兼容性支持模块）” 设置为 “Disabled”；进入 “Advanced” 选项卡 -> “PCI Subsystem Settings”；将 “Above 4G Decoding” 设置为 “Enabled”；将 “ReSize BAR Support” 设置为 “Auto” 或 “Enabled”；仍然在 “Advanced” 选项卡中，将 “PCIEX16_1 Link Mode” 设置为 “Gen 4”；将 “PCIEX16_2 Link Mode” 设置为 “Gen 4”。

内核设置

NVIDIA的文档有些混乱，驱动安装步骤链接可查看相关内容。由于两张GPU型号不同，无法使用相关配置。测试发现不同型号、不同代的GPU很可能会失败。不过，对于拥有两张相同型号显卡的幸运读者，在构建/安装补丁驱动后，需卸载 `nvidia - dkms - open`，屏蔽新的 `nova` 驱动，这样新补丁驱动才能在启动时加载。若拥有不同型号的NVIDIA显卡，直接使用 `nvidia - open` 驱动即可。使用 `nvidia` 驱动重启后，可检查驱动是否能识别显卡。

llama.cpp设置

使用特定编译标志来支持这两代显卡，关键标志是 `CMAKE_CUDA_ARCHITECTURES = "86;120"`，能同时启用 “Ampere” 和 “Blackwell” 架构。注意 `-DGGML_CUDA_NCCL = OFF` 这个标志，`nccl` 实际上会起反作用。启动选项有具体要求，要点如下：[Huihui - Qwen3.6 - 27B - abliterated - ggml - model - Q8_0.gguf] 这个模型的 `q8` 量化版本在230k上下文和KV缓存量化为 `q8` 的情况下，能适配总共39GB的显存；`--spec - type ngram - mod,draft - mtp --spec - draft - n - max 3` 结合了 `ngram` 提示和MTP推测加速；`-sm tensor` 参考了相关文档；`-ts 2,3` 是显卡使用比例，对充分利用每张显卡的显存很重要。

结果

通过这样的配置，能够以 `q8` 量化运行完整的 [Qwen3.6] 模型，速度高达80 + 令牌/秒，根据任务不同，最高可达90 + 令牌/秒。在显卡计算时，可用命令检查它们是否全速运行，对于每个PCIe端口，若在16x/2拆分模式下运行工作负载，会看到相应结果。

企业官网建设流程全解析

RTX 5080与RTX 3090的配置契机

双显卡协同工作的准备

BIOS设置

内核设置

llama.cpp设置

结果

热门文章

文章分类

标签云

需要专业的网站建设服务？

企业官网建设流程全解析

RTX 5080与RTX 3090的配置契机

双显卡协同工作的准备

BIOS设置

内核设置

llama.cpp设置

结果

热门文章

文章分类

标签云

相关文章

围棋AI分析利器：LizzieYzy快速上手指南

2026年精选AI论文平台榜单（实测甄选版）

从SPWM到SVPWM：深入对比两者在永磁同步电机FOC控制中的实际表现与1.154倍电压利用率真相

需要专业的网站建设服务？