testesttest
2026/7/3 6:47:31 网站建设 项目流程

DeepSeek R1

MLA(DeepSeek V2/V3):
先压到低维隐空间:只缓存CKV和KR
权值融合是提速线性层的,避免小矩阵乘

DeepSeek V4
DeepSeek-V4 不是简单扩大模型,而是在“参数规模、长上下文、训练稳定性、推理成本”之间做了一整套结构设计
https://zhuanlan.zhihu.com/p/2031146581542580917

DSA: DeepSeek Sparse Attention
CSA: Compressed Sparse Attention 压缩稀疏attention, 把每 m=4 个 token 的 KV 信息压成一个 compressed KV entry
图里右侧的 Lightning Indexer 就是做这个选择的模块。左侧的 Top-k Selector 会把真正需要关注的 compressed KV entries 选出来,再和最近的 sliding window KV entries 拼起来送入 attention
HCA: Heavily Compressed Attention HCA 的压缩率是 m’=128,也就是每 128 个 token 压成一个 KV entry
SWA:Sliding Window Attention 保留最近 128 个 token 的未压缩 KV entries。这样模型既能通过 CSA/HCA 看远处,也能通过 SWA 看近处。
CSA:压缩较轻,还会做 top-k 选择,适合较细粒度的长程信息访问。
HCA:压缩很重,成本更低,适合提供远距离的全局背景。
SWA:保留最近窗口的未压缩信息,避免局部信息被过度压缩。
然后 CSA 和 HCA 隔层交错(interleave):奇数层用 CSA,偶数层用 HCA(Pro 前两层全 HCA 除外)。两种层各有擅长,互补。

mHC: residual stream 扩成多份, 限制在一个稳定的空间里,报告中对应 doubly stochastic matrix 和 Sinkhorn 投影

CSA/HCA 改的是 attention 如何访问上下文;mHC 改的是 Transformer block 之间 residual 信息如何传播。一个解决长上下文访问成本,一个解决深层复杂结构的信息流和训练稳定性。

QWEN3.5

参考资料:
https://zhuanlan.zhihu.com/p/2022070521718666699
https://zhuanlan.zhihu.com/p/1971671251123705351
1、为什么要设计为chunk的模式,线性注意力不是对内存消耗小吗
GDN 的 chunked 调度是 “状态分片 + 硬件贴合” 的线性注意力专属优化;标准 Attention 的 chunk 只是为了把 O (n²) 矩阵拆小、省显存,二者目的、对象、调度粒度完全不一样。
GDN(Gated Delta Net)属于线性注意力,本质是把 Attention 写成 RNN 式的递推:
Mt=Mt−1+ΔMt,Ot=f(Qt,Mt)
核心:维护一个全局隐状态 M(d×d),序列越长,M 的读写压力越大、访存越不规则。
Chunked 调度做法:
把长序列 T 切成多个时间 chunk(BT,如 512/1024)
每个 chunk 内部并行计算,chunk 间串行递推状态 M
同时在 K/V 维度也分块(BK/BV),贴合 GPU SRAM/Tensor Core 分片
效果:
把 “逐 token 乱序访存” 变成 “chunk 级规整访存”
SM 利用率从 30% → 70%–90%
显存峰值从 O (Td²) 降到 O (BT・d²),能跑更长序列

2、QWEN3.5的核心创新和主要目标是什么
主要目标:
当长上下文处理成为大模型突破性能上限的关键,传统 KV Cache的存储桎梏与算力消耗难题亟待破解。

核心创新:
1)Hybrid Attention:GDN(Gated Delta Network)+ 标准 Attention(3:1)
75% 层用 GDN(线性注意力):复杂度从 O(n2) 降到 O(n),长序列(256K)推理提速最高 19 倍。
25% 层用标准 Full Attention:保留全局交互,避免线性注意力性能塌陷。
GDN 本质:递推式状态更新 St=exp(gt)⊙St−1+ktδt⊤,配合因果卷积(kernel=4)做局部时序建模。
a、 增量更新
GDN 单序列确实比 Attention 慢(顺序依赖),但它的优势是内存:100K 上下文时,GDN 状态只需 2MB,而 KV Cache 需要 1.6GB(800x 差距)。这让 Qwen3.5 能支持超长上下文、4 倍并发,以及端侧部署。

传统 Attention:显式存储所有历史 KV

kv_cache = [(k₁,v₁), (k₂,v₂), …, (kₗ,vₗ)] # O(L) 内存

GDN:压缩到固定大小的矩阵

state = S # 128×128,始终 64KB

先用 α 对当前状态做一次整体衰减,再用 β 在当前 key 方向上进行定点清除和写入。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询