testesttest-酒店常州论坛 - Powered by Discuz!

DeepSeek R1

MLA（DeepSeek V2/V3）：
先压到低维隐空间：只缓存CKV和KR
权值融合是提速线性层的，避免小矩阵乘

DeepSeek V4
DeepSeek-V4 不是简单扩大模型，而是在“参数规模、长上下文、训练稳定性、推理成本”之间做了一整套结构设计
https://zhuanlan.zhihu.com/p/2031146581542580917

DSA: DeepSeek Sparse Attention
CSA: Compressed Sparse Attention 压缩稀疏attention, 把每 m=4 个 token 的 KV 信息压成一个 compressed KV entry
图里右侧的 Lightning Indexer 就是做这个选择的模块。左侧的 Top-k Selector 会把真正需要关注的 compressed KV entries 选出来，再和最近的 sliding window KV entries 拼起来送入 attention
HCA: Heavily Compressed Attention HCA 的压缩率是 m’=128，也就是每 128 个 token 压成一个 KV entry
SWA：Sliding Window Attention 保留最近 128 个 token 的未压缩 KV entries。这样模型既能通过 CSA/HCA 看远处，也能通过 SWA 看近处。
CSA：压缩较轻，还会做 top-k 选择，适合较细粒度的长程信息访问。
HCA：压缩很重，成本更低，适合提供远距离的全局背景。
SWA：保留最近窗口的未压缩信息，避免局部信息被过度压缩。
然后 CSA 和 HCA 隔层交错（interleave）：奇数层用 CSA，偶数层用 HCA（Pro 前两层全 HCA 除外）。两种层各有擅长，互补。

mHC: residual stream 扩成多份, 限制在一个稳定的空间里，报告中对应 doubly stochastic matrix 和 Sinkhorn 投影

CSA/HCA 改的是 attention 如何访问上下文；mHC 改的是 Transformer block 之间 residual 信息如何传播。一个解决长上下文访问成本，一个解决深层复杂结构的信息流和训练稳定性。

QWEN3.5

参考资料：
https://zhuanlan.zhihu.com/p/2022070521718666699
https://zhuanlan.zhihu.com/p/1971671251123705351
1、为什么要设计为chunk的模式，线性注意力不是对内存消耗小吗
GDN 的 chunked 调度是 “状态分片 + 硬件贴合” 的线性注意力专属优化；标准 Attention 的 chunk 只是为了把 O (n²) 矩阵拆小、省显存，二者目的、对象、调度粒度完全不一样。
GDN（Gated Delta Net）属于线性注意力，本质是把 Attention 写成 RNN 式的递推：
Mt=Mt−1+ΔMt,Ot=f(Qt,Mt)
核心：维护一个全局隐状态 M（d×d），序列越长，M 的读写压力越大、访存越不规则。
Chunked 调度做法：
把长序列 T 切成多个时间 chunk（BT，如 512/1024）
每个 chunk 内部并行计算，chunk 间串行递推状态 M
同时在 K/V 维度也分块（BK/BV），贴合 GPU SRAM/Tensor Core 分片
效果：
把 “逐 token 乱序访存” 变成 “chunk 级规整访存”
SM 利用率从 30% → 70%–90%
显存峰值从 O (Td²) 降到 O (BT・d²)，能跑更长序列

2、QWEN3.5的核心创新和主要目标是什么
主要目标：
当长上下文处理成为大模型突破性能上限的关键，传统 KV Cache的存储桎梏与算力消耗难题亟待破解。

核心创新：
1）Hybrid Attention：GDN（Gated Delta Network）+ 标准 Attention（3:1）
75% 层用 GDN（线性注意力）：复杂度从 O(n2) 降到 O(n)，长序列（256K）推理提速最高 19 倍。
25% 层用标准 Full Attention：保留全局交互，避免线性注意力性能塌陷。
GDN 本质：递推式状态更新 St=exp(gt)⊙St−1+ktδt⊤，配合因果卷积（kernel=4）做局部时序建模。
a、增量更新
GDN 单序列确实比 Attention 慢（顺序依赖），但它的优势是内存：100K 上下文时，GDN 状态只需 2MB，而 KV Cache 需要 1.6GB（800x 差距）。这让 Qwen3.5 能支持超长上下文、4 倍并发，以及端侧部署。

传统 Attention：显式存储所有历史 KV

kv_cache = [(k₁,v₁), (k₂,v₂), …, (kₗ,vₗ)] # O(L) 内存

GDN：压缩到固定大小的矩阵

state = S # 128×128，始终 64KB

先用 α 对当前状态做一次整体衰减，再用 β 在当前 key 方向上进行定点清除和写入。

企业官网建设流程全解析

传统 Attention：显式存储所有历史 KV

GDN：压缩到固定大小的矩阵

热门文章

文章分类

标签云

需要专业的网站建设服务？

企业官网建设流程全解析

传统 Attention：显式存储所有历史 KV

GDN：压缩到固定大小的矩阵

热门文章

文章分类

标签云

相关文章

2026OpenClaw官网替代品实测榜单 六款本地 AI 智能体解决官网访问问题

大模型API中转站实测：上架时效与计费透明度双维度评测

2026年7月最新AI论文写作工具测评：7款横向对比与真实场景选择指南

需要专业的网站建设服务？

2026OpenClaw官网替代品实测榜单六款本地 AI 智能体解决官网访问问题