文章目录前置基础:RoPE 旋转位置编码数学定义1. RoPE 基础公式2. 上下文缩放因子与波长定义3. 通用 RoPE 插值改造范式第一部分:历史方法缺陷(YaRN 的设计动机推导)1. Position Interpolation (PI 线性位置插值)数学缺陷推导2. NTK-aware 基频缩放插值定义缺陷推导3. NTK-by-parts:分段插值(YaRN 主干模块)核心观察推导斜坡函数γ ( r ) \gamma(r)γ(r)数学定义NTK-by-parts 的h ( θ d ) h(\theta_d)h(θd)完整公式公式拆解验证NTK-by-parts 相比前序方法优势第二部分:YaRN 独有模块——Attention 温度缩放(核心创新)1. 问题:仅 NTK-by-parts 仍存在长距离注意力熵失衡关键实现简化(无额外计算开销)2.k s c a l e k_{scale}kscale最优拟合公式推导数学性质3. YaRN 完整定义(NTK-by-parts + Attention 缩放)Definition 2 YaRN 整体变换第三部分:Dynamic-YaRN(推理时动态缩放扩展)1. 固定缩放 vs 动态缩放2. Dynamic-YaRN 工作流程KV Cache 实现约束3. 效果第四部分:YaRN 训练效率与外推能力数学解释1. 训练数据需求推导2. 外推原理3. 基准对比数学总结第五部分:完整推导链条汇总关键总公式合集前置基础:RoPE 旋转位置编码数学定义1. RoPE 基础公式Transformer 输入序列x 1 , . . . , x L ∈ R D x_1,...,x_L\in\mathbb{R}^Dx1