YaRN 完整设计原理与数学推导
2026/7/5 6:29:17 网站建设 项目流程

文章目录

    • 前置基础:RoPE 旋转位置编码数学定义
      • 1. RoPE 基础公式
      • 2. 上下文缩放因子与波长定义
      • 3. 通用 RoPE 插值改造范式
  • 第一部分:历史方法缺陷(YaRN 的设计动机推导)
    • 1. Position Interpolation (PI 线性位置插值)
      • 数学缺陷推导
    • 2. NTK-aware 基频缩放插值
      • 定义
      • 缺陷推导
    • 3. NTK-by-parts:分段插值(YaRN 主干模块)
      • 核心观察推导
      • 斜坡函数γ ( r ) \gamma(r)γ(r)数学定义
      • NTK-by-parts 的h ( θ d ) h(\theta_d)h(θd)完整公式
        • 公式拆解验证
      • NTK-by-parts 相比前序方法优势
  • 第二部分:YaRN 独有模块——Attention 温度缩放(核心创新)
    • 1. 问题:仅 NTK-by-parts 仍存在长距离注意力熵失衡
      • 关键实现简化(无额外计算开销)
    • 2.k s c a l e k_{scale}kscale最优拟合公式推导
      • 数学性质
    • 3. YaRN 完整定义(NTK-by-parts + Attention 缩放)
      • Definition 2 YaRN 整体变换
  • 第三部分:Dynamic-YaRN(推理时动态缩放扩展)
    • 1. 固定缩放 vs 动态缩放
    • 2. Dynamic-YaRN 工作流程
      • KV Cache 实现约束
    • 3. 效果
  • 第四部分:YaRN 训练效率与外推能力数学解释
    • 1. 训练数据需求推导
    • 2. 外推原理
    • 3. 基准对比数学总结
  • 第五部分:完整推导链条汇总
    • 关键总公式合集

前置基础:RoPE 旋转位置编码数学定义

1. RoPE 基础公式

Transformer 输入序列x 1 , . . . , x L ∈ R D x_1,...,x_L\in\mathbb{R}^Dx1

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询