ai训练达到顿悟的泛化效果,"总数据量是 m²,训练所需要的数据量是 log m
核心结论
数据量:O(M log M)
对于群算术任务(如模 M 加法),只需要 O(M log M) 的样本量就足以学到可泛化的特征,而不是 M²。
- 总样本空间是 M²(所有输入对)
- 但理论证明:O(M log M) 样本就能维持泛化所需的局部最优解
- 这意味着数据效率是O((log M)/M)的比例,远小于 1
训练步数:与 log 相关,但形式更复杂
训练步数(Grokking delay)的 Scaling 不是简单的 log M,而是:
τgrok≈Ω⋅pcritp∝1ωρ\tau_{grok} \approx \frac{\Omega \cdot p_{crit}}{p} \propto \frac{1}{\omega \rho}τgrok≈pΩ⋅pcrit∝ωρ1
其中:
- 高冗余度下近似为逆线性缩放(∝ 1/p)
- 也包含log 项:τ=−Ωlog(1−pcrit/p)\tau = -\Omega \log(1 - p_{crit}/p)τ=−Ωlog(1−pcrit/p)
- 小初始化下:k∗≍log(1/ε)k_* \asymp \log(1/\varepsilon)k∗≍log(1/ε)
关键论文
- Tian et al. (2025)“Provable Scaling Laws of Feature Emergence from Learning Dynamics of Grokking” — 证明了 O(M log M) 的数据下界
- Thomson et al. (2025)— 推导出 Grokking 时间的闭式解,包含 log 项
- Zhu et al. (2024)— 从 Grokking 视角研究语言模型的临界数据规模
直观解释
| 阶段 | 数据需求 | 训练步数 | 机制 |
|---|---|---|---|
| 记忆化 | 很少 | 很快 | 过拟合训练集 |
| Grokking | O(M log M) | 延迟 ~ log/逆线性 | 权重衰减推动发现简单解 |
| 立即泛化 | > O(M log M) | 几乎无延迟 | 数据足够直接学到规律 |
关键洞察:模型先快速记忆(高复杂度),然后在权重衰减压力下"坍缩"到简单解(低复杂度)。数据量决定了是否有足够的约束来稳定这个简单解,而训练步数取决于从记忆态逃逸到简单态的速度。
你可能混淆的来源
你提到的 “m²” 可能是:
- 总样本空间大小(确实是 M²)
- 纯记忆化所需的数据量(需要 M² 个神经元来记忆所有对)
- 某些特定任务的经验观察
但理论上,泛化不需要 M² 数据,O(M log M) 就够了——这是 Grokking 研究中最反直觉的发现之一。