ScalingLaws-2022-Chinchilla-3:llama3中的Scaling Laws
2026/4/22 0:42:13 网站建设 项目流程

下面把Llama 3(arXiv:2407.21783)里所有“scaling law(尺度律)”相关的:常数、公式、推理流程、结论按论文原文顺序完整梳理出来(并标明出处)。我会用高中生能理解的数学方式写清楚“它在做什么、为什么这么做、最后得到什么”。


0. 论文里“scaling law”用来解决的两个问题

论文明确说他们做 scaling laws 主要为两件事:

  1. 给定预训练算力预算 ©,决定旗舰模型应当“多大”(模型规模/参数量)以及应当训练多少 tokens。
  2. 不只预测“下一个词的损失(loss)”,还要预测下游任务的准确率(例如 ARC Challenge)。为此他们用了“两段式”相关性拟合:先 (C\rightarrow) NLL,再 NLL (\rightarrow) Accuracy。

另外,论文还说他们用同样的 scaling law 方法来挑选预训练 data mix(数据配比)


1) Scaling law 实验里出现的“常数/设定”(论文给出的固定数字)

这些是“做出 scaling law 曲线”所用的实验范围与训练配方参数(你问的“常数”里,这些都属于论文明确写死/给出的数值)。

1.1 训练算力与模型规模范围(实验数据来源范围)

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询