ScalingLaws-2022-Chinchilla-3：llama3中的Scaling Laws-酒店常州论坛

下面把Llama 3（arXiv:2407.21783）里所有“scaling law（尺度律）”相关的：常数、公式、推理流程、结论按论文原文顺序完整梳理出来（并标明出处）。我会用高中生能理解的数学方式写清楚“它在做什么、为什么这么做、最后得到什么”。

论文明确说他们做 scaling laws 主要为两件事：

给定预训练算力预算 ©，决定旗舰模型应当“多大”（模型规模/参数量）以及应当训练多少 tokens。
不只预测“下一个词的损失（loss）”，还要预测下游任务的准确率（例如 ARC Challenge）。为此他们用了“两段式”相关性拟合：先 (C\rightarrow) NLL，再 NLL (\rightarrow) Accuracy。

另外，论文还说他们用同样的 scaling law 方法来挑选预训练 data mix（数据配比）。

这些是“做出 scaling law 曲线”所用的实验范围与训练配方参数（你问的“常数”里，这些都属于论文明确写死/给出的数值）。

企业官网建设流程全解析