数据处理——语料清洗与分词，Garbage In, Garbage Out-酒店常州论坛

前置知识：无。这一篇不依赖深度学习理论知识。

你可能觉得大模型最重要的是"模型架构"。但现实是：

数据质量决定了模型能力的上限，模型架构只是逼近这个上限的手段。

LLaMA-3 用 15T token 训练——如果数据质量差，15T 垃圾 = 一个会说废话的模型。GPT-3 论文花了大量篇幅描述数据清洗流程——不是因为他们没事干，而是不洗数据模型根本没法用。

这一篇我们聊三件事：

神经网络不能直接处理"文字"，它只能处理数字。分词器把文本变成整数序列：

"我爱大模型" → [101, 235, 456, 789, 102] # token ID 序列

看起来简单，但怎么做有很多讲究。

企业官网建设流程全解析