现在我们已经从宏观层面了解了 AI 模型的工作原理,接下来看看一个既能帮助你理解模型如何“思考”,又能帮助你理解使用成本的概念:令牌(tokens)。
你可以把令牌理解为 AI 模型实际处理的“词”。但它们并不等同于我们日常使用的词语。
就像计算机并不真正理解字母“A”,而是用二进制(1 和 0)工作一样,AI 模型也不是直接处理“hello”或“world”这样的词。相反,它们会把一切拆分为更小的片段,称为令牌(tokens)。
例如,“hello”可能是一个令牌,但“understanding”可能会被拆分为多个令牌,如“under”“stand”“ing”。有时甚至词的部分、标点或空格也会单独成为令牌。
运行提示并启用分词器视图Start
What are some tips for providing better context when working with AI coding assistants? Be concise.
为什么这很重要?有两个原因:
- 令牌决定了模型的计费方式。按令牌计费,而不是按单词或字符。
- 令牌也是衡量模型速度的指标。更快的模型具有更高的 TPS(每秒令牌数),并更快返回给用户。
先说定价,因为这会影响你在使用 AI 模型时的花费。
了解 token
如果我们继续沿用把 AI 模型比作 API 的类比,那么 token 就是用来衡量并为输入与输出流量计费的单位。
AI 模型基于两类 token 收费:
- 输入 token,包括你发送给模型的所有内容,例如提示词(prompt)和先前的对话。
- 输出 token,包括模型返回给你的所有生成内容。
输出 token 通常比输入 token 贵 2–4 倍,因为生成新内容比仅处理你发送的内容需要更多计算。
由于 AI 模型按 token 计费,理解它们是控制成本的关键。可以把这类比为了解你的服务器成本构成。
你需要有意识地控制初始上下文中包含的信息量(我们稍后会讨论),以及如何引导模型在回复中保持简洁或提供更详细的内容。
流式响应
你是否注意过 ChatGPT 或其他 AI 聊天机器人似乎在“实时打字”回复?这不只是视觉效果,这实际上就是模型的底层工作方式。
AI 模型按顺序一次生成一个 token。它们先预测下一个 token,再用该预测去帮助预测后续的 token,以此类推。因此你会看到回复逐词出现(更准确地说,是逐个 token)。
响应可以以流的形式返回。这很好,因为你无需等待完整回复结束(可能需要几分钟),而且一旦模型开始跑偏,你就可以中断它。
以下关于流式传输的说法哪项正确?
流式传输只是 UI 花招;模型会瞬间生成完整文本。
模型逐个生成 token,并且可以流式传输部分输出。
流式传输会降低输出 token 成本。
流式传输会禁用中断。
优化 token 使用
AI 工具通常会采用一些技术来减少发送给底层模型的 token 数量。例如,自动缓存你经常复用的提示部分,或帮助你管理每次请求所包含的上下文。
《动手学PyTorch建模与应用:从深度学习到大模型》是一本从零基础上手深度学习和大模型的PyTorch实战指南。全书共11章,前6章涵盖深度学习基础,包括张量运算、神经网络原理、数据预处理及卷积神经网络等;后5章进阶探讨图像、文本、音频建模技术,并结合Transformer架构解析大语言模型的开发实践。书中通过房价预测、图像分类等案例讲解模型构建方法,每章附有动手练习题,帮助读者巩固实战能力。内容兼顾数学原理与工程实现,适配PyTorch框架最新技术发展趋势。