Cursor智能体开发：令牌与定价-酒店常州论坛

现在我们已经从宏观层面了解了 AI 模型的工作原理，接下来看看一个既能帮助你理解模型如何“思考”，又能帮助你理解使用成本的概念：令牌（tokens）。

你可以把令牌理解为 AI 模型实际处理的“词”。但它们并不等同于我们日常使用的词语。

就像计算机并不真正理解字母“A”，而是用二进制（1 和 0）工作一样，AI 模型也不是直接处理“hello”或“world”这样的词。相反，它们会把一切拆分为更小的片段，称为令牌（tokens）。

例如，“hello”可能是一个令牌，但“understanding”可能会被拆分为多个令牌，如“under”“stand”“ing”。有时甚至词的部分、标点或空格也会单独成为令牌。

运行提示并启用分词器视图Start

What are some tips for providing better context when working with AI coding assistants? Be concise.

为什么这很重要？有两个原因：

令牌决定了模型的计费方式。按令牌计费，而不是按单词或字符。
令牌也是衡量模型速度的指标。更快的模型具有更高的 TPS（每秒令牌数），并更快返回给用户。

先说定价，因为这会影响你在使用 AI 模型时的花费。

了解 token

如果我们继续沿用把 AI 模型比作 API 的类比，那么 token 就是用来衡量并为输入与输出流量计费的单位。

AI 模型基于两类 token 收费：

输入 token，包括你发送给模型的所有内容，例如提示词（prompt）和先前的对话。
输出 token，包括模型返回给你的所有生成内容。

输出 token 通常比输入 token 贵 2–4 倍，因为生成新内容比仅处理你发送的内容需要更多计算。

由于 AI 模型按 token 计费，理解它们是控制成本的关键。可以把这类比为了解你的服务器成本构成。

你需要有意识地控制初始上下文中包含的信息量（我们稍后会讨论），以及如何引导模型在回复中保持简洁或提供更详细的内容。

流式响应

你是否注意过 ChatGPT 或其他 AI 聊天机器人似乎在“实时打字”回复？这不只是视觉效果，这实际上就是模型的底层工作方式。

AI 模型按顺序一次生成一个 token。它们先预测下一个 token，再用该预测去帮助预测后续的 token，以此类推。因此你会看到回复逐词出现（更准确地说，是逐个 token）。

响应可以以流的形式返回。这很好，因为你无需等待完整回复结束（可能需要几分钟），而且一旦模型开始跑偏，你就可以中断它。

以下关于流式传输的说法哪项正确？

流式传输只是 UI 花招；模型会瞬间生成完整文本。

模型逐个生成 token，并且可以流式传输部分输出。

流式传输会降低输出 token 成本。

流式传输会禁用中断。

优化 token 使用

AI 工具通常会采用一些技术来减少发送给底层模型的 token 数量。例如，自动缓存你经常复用的提示部分，或帮助你管理每次请求所包含的上下文。

《动手学PyTorch建模与应用:从深度学习到大模型》是一本从零基础上手深度学习和大模型的PyTorch实战指南。全书共11章，前6章涵盖深度学习基础，包括张量运算、神经网络原理、数据预处理及卷积神经网络等；后5章进阶探讨图像、文本、音频建模技术，并结合Transformer架构解析大语言模型的开发实践。书中通过房价预测、图像分类等案例讲解模型构建方法，每章附有动手练习题，帮助读者巩固实战能力。内容兼顾数学原理与工程实现，适配PyTorch框架最新技术发展趋势。

企业官网建设流程全解析

了解 token

流式响应

优化 token 使用

热门文章

文章分类

标签云

需要专业的网站建设服务？

企业官网建设流程全解析

了解 token

流式响应

优化 token 使用

热门文章

文章分类

标签云

相关文章

LAV Filters终极指南：解锁Windows高清视频播放的全能解码方案

Magentic框架：用Pythonic方式将LLM能力封装为函数调用

RIS技术提升MIMO系统性能的实验研究

需要专业的网站建设服务？