LLM Cookbook 终极指南：10个Token控制与API调用优化技巧-酒店常州论坛

LLM Cookbook 终极指南：10个Token控制与API调用优化技巧

【免费下载链接】llm-cookbook面向开发者的 LLM 入门教程，吴恩达大模型系列课程中文版项目地址: https://gitcode.com/datawhalechina/llm-cookbook

Datawhale / llm-cookbook 是面向开发者的 LLM 入门教程，基于吴恩达大模型系列课程中文版打造，帮助开发者掌握 Token 控制与 API 调用优化的核心技能，轻松构建高效的大模型应用。

一、Token 基础：理解大模型的"积木" 🧩

Token 是 LLM 处理文本的基本单位，1个 Token 约等于英文单词的1/4或中文汉字的1/2。在 API 调用中，输入和输出的 Token 总数会直接影响成本和响应速度。

例如，"我爱自然语言处理"这句话包含5个中文 Token，而"Hello world"则是2个英文 Token。合理控制 Token 数量是优化 API 调用的第一步。

![Token 表示示意图](https://raw.gitcode.com/datawhalechina/llm-cookbook/raw/d53a36772c76fef0f55295af102615dd498a60cd/content/选修-Large Language Models with Semantic Search/images/3-1.png?utm_source=gitcode_repo_files)图：语义空间中的 Token 分布示意图，不同类型的词汇在向量空间中形成聚类

二、API 调用基础配置：从获取密钥开始 🔑

在开始优化之前，需要先正确配置 API 环境。以 OpenAI API 为例，获取密钥的步骤如下：

登录 OpenAI 平台账户
点击右上角头像，选择"View API Keys"
创建新的 API 密钥并妥善保存

图：OpenAI 平台 API 密钥获取页面，红框标注了关键操作位置

基础调用代码示例：

def get_completion_from_messages(messages, model="gpt-3.5-turbo", temperature=0, max_tokens=500): response = openai.ChatCompletion.create( model=model, messages=messages, temperature=temperature, max_tokens=max_tokens ) return response.choices[0].message["content"]

代码来源：content/必修二-Building Systems with the ChatGPT API/utils_zh.py

三、Token 控制实用技巧

1. 设置 max_tokens 参数：精确控制输出长度 ⚖️

在 API 调用时指定max_tokens参数，可以限制模型的输出长度，避免不必要的 Token 消耗。建议根据实际需求设置合理值，如摘要任务可设为200-300，简短回答设为100以内。

2. 输入文本预处理：去除冗余信息 🧹

在发送请求前，对输入文本进行清洗：

删除无关内容和格式标记
使用摘要技术压缩长文本
提取关键信息点

3. 分块处理长文本：突破 Token 限制 📦

当处理超过模型 Token 限制的长文本时（如 gpt-3.5-turbo 为4096 Token），可采用分块策略：

将文本分割为多个小块
逐一处理每个块
合并结果

相关实现可参考：content/必修四-LangChain Chat with Your Data/3.文档分割 Splitting.ipynb

四、API 调用优化策略

1. 选择合适的模型：平衡性能与成本 📊

根据任务需求选择模型：

简单任务（分类、短问答）：使用 gpt-3.5-turbo
复杂任务（创意写作、推理）：使用 gpt-4
嵌入生成：使用 text-embedding-ada-002

2. 优化 temperature 参数：控制输出随机性 🌡️

temperature=0：输出更确定、集中
temperature=0.7：输出更多样化
根据任务类型调整，事实性任务建议设为0-0.3

3. 批处理请求：减少 API 调用次数 🚀

将多个独立请求合并为批处理，减少网络往返时间和调用次数。适用于批量分类、批量摘要等场景。

4. 缓存重复请求：避免重复消费 💾

对相同或相似的请求结果进行缓存，尤其是问答系统中常见问题的回答，可显著降低 Token 消耗。

五、高级优化：检索增强与 Token 效率

在处理知识密集型任务时，结合检索增强生成（RAG）技术，可大幅提高 Token 使用效率：

将知识库向量化存储（如使用 Chroma 向量数据库）
检索相关片段作为上下文传入
模型仅基于相关上下文生成回答

![基于 Chroma 的高级检索技术](https://raw.gitcode.com/datawhalechina/llm-cookbook/raw/d53a36772c76fef0f55295af102615dd498a60cd/content/选修-Advanced Retrieval for AI with Chroma/images/基于Chroma的高级检索技术.png?utm_source=gitcode_repo_files)图：Chroma 高级检索技术架构，通过查询扩展、重排序等技术提升检索效率

相关实现可参考：content/必修四-LangChain Chat with Your Data/5.检索 retrieval.ipynb

六、实践案例：Token 优化前后对比

优化前：直接将整篇文档（3000 Token）传入 API，生成摘要花费 300 Token，总成本 3300 Token。

优化后：

文档分块处理（每块 500 Token，共 6 块）
检索相关块（2 块，共 1000 Token）
生成摘要花费 200 Token，总成本 1200 Token

优化后节省约 64% 的 Token 消耗，同时提升响应速度和准确性。

七、总结：成为 Token 优化大师 🎯

掌握 Token 控制与 API 调用优化是每个 LLM 开发者的必备技能。通过本文介绍的10个技巧，你可以：

显著降低 API 使用成本
提高应用响应速度
改善模型输出质量

建议结合 content/必修二-Building Systems with the ChatGPT API 中的实例代码进行实践，快速提升你的 LLM 应用开发能力！

想要深入学习更多 LLM 开发技巧？立即 clone 项目开始探索：

git clone https://gitcode.com/datawhalechina/llm-cookbook

【免费下载链接】llm-cookbook面向开发者的 LLM 入门教程，吴恩达大模型系列课程中文版项目地址: https://gitcode.com/datawhalechina/llm-cookbook

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

企业官网建设流程全解析