ERNIE-4.5-0.3B-PT与LangChain集成：构建智能代理系统-酒店常州论坛

ERNIE-4.5-0.3B-PT与LangChain集成：构建智能代理系统

1. 为什么需要一个能思考的AI助手

你有没有遇到过这样的情况：在处理日常任务时，需要反复切换多个工具——查资料要打开浏览器，计算数据要启动Excel，写报告又要切到文档软件。每次操作都像在不同房间之间来回奔波，效率被切割得支离破碎。

真正的智能助手不该只是被动响应指令，而应该像一位经验丰富的同事，能记住上下文、理解任务目标、自主调用合适工具、并在过程中不断调整策略。ERNIE-4.5-0.3B-PT作为一款轻量但能力扎实的语言模型，配合LangChain框架，恰好能构建出这样具备记忆和推理能力的智能代理系统。

这个组合的优势很实在：ERNIE-4.5-0.3B-PT参数量适中，部署门槛低，对中文理解准确，生成内容自然流畅；LangChain则提供了成熟的工具调用、记忆管理、工作流编排能力。两者结合不是简单叠加，而是让小模型也能发挥出大系统的价值——不需要昂贵硬件，一台普通工作站就能跑起来；不需要复杂配置，核心逻辑清晰可维护；最重要的是，它能真正解决实际问题，而不是停留在技术演示层面。

2. 搭建基础环境：让ERNIE-4.5-0.3B-PT跑起来

在开始构建智能代理前，先确保ERNIE-4.5-0.3B-PT能在本地稳定运行。这款模型有多种部署方式，我们选择最实用、社区支持最完善的vLLM方案，兼顾性能和易用性。

2.1 环境准备与模型加载

首先安装必要的依赖：

pip install vllm langchain langchain-community python-dotenv

ERNIE-4.5-0.3B-PT在Hugging Face上以baidu/ERNIE-4.5-0.3B-PT标识发布。由于模型架构较新，需要启用远程代码支持：

from vllm import LLM from vllm.sampling_params import SamplingParams # 初始化模型，注意trust_remote_code=True llm = LLM( model="baidu/ERNIE-4.5-0.3B-PT", trust_remote_code=True, dtype="auto", gpu_memory_utilization=0.9, max_model_len=8192 ) # 测试基础生成能力 sampling_params = SamplingParams( temperature=0.7, top_p=0.95, max_tokens=512 ) outputs = llm.generate( ["请用中文简要介绍人工智能的发展历程"], sampling_params ) print(outputs[0].outputs[0].text)

如果遇到模型加载失败的情况（如This model is currently unusable in vLLM），说明需要应用社区修复补丁。根据Hugging Face上的PR记录，只需更新模型的架构定义即可。实际操作中，可以临时使用已修复的镜像版本，或等待官方更新。

2.2 构建LangChain兼容的模型接口

LangChain需要标准的ChatModel或LLM接口，而vLLM提供的是底层推理引擎。我们需要封装一层适配器：

from langchain_core.language_models import BaseLanguageModel from langchain_core.messages import BaseMessage, HumanMessage, AIMessage, SystemMessage from typing import List, Optional, Dict, Any import asyncio class VLLMChatModel(BaseLanguageModel): def __init__(self, vllm_engine: LLM, **kwargs): super().__init__(**kwargs) self.vllm_engine = vllm_engine def _generate( self, messages: List[BaseMessage], stop: Optional[List[str]] = None, run_manager=None, **kwargs: Any, ) -> dict: # 将LangChain消息格式转换为vLLM输入 prompt = self._format_messages_as_prompt(messages) sampling_params = SamplingParams( temperature=kwargs.get("temperature", 0.7), top_p=kwargs.get("top_p", 0.95), max_tokens=kwargs.get("max_tokens", 512), stop=stop ) outputs = self.vllm_engine.generate(prompt, sampling_params) return { "text": outputs[0].outputs[0].text, "generation_info": {"prompt_tokens": len(prompt.split())} } def _format_messages_as_prompt(self, messages: List[BaseMessage]) -> str: """将消息列表格式化为ERNIE-4.5-0.3B-PT期望的提示词""" prompt_parts = [] for msg in messages: if isinstance(msg, SystemMessage): prompt_parts.append(f"<|system|>{msg.content}<|end|>") elif isinstance(msg, HumanMessage): prompt_parts.append(f"<|user|>{msg.content}<|end|>") elif isinstance(msg, AIMessage): prompt_parts.append(f"<|assistant|>{msg.content}<|end|>") prompt_parts.append("<|assistant|>") return "".join(prompt_parts) @property def _llm_type(self) -> str: return "vllm_chat" # 创建LangChain可用的模型实例 chat_model = VLLMChatModel(llm)

3. 设计智能代理的核心能力

一个合格的智能代理，不能只靠“说”，更要能“做”。我们为ERNIE-4.5-0.3B-PT赋予三项核心能力：工具调用、长期记忆和工作流编排。这三者共同构成了代理的“手脚”、“大脑”和“神经中枢”。

3.1 工具调用：让AI能操作真实世界

工具调用是智能代理区别于普通聊天机器人的关键。我们设计几个实用工具：网络搜索、计算器、当前时间查询。这些工具看似简单，却能让代理解决大量实际问题。

from langchain.tools import BaseTool from langchain_core.callbacks import CallbackManagerForToolRun from typing import Optional, Type import requests import datetime import math class SearchTool(BaseTool): name = "search" description = "用于搜索互联网信息，当需要了解最新资讯、事实核查或查找特定信息时使用" def _run( self, query: str, run_manager: Optional[CallbackManagerForToolRun] = None ) -> str: # 实际项目中应替换为真实搜索引擎API # 此处为演示，返回模拟结果 return f"关于'{query}'的搜索结果：人工智能正在快速发展，尤其在多模态理解和生成领域取得突破。" class CalculatorTool(BaseTool): name = "calculator" description = "执行数学计算，支持加减乘除、幂运算和基本函数" def _run( self, expression: str, run_manager: Optional[CallbackManagerForToolRun] = None ) -> str: try: # 安全地计算表达式 result = eval(expression, {"__builtins__": {}}, { "math": math, "sin": math.sin, "cos": math.cos, "tan": math.tan, "log": math.log, "sqrt": math.sqrt }) return f"计算结果：{result}" except Exception as e: return f"计算错误：{str(e)}" class TimeTool(BaseTool): name = "get_current_time" description = "获取当前日期和时间，当需要知道具体时间点或进行时间相关计算时使用" def _run( self, query: str = "", run_manager: Optional[CallbackManagerForToolRun] = None ) -> str: now = datetime.datetime.now() return f"当前时间是：{now.strftime('%Y年%m月%d日 %H:%M:%S')}，星期{now.strftime('%A')}" # 注册所有工具 tools = [SearchTool(), CalculatorTool(), TimeTool()]

这些工具的设计原则是：每个工具职责单一、描述清晰、输入输出明确。LangChain的Agent会根据用户问题自动判断是否需要调用工具以及调用哪个工具，我们只需确保工具本身可靠即可。

3.2 记忆管理：让AI记住你的偏好和历史

没有记忆的AI就像金鱼，转头就忘。我们为代理添加两种记忆：短期对话记忆（ConversationBufferMemory）和长期知识记忆（VectorStore-backed Memory）。

from langchain.memory import ConversationBufferMemory, ConversationSummaryBufferMemory from langchain_community.vectorstores import Chroma from langchain_community.embeddings import HuggingFaceEmbeddings from langchain.text_splitter import RecursiveCharacterTextSplitter # 初始化嵌入模型（ERNIE-4.5配套的嵌入模型） embeddings = HuggingFaceEmbeddings( model_name="baidu/ERNIE-4.5-0.3B-PT", model_kwargs={"trust_remote_code": True} ) # 创建向量存储用于长期记忆 vectorstore = Chroma( collection_name="agent_memory", embedding_function=embeddings, persist_directory="./memory_db" ) # 对话记忆（短期） conversation_memory = ConversationBufferMemory( memory_key="chat_history", return_messages=True, output_key="output" ) # 总结记忆（长期，自动压缩长对话） summary_memory = ConversationSummaryBufferMemory( llm=chat_model, memory_key="chat_history", return_messages=True, max_token_limit=1000 )

这里有个实用技巧：对于ERNIE-4.5-0.3B-PT这种中小规模模型，直接使用ConversationBufferMemory可能造成上下文过长。因此我们采用混合策略——用ConversationSummaryBufferMemory自动将历史对话总结成精炼摘要，既保留关键信息，又不浪费宝贵的上下文窗口。

3.3 工作流编排：让AI按步骤解决问题

复杂任务需要分步执行。我们设计一个“旅行规划”工作流，展示如何将多个步骤串联起来：

from langchain.chains import SequentialChain from langchain.prompts import ChatPromptTemplate, MessagesPlaceholder # 步骤1：分析用户需求 analysis_prompt = ChatPromptTemplate.from_messages([ ("system", "你是一位专业的旅行顾问。请分析用户的旅行需求，提取关键信息：目的地、预算范围、出行时间、特殊要求。"), MessagesPlaceholder(variable_name="input") ]) analysis_chain = analysis_prompt | chat_model # 步骤2：搜索目的地信息 search_prompt = ChatPromptTemplate.from_messages([ ("system", "根据以下旅行需求，搜索相关信息："), ("human", "{analysis_result}") ]) search_chain = search_prompt | SearchTool() # 步骤3：生成详细行程 itinerary_prompt = ChatPromptTemplate.from_messages([ ("system", "你是一位资深旅行规划师。请根据以下信息，生成一份详细的3日行程安排，包含每日景点、交通建议、餐饮推荐和注意事项。"), ("human", "需求分析：{analysis_result}\n搜索结果：{search_result}") ]) itinerary_chain = itinerary_prompt | chat_model # 组合成完整工作流 travel_planner = SequentialChain( chains=[analysis_chain, search_chain, itinerary_chain], input_variables=["input"], output_variables=["analysis_result", "search_result", "output"], verbose=True ) # 使用示例 result = travel_planner.invoke({ "input": [ HumanMessage(content="我想下个月去杭州旅游，预算是5000元，喜欢历史文化，希望避开人太多的地方") ] }) print(result["output"])

这个工作流展示了LangChain的强大之处：每个步骤可以是语言模型、工具调用或外部API，它们被无缝连接在一起。ERNIE-4.5-0.3B-PT作为核心推理引擎，在每一步都提供准确的理解和生成能力，而整个流程的可靠性则由LangChain的错误处理和重试机制保障。

4. 构建完整智能代理系统

现在，我们将前面所有组件整合成一个可运行的智能代理。这个代理不仅能回答问题，还能主动规划、执行任务、学习用户偏好。

4.1 创建ReAct Agent：让AI学会思考和行动

ReAct（Reasoning + Acting）是目前最成熟的Agent范式，它让模型在每一步都先“思考”再“行动”，过程透明且可控。

from langchain.agents import create_react_agent, AgentExecutor from langchain import hub # 获取标准ReAct提示模板 prompt = hub.pull("hwchase17/react-chat") # 创建Agent agent = create_react_agent( llm=chat_model, tools=tools, prompt=prompt ) # 创建Agent执行器 agent_executor = AgentExecutor( agent=agent, tools=tools, memory=summary_memory, verbose=True, handle_parsing_errors=True, max_iterations=10 # 防止无限循环 ) # 与代理交互 def chat_with_agent(user_input: str): response = agent_executor.invoke({"input": user_input}) return response["output"] # 测试 print(chat_with_agent("今天北京天气怎么样？")) print(chat_with_agent("帮我计算(123+456)*789的结果")) print(chat_with_agent("现在几点了？"))

ReAct Agent的工作原理很直观：当用户提问时，Agent首先生成一段“思考”文字，分析问题本质；然后决定是否需要调用工具；调用后观察工具返回结果，再进行下一步思考。整个过程对开发者完全透明，便于调试和优化。

4.2 添加自定义工具：扩展代理能力边界

除了基础工具，我们可以轻松添加业务专属工具。例如，一个电商客服场景下的商品查询工具：

class ProductSearchTool(BaseTool): name = "product_search" description = "在电商数据库中搜索商品，输入关键词返回匹配的商品列表" def _run( self, keywords: str, run_manager: Optional[CallbackManagerForToolRun] = None ) -> str: # 模拟数据库查询 mock_products = [ {"id": "P1001", "name": "无线蓝牙耳机", "price": 299, "rating": 4.5}, {"id": "P1002", "name": "智能手表", "price": 899, "rating": 4.2}, {"id": "P1003", "name": "降噪耳机", "price": 599, "rating": 4.7} ] # 简单关键词匹配 results = [p for p in mock_products if keywords.lower() in p["name"].lower()] if not results: return "未找到匹配的商品" # 格式化返回结果 formatted = "\n".join([ f"{p['name']} (ID:{p['id']}) - ¥{p['price']} - 评分{p['rating']}/5" for p in results[:3] ]) return f"找到{len(results)}个商品：\n{formatted}" # 将新工具加入工具列表 tools.append(ProductSearchTool())

这个例子说明，添加新能力非常简单：定义一个符合规范的工具类，实现_run方法，然后加入工具列表。Agent会自动学习何时调用它。在实际项目中，_run方法可以连接真实的数据库、API或内部服务。

4.3 优化用户体验：让交互更自然

最后，我们添加一些实用功能，让代理更像一位真人助手：

from langchain_core.runnables import RunnablePassthrough from langchain_core.output_parsers import StrOutputParser # 创建带个性化问候的链 greeting_prompt = ChatPromptTemplate.from_messages([ ("system", "你是一位友好、专业的AI助手。根据用户历史和当前问题，生成一句自然的开场白。不要使用模板化语言。"), ("human", "用户历史：{history}\n当前问题：{input}") ]) # 创建最终响应链 final_chain = ( { "history": lambda x: summary_memory.load_memory_variables({})["chat_history"], "input": lambda x: x["input"] } | greeting_prompt | chat_model | StrOutputParser() ) # 增强的聊天函数 def enhanced_chat(user_input: str): # 先生成个性化问候 greeting = final_chain.invoke({"input": user_input}) # 再执行主代理逻辑 response = agent_executor.invoke({"input": user_input}) # 合并输出 return f"{greeting}\n\n{response['output']}" # 测试效果 print(enhanced_chat("我想买个耳机"))

这个增强版聊天函数让交互更有温度。它会根据对话历史生成自然的开场白，避免生硬的“您好，我是AI助手”这类模板化回复。对于ERNIE-4.5-0.3B-PT这种擅长中文表达的模型，这种个性化处理能显著提升用户体验。

5. 实际应用中的经验与建议

在将这套系统部署到实际项目中时，我们积累了一些关键经验，分享给你少走弯路。

5.1 性能调优：小模型也能高效运行

ERNIE-4.5-0.3B-PT虽然参数量不大，但在vLLM中仍需合理配置才能发挥最佳性能：

批处理大小：设置max_num_seqs=8，既能提高GPU利用率，又不会因等待时间过长影响响应速度
量化选择：使用--quantization awq或--quantization gptq，可在几乎不损失精度的前提下将显存占用降低40%
上下文长度：模型支持128K上下文，但实际使用中建议控制在8K以内，平衡效果与延迟
GPU内存分配：gpu_memory_utilization=0.85是经过实测的黄金值，过高容易OOM，过低则资源浪费

# 推荐的vLLM启动命令 vllm serve baidu/ERNIE-4.5-0.3B-PT \ --host 0.0.0.0 \ --port 8000 \ --tensor-parallel-size 1 \ --gpu-memory-utilization 0.85 \ --max-num-seqs 8 \ --quantization awq \ --trust-remote-code

5.2 错误处理：让系统更健壮

生产环境中，网络波动、工具超时、模型生成异常都是常态。我们添加了多层防护：

import time from functools import wraps def robust_tool_call(max_retries=3, delay=1): def decorator(func): @wraps(func) def wrapper(*args, **kwargs): for attempt in range(max_retries): try: return func(*args, **kwargs) except Exception as e: if attempt == max_retries - 1: raise e time.sleep(delay * (2 ** attempt)) # 指数退避 return None return wrapper return decorator # 应用到工具上 class RobustSearchTool(SearchTool): @robust_tool_call(max_retries=2, delay=0.5) def _run(self, query, run_manager=None): return super()._run(query, run_manager)

这种防御性编程确保单个工具的失败不会导致整个Agent崩溃，而是优雅降级或尝试替代方案。

5.3 持续改进：建立反馈闭环

智能代理的价值在于越用越好。我们设计了一个简单的反馈收集机制：

def collect_feedback(user_input: str, agent_output: str, user_rating: int): """收集用户对代理响应的反馈""" feedback_data = { "timestamp": datetime.datetime.now().isoformat(), "input": user_input, "output": agent_output, "rating": user_rating, "model": "ERNIE-4.5-0.3B-PT" } # 保存到本地文件（实际项目中可存入数据库） with open("./feedback.jsonl", "a") as f: f.write(json.dumps(feedback_data, ensure_ascii=False) + "\n") # 如果评分低于3，触发人工审核流程 if user_rating < 3: send_alert_to_team(feedback_data) # 在每次交互后调用 response = enhanced_chat("帮我查一下...") collect_feedback("帮我查一下...", response, 5) # 用户给5星

通过持续收集反馈，我们可以识别模型的薄弱环节，针对性地优化提示词、调整工具逻辑，甚至微调模型本身。

6. 这套方案能为你带来什么

回看整个构建过程，我们没有追求炫酷的技术指标，而是专注于解决实际问题。这套ERNIE-4.5-0.3B-PT与LangChain集成的智能代理系统，能为你带来三个层面的价值：

首先是开发效率的提升。相比从零开始构建Agent，LangChain提供了成熟稳定的基础设施，你只需关注业务逻辑。ERNIE-4.5-0.3B-PT的轻量特性意味着部署成本大幅降低，一台16G显存的服务器就能支撑多个并发请求，无需动辄上百G显存的昂贵设备。

其次是用户体验的升级。代理不再是机械的问答机器，它能记住你的偏好，理解复杂指令，主动规划执行步骤。当你问“帮我规划下周的杭州行程”，它不会只返回一段文字，而是调用搜索工具获取最新信息，用计算器评估预算，再生成详细日程——整个过程对用户完全透明。

最重要的是业务价值的落地。无论是电商客服中的商品推荐，还是企业内部的知识助手，或是教育领域的个性化辅导，这套方案都能快速适配。它的模块化设计让你可以渐进式演进：先上线基础问答，再逐步添加工具，最后构建完整工作流。每一步都有可见的业务收益，而不是停留在技术验证阶段。

用下来感觉，这套组合拳打得很实在。ERNIE-4.5-0.3B-PT的中文能力确实扎实，对成语、俗语、专业术语的理解很到位；LangChain的生态则让复杂功能变得简单可维护。如果你也在寻找一个平衡性能、成本和效果的智能代理方案，不妨从这个起点开始试试。先跑通一个简单场景，比如自动回复常见问题，再逐步扩展能力边界，你会发现，构建真正有用的AI助手，并没有想象中那么遥远。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

企业官网建设流程全解析