Open-AutoGLM使用全攻略：支持50+应用一键操作-酒店常州论坛

Open-AutoGLM使用全攻略：支持50+应用一键操作

1. 这不是科幻，是你的手机新能力

你有没有想过，手机能听懂你说话，还能自己动手完成任务？不是语音助手那种“帮你查天气”，而是真正理解屏幕、思考步骤、点击滑动、输入文字——就像有个数字分身在替你操作手机。

Open-AutoGLM 就是这样一套开源框架。它不依赖云端识别，不上传截图，所有视觉理解、意图分析、动作规划都在本地或你可控的服务器上完成。你说一句“打开小红书搜‘周末咖啡馆推荐’”，它会自动解锁手机、找到App图标、点击进入、定位搜索框、输入文字、点击搜索，整个过程无需你碰一下屏幕。

这不是概念演示，而是已支持美团、淘宝、微信、抖音、小红书、B站、高德、12306等50+主流应用的真实能力。它背后是智谱AI开源的 AutoGLM-Phone-9B 多模态模型，结合 ADB（Android Debug Bridge）自动化控制技术，构建出“观察→思考→执行”的完整智能闭环。

本篇不讲抽象原理，只聚焦一件事：让你从零开始，用最短路径跑通第一个任务，并掌握日常可用的全部操作方式。无论你是完全没接触过ADB的新手，还是想快速集成到工作流的开发者，都能在这里找到对应路径。

2. 准备工作：三步到位，不卡在第一步

别被“AI”“多模态”吓住——Open-AutoGLM 的部署门槛其实比很多Python项目还低。我们把准备工作压缩成三个清晰动作：装好工具、连上手机、配对环境。每一步都有明确验证方式，失败立刻可知。

2.1 装两个关键工具：Python 和 ADB

你不需要编译源码，也不需要配置CUDA（除非你想用GPU加速）。只需要两个基础工具：

Python 3.10+：用于运行控制端代码
ADB 工具：用于和安卓手机通信

验证方式：打开终端（Windows用CMD/PowerShell，Mac用Terminal），分别输入：

python --version adb version

如果都显示版本号（如Python 3.10.12和Android Debug Bridge version 1.0.41），说明已就绪。
❌ 如果提示“命令未找到”，请按以下方式补装：

Python：去 python.org 下载安装包，安装时务必勾选“Add Python to PATH”
ADB：去 Android平台工具官网下载对应系统压缩包，解压后将文件夹路径添加到系统环境变量（Windows在“系统属性→高级→环境变量→Path”中新增；Mac在~/.zshrc中追加export PATH=$PATH:/your/path/to/platform-tools）

小提醒：Mac用户若用Homebrew，可直接运行brew install android-platform-tools，一步到位。

2.2 让手机“认得”你的电脑

安卓手机默认不信任任意电脑。你需要手动开启“开发者模式”并授权调试权限。

三步操作，全程手机设置内完成：

打开手机「设置」→「关于手机」→连续点击「版本号」7次，直到弹出“您已处于开发者模式”
返回「设置」→「系统」→「开发者选项」→开启「USB调试」
用数据线连接手机与电脑 → 手机屏幕会弹出“允许USB调试吗？”提示 → 勾选「始终允许」→ 点击「确定」

验证方式：终端输入

adb devices

正常应返回类似：

List of devices attached ABC123456789 device

其中ABC123456789是你的设备ID，“device”表示连接成功。

若显示unauthorized，说明手机未授权，请检查第3步是否完成；若为空列表，尝试换USB口、换数据线，或重启ADB服务：adb kill-server && adb start-server

2.3 安装ADB Keyboard（中文输入的关键）

这是最容易被忽略、却直接影响体验的一环。普通输入法无法被ADB调用，而Open-AutoGLM要帮你在搜索框里打字，必须用专用输入法。

操作很简单：

下载 ADBKeyboard.apk（GitHub官方发布页，安全可靠）
终端执行安装命令：
```
adb install ADBKeyboard.apk
```
手机上进入「设置」→「系统」→「语言和输入法」→「虚拟键盘」→ 启用ADB Keyboard
将其设为默认输入法（部分机型需长按输入框→“选择输入法”→切换）

验证方式：在手机任意可输入位置（如微信聊天框）点一下，看顶部状态栏是否出现“ADB Keyboard”字样。

3. 部署核心：模型服务 + 控制端，两套代码各司其职

Open-AutoGLM 是典型的“前后端分离”架构：

后端（模型服务）：负责“看图”“思考”，运行视觉语言模型
前端（控制端）：负责“连接手机”“发送指令”“执行动作”，即你本地运行的Open-AutoGLM项目

二者通过标准API通信，你可以把模型服务部署在高性能服务器上，控制端放在笔记本里，互不干扰。

3.1 模型服务：用vLLM快速启动（推荐CPU用户）

你不需要从头训练模型。AutoGLM-Phone-9B 已预训练完成，只需下载+启动。国内用户强烈推荐用魔搭（ModelScope）镜像，速度远超Hugging Face。

下载模型（约18GB）：

git clone https://www.modelscope.cn/ZhipuAI/AutoGLM-Phone-9B.git

安装推理引擎vLLM：

pip install vllm

启动服务（一行命令）：

python -m vllm.entrypoints.openai.api_server \ --model ./AutoGLM-Phone-9B \ --served-model-name autoglm-phone-9b \ --port 8000 \ --max-model-len 25480 \ --chat-template-content-format string

验证方式：看到终端输出Uvicorn running on http://0.0.0.0:8000即启动成功。
你可以在浏览器访问http://localhost:8000/docs查看OpenAI兼容API文档。

无GPU也能跑：上述命令默认使用CPU。若你有NVIDIA显卡且已装CUDA，vLLM会自动启用GPU加速，响应速度提升3–5倍。

3.2 控制端：克隆、安装、即用

这才是你每天打交道的部分。它轻量、纯Python，无需编译。

四步完成：

# 1. 克隆项目 git clone https://github.com/zai-org/Open-AutoGLM.git cd Open-AutoGLM # 2. 安装依赖（含ADB通信库、图像处理等） pip install -r requirements.txt # 3. 安装为可导入模块（支持后续Python API调用） pip install -e . # 4. 验证安装 python -c "from phone_agent.adb import list_devices; print(list_devices())"

若输出设备列表，说明控制端已准备就绪。

4. 第一次运行：从“打开设置”到“订一份外卖”

别急着写复杂指令。先用最简单的任务确认整条链路畅通。我们分两种方式带你上手：命令行快速试用，和Python脚本灵活控制。

4.1 命令行模式：一句话启动，结果实时可见

这是最快验证的方式。打开终端，进入Open-AutoGLM目录，执行：

python main.py \ --base-url http://localhost:8000/v1 \ --model "autoglm-phone-9b" \ "打开设置"

你会看到类似输出：

💭 思考过程: 当前在桌面，需要打开设置应用 执行动作: {"action": "Launch", "app": "设置"} 动作完成：已启动设置应用

同时，你的手机屏幕上会真实打开「设置」App。

再试一个稍复杂的：

python main.py \ --base-url http://localhost:8000/v1 \ --model "autoglm-phone-9b" \ "打开微信，给张三发消息‘今天会议改到三点了’"

它会自动：解锁手机 → 找到微信图标 → 点击进入 → 在通讯录中搜索“张三” → 进入对话 → 点击输入框 → 调用ADB Keyboard输入文字 → 点击发送。

关键优势：所有操作基于实时截图分析，不是靠固定坐标点击。即使APP图标位置变化、界面改版，只要视觉可识别，它就能适应。

4.2 Python API模式：嵌入脚本，批量处理更自由

当你需要循环执行、条件判断、或集成进其他系统时，Python API是更自然的选择。

一个真实可用的示例：自动回复未读消息

from phone_agent import PhoneAgent from phone_agent.model import ModelConfig # 配置指向本地模型服务 model_config = ModelConfig( base_url="http://localhost:8000/v1", model_name="autoglm-phone-9b", ) # 创建智能体实例 agent = PhoneAgent(model_config=model_config) # 执行任务（支持中文长句） result = agent.run("查看微信未读消息，对前3条来自同事的消息统一回复‘收到，马上处理’") print(f"执行结果: {result}")

你能做什么？

批量给10个好友发节日祝福
每天上午9点自动打开高德查通勤路况
监控拼多多订单，发货后自动截图保存
结合OCR工具，从图片中提取文字再搜索

它不是一个黑盒指令工具，而是一个可编程的手机自动化引擎。

5. 实战技巧：让50+应用真正为你所用

Open-AutoGLM 支持的应用不是“列表里写着”，而是经过实测、可稳定触发的。我们整理了高频场景的真实可用指令模板，照着写，基本一次成功。

5.1 生活服务类（点外卖、叫车、订票）

场景	推荐指令	注意事项
美团点餐	`"打开美团，搜索‘附近评分4.8以上的火锅店’，进入第一家，点‘双人套餐’，加入购物车"`	建议首次使用时关闭“自动支付”，避免误操作
滴滴打车	`"打开滴滴出行，输入目的地‘北京西站’，呼叫快车"`	需提前在滴滴App内完成实名认证
12306购票	`"打开12306，查询今天北京到上海的高铁，选择G101次，提交订单"`	登录态需保持，建议提前手动登录

验证技巧：先用"打开XXX"确认App能启动，再逐步叠加动作。

5.2 电商购物类（淘宝、京东、拼多多）

场景	推荐指令	关键点
淘宝比价	`"打开淘宝，搜索‘无线降噪耳机’，按销量排序，截图前三名商品标题和价格"`	`截图`是内置动作，结果会保存在本地
京东下单	`"打开京东，搜索‘小米手环8’，选择黑色标准版，加入购物车，去结算"`	支持识别颜色、版本等规格描述
拼多多砍价	`"打开拼多多，进入‘砍价免费拿’活动，对‘iPhone15’助力3次"`	可识别活动页面结构，自动点击“助力”按钮

提示：遇到验证码、短信验证等人工环节，系统会自动暂停并提示“需人工接管”，你完成验证后输入continue即可继续。

5.3 社交娱乐类（微信、抖音、小红书）

场景	推荐指令	效果说明
微信管理	`"打开微信，进入‘家庭群’，将最新一条带图片的消息转发给妈妈"`	支持图文识别、群聊定位、消息筛选
抖音运营	`"打开抖音，搜索‘AI教程’，关注前5个粉丝超10万的账号"`	可识别粉丝数、关注按钮状态
小红书种草	`"打开小红书，搜索‘油皮夏季粉底液’，收藏前3篇笔记，点赞第2篇"`	支持“收藏”“点赞”“评论”等完整互动

6. 进阶掌控：远程控制、敏感保护、自定义优化

当基础功能跑通，你可以进一步释放Open-AutoGLM的潜力。这些不是“炫技功能”，而是解决真实痛点的设计。

6.1 WiFi远程控制：摆脱数据线束缚

不用USB线，一样能操控。适合：

手机放在支架上长期运行
多台设备集中管理
开发调试时避免反复插拔

操作流程：

USB连接手机，执行：adb tcpip 5555
断开USB，确保手机和电脑在同一WiFi下
终端输入：adb connect 192.168.1.100:5555（将IP换成你手机实际IP）
验证：adb devices应显示192.168.1.100:5555 device

之后所有命令中的--device-id参数，直接填这个IP即可：

python main.py --device-id 192.168.1.100:5555 --base-url http://localhost:8000/v1 "打开B站"

6.2 敏感操作确认：支付、删除、隐私操作必经关卡

安全不是口号。Open-AutoGLM 内置两级防护：

自动拦截：检测到“支付”“删除聊天”“清除数据”等关键词，立即暂停
人工接管：终端弹出明确提示，如：
```
需要确认：即将在美团支付28.5元，是否继续？(y/n)
```
你输入y才继续，输n则终止。

你还可以自定义确认逻辑：

def my_confirm(msg): import os # 发送企业微信通知，等待审批 os.system(f'curl -X POST "https://qyapi.weixin.qq.com/..." --data "{msg}"') return input("审批通过？(y/n): ") == "y" agent = PhoneAgent( model_config=model_config, confirmation_callback=my_confirm )

6.3 自定义提示词：让AI更懂你的领域

模型通用能力很强，但针对特定场景微调，效果立竿见影。修改phone_agent/config/prompts.py中的SYSTEM_PROMPT：

例如，强化电商导购能力：

SYSTEM_PROMPT = """ 你是一名资深电商购物助手，专注在淘宝、京东、拼多多帮用户买到高性价比商品。 请严格遵守： 1. 优先按销量排序，而非价格 2. 主动识别“学生党”“宝妈”“程序员”等身份标签，推荐适配商品 3. 对比至少3个竞品，指出核心差异（如“这款电池续航比A多2小时，但比B重15g”） """

保存后重启main.py，指令中带上“学生党”“宝妈”等词，AI会主动按此逻辑分析。

7. 故障排查：90%的问题，三步内解决

部署中遇到报错？别翻日志大海捞针。我们按发生频率，整理了最可能卡住你的问题及直给方案。

现象	最可能原因	一句话解决
`adb devices`不显示设备	USB调试未授权或未开启	重新插拔数据线 → 手机点“允许” → 终端`adb kill-server && adb start-server`
模型服务启动报`OSError: CUDA out of memory`	显存不足（尤其RTX3060以下）	启动时加参数`--device cpu`强制CPU运行
AI识别不了屏幕，一直说“未找到元素”	手机锁屏或截图权限被禁	解锁手机 → 设置中开启“无障碍服务”和“截屏权限” → 重启服务
中文输入乱码或不出现	ADB Keyboard未启用为默认	手机设置→语言输入法→切换默认输入法为ADB Keyboard → 重启手机
运行时报`ModuleNotFoundError: No module named 'phone_agent'`	控制端未正确安装	确保在`Open-AutoGLM`根目录下执行`pip install -e .`

终极建议：遇到任何问题，先执行adb devices和curl http://localhost:8000/health（检查模型服务健康状态），80%的问题根源就在这两个命令的返回里。

8. 总结：你已经拥有了一个可编程的手机分身

回看这一路：

你装好了Python和ADB，让电脑和手机建立了信任；
你下载了18GB模型，启动了一个能“看图思考”的本地AI服务；
你克隆了Open-AutoGLM，用一行命令让手机自动打开设置；
你试了订外卖、刷抖音、回微信，发现50+应用真的可以听你指挥；
你学会了WiFi远程、敏感确认、自定义提示词，把能力握在自己手里。

Open-AutoGLM 的价值，不在于它多酷炫，而在于它足够实在——

对个人：把重复操作交给AI，每天省下20分钟；
对开发者：提供干净的Python API，30行代码就能做出自动化工具；
对企业：可私有化部署，数据不出内网，满足合规要求。

它不是终点，而是起点。接下来，你可以：
🔹 用Python写个脚本，每天自动汇总工作群重要消息
🔹 给父母手机装上，教他们用语音“帮我查快递”
🔹 在公司测试机集群上部署，实现APP回归测试自动化

真正的AI，不该是遥不可及的概念。它应该像电一样，开箱即用，融入日常。

--- > **获取更多AI镜像** > > 想探索更多AI镜像和应用场景？访问 [CSDN星图镜像广场](https://ai.csdn.net/?utm_source=mirror_blog_end)，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

企业官网建设流程全解析