Open-AutoGLM使用全攻略:支持50+应用一键操作
2026/4/18 14:10:50 网站建设 项目流程

Open-AutoGLM使用全攻略:支持50+应用一键操作

1. 这不是科幻,是你的手机新能力

你有没有想过,手机能听懂你说话,还能自己动手完成任务?不是语音助手那种“帮你查天气”,而是真正理解屏幕、思考步骤、点击滑动、输入文字——就像有个数字分身在替你操作手机。

Open-AutoGLM 就是这样一套开源框架。它不依赖云端识别,不上传截图,所有视觉理解、意图分析、动作规划都在本地或你可控的服务器上完成。你说一句“打开小红书搜‘周末咖啡馆推荐’”,它会自动解锁手机、找到App图标、点击进入、定位搜索框、输入文字、点击搜索,整个过程无需你碰一下屏幕。

这不是概念演示,而是已支持美团、淘宝、微信、抖音、小红书、B站、高德、12306等50+主流应用的真实能力。它背后是智谱AI开源的 AutoGLM-Phone-9B 多模态模型,结合 ADB(Android Debug Bridge)自动化控制技术,构建出“观察→思考→执行”的完整智能闭环。

本篇不讲抽象原理,只聚焦一件事:让你从零开始,用最短路径跑通第一个任务,并掌握日常可用的全部操作方式。无论你是完全没接触过ADB的新手,还是想快速集成到工作流的开发者,都能在这里找到对应路径。


2. 准备工作:三步到位,不卡在第一步

别被“AI”“多模态”吓住——Open-AutoGLM 的部署门槛其实比很多Python项目还低。我们把准备工作压缩成三个清晰动作:装好工具、连上手机、配对环境。每一步都有明确验证方式,失败立刻可知。

2.1 装两个关键工具:Python 和 ADB

你不需要编译源码,也不需要配置CUDA(除非你想用GPU加速)。只需要两个基础工具:

  • Python 3.10+:用于运行控制端代码
  • ADB 工具:用于和安卓手机通信

验证方式:打开终端(Windows用CMD/PowerShell,Mac用Terminal),分别输入:

python --version adb version

如果都显示版本号(如Python 3.10.12Android Debug Bridge version 1.0.41),说明已就绪。
❌ 如果提示“命令未找到”,请按以下方式补装:

  • Python:去 python.org 下载安装包,安装时务必勾选“Add Python to PATH”
  • ADB:去 Android平台工具官网 下载对应系统压缩包,解压后将文件夹路径添加到系统环境变量(Windows在“系统属性→高级→环境变量→Path”中新增;Mac在~/.zshrc中追加export PATH=$PATH:/your/path/to/platform-tools

小提醒:Mac用户若用Homebrew,可直接运行brew install android-platform-tools,一步到位。

2.2 让手机“认得”你的电脑

安卓手机默认不信任任意电脑。你需要手动开启“开发者模式”并授权调试权限。

三步操作,全程手机设置内完成:

  1. 打开手机「设置」→「关于手机」→连续点击「版本号」7次,直到弹出“您已处于开发者模式”
  2. 返回「设置」→「系统」→「开发者选项」→开启「USB调试」
  3. 用数据线连接手机与电脑 → 手机屏幕会弹出“允许USB调试吗?”提示 → 勾选「始终允许」→ 点击「确定」

验证方式:终端输入

adb devices

正常应返回类似:

List of devices attached ABC123456789 device

其中ABC123456789是你的设备ID,“device”表示连接成功。

若显示unauthorized,说明手机未授权,请检查第3步是否完成;若为空列表,尝试换USB口、换数据线,或重启ADB服务:adb kill-server && adb start-server

2.3 安装ADB Keyboard(中文输入的关键)

这是最容易被忽略、却直接影响体验的一环。普通输入法无法被ADB调用,而Open-AutoGLM要帮你在搜索框里打字,必须用专用输入法。

操作很简单:

  1. 下载 ADBKeyboard.apk(GitHub官方发布页,安全可靠)
  2. 终端执行安装命令:
    adb install ADBKeyboard.apk
  3. 手机上进入「设置」→「系统」→「语言和输入法」→「虚拟键盘」→ 启用ADB Keyboard
  4. 将其设为默认输入法(部分机型需长按输入框→“选择输入法”→切换)

验证方式:在手机任意可输入位置(如微信聊天框)点一下,看顶部状态栏是否出现“ADB Keyboard”字样。


3. 部署核心:模型服务 + 控制端,两套代码各司其职

Open-AutoGLM 是典型的“前后端分离”架构:

  • 后端(模型服务):负责“看图”“思考”,运行视觉语言模型
  • 前端(控制端):负责“连接手机”“发送指令”“执行动作”,即你本地运行的Open-AutoGLM项目

二者通过标准API通信,你可以把模型服务部署在高性能服务器上,控制端放在笔记本里,互不干扰。

3.1 模型服务:用vLLM快速启动(推荐CPU用户)

你不需要从头训练模型。AutoGLM-Phone-9B 已预训练完成,只需下载+启动。国内用户强烈推荐用魔搭(ModelScope)镜像,速度远超Hugging Face。

下载模型(约18GB):

git clone https://www.modelscope.cn/ZhipuAI/AutoGLM-Phone-9B.git

安装推理引擎vLLM:

pip install vllm

启动服务(一行命令):

python -m vllm.entrypoints.openai.api_server \ --model ./AutoGLM-Phone-9B \ --served-model-name autoglm-phone-9b \ --port 8000 \ --max-model-len 25480 \ --chat-template-content-format string

验证方式:看到终端输出Uvicorn running on http://0.0.0.0:8000即启动成功。
你可以在浏览器访问http://localhost:8000/docs查看OpenAI兼容API文档。

无GPU也能跑:上述命令默认使用CPU。若你有NVIDIA显卡且已装CUDA,vLLM会自动启用GPU加速,响应速度提升3–5倍。

3.2 控制端:克隆、安装、即用

这才是你每天打交道的部分。它轻量、纯Python,无需编译。

四步完成:

# 1. 克隆项目 git clone https://github.com/zai-org/Open-AutoGLM.git cd Open-AutoGLM # 2. 安装依赖(含ADB通信库、图像处理等) pip install -r requirements.txt # 3. 安装为可导入模块(支持后续Python API调用) pip install -e . # 4. 验证安装 python -c "from phone_agent.adb import list_devices; print(list_devices())"

若输出设备列表,说明控制端已准备就绪。


4. 第一次运行:从“打开设置”到“订一份外卖”

别急着写复杂指令。先用最简单的任务确认整条链路畅通。我们分两种方式带你上手:命令行快速试用,和Python脚本灵活控制。

4.1 命令行模式:一句话启动,结果实时可见

这是最快验证的方式。打开终端,进入Open-AutoGLM目录,执行:

python main.py \ --base-url http://localhost:8000/v1 \ --model "autoglm-phone-9b" \ "打开设置"

你会看到类似输出:

💭 思考过程: 当前在桌面,需要打开设置应用 执行动作: {"action": "Launch", "app": "设置"} 动作完成:已启动设置应用

同时,你的手机屏幕上会真实打开「设置」App。

再试一个稍复杂的:

python main.py \ --base-url http://localhost:8000/v1 \ --model "autoglm-phone-9b" \ "打开微信,给张三发消息‘今天会议改到三点了’"

它会自动:解锁手机 → 找到微信图标 → 点击进入 → 在通讯录中搜索“张三” → 进入对话 → 点击输入框 → 调用ADB Keyboard输入文字 → 点击发送。

关键优势:所有操作基于实时截图分析,不是靠固定坐标点击。即使APP图标位置变化、界面改版,只要视觉可识别,它就能适应。

4.2 Python API模式:嵌入脚本,批量处理更自由

当你需要循环执行、条件判断、或集成进其他系统时,Python API是更自然的选择。

一个真实可用的示例:自动回复未读消息

from phone_agent import PhoneAgent from phone_agent.model import ModelConfig # 配置指向本地模型服务 model_config = ModelConfig( base_url="http://localhost:8000/v1", model_name="autoglm-phone-9b", ) # 创建智能体实例 agent = PhoneAgent(model_config=model_config) # 执行任务(支持中文长句) result = agent.run("查看微信未读消息,对前3条来自同事的消息统一回复‘收到,马上处理’") print(f"执行结果: {result}")

你能做什么?

  • 批量给10个好友发节日祝福
  • 每天上午9点自动打开高德查通勤路况
  • 监控拼多多订单,发货后自动截图保存
  • 结合OCR工具,从图片中提取文字再搜索

它不是一个黑盒指令工具,而是一个可编程的手机自动化引擎。


5. 实战技巧:让50+应用真正为你所用

Open-AutoGLM 支持的应用不是“列表里写着”,而是经过实测、可稳定触发的。我们整理了高频场景的真实可用指令模板,照着写,基本一次成功。

5.1 生活服务类(点外卖、叫车、订票)

场景推荐指令注意事项
美团点餐"打开美团,搜索‘附近评分4.8以上的火锅店’,进入第一家,点‘双人套餐’,加入购物车"建议首次使用时关闭“自动支付”,避免误操作
滴滴打车"打开滴滴出行,输入目的地‘北京西站’,呼叫快车"需提前在滴滴App内完成实名认证
12306购票"打开12306,查询今天北京到上海的高铁,选择G101次,提交订单"登录态需保持,建议提前手动登录

验证技巧:先用"打开XXX"确认App能启动,再逐步叠加动作。

5.2 电商购物类(淘宝、京东、拼多多)

场景推荐指令关键点
淘宝比价"打开淘宝,搜索‘无线降噪耳机’,按销量排序,截图前三名商品标题和价格"截图是内置动作,结果会保存在本地
京东下单"打开京东,搜索‘小米手环8’,选择黑色标准版,加入购物车,去结算"支持识别颜色、版本等规格描述
拼多多砍价"打开拼多多,进入‘砍价免费拿’活动,对‘iPhone15’助力3次"可识别活动页面结构,自动点击“助力”按钮

提示:遇到验证码、短信验证等人工环节,系统会自动暂停并提示“需人工接管”,你完成验证后输入continue即可继续。

5.3 社交娱乐类(微信、抖音、小红书)

场景推荐指令效果说明
微信管理"打开微信,进入‘家庭群’,将最新一条带图片的消息转发给妈妈"支持图文识别、群聊定位、消息筛选
抖音运营"打开抖音,搜索‘AI教程’,关注前5个粉丝超10万的账号"可识别粉丝数、关注按钮状态
小红书种草"打开小红书,搜索‘油皮夏季粉底液’,收藏前3篇笔记,点赞第2篇"支持“收藏”“点赞”“评论”等完整互动

6. 进阶掌控:远程控制、敏感保护、自定义优化

当基础功能跑通,你可以进一步释放Open-AutoGLM的潜力。这些不是“炫技功能”,而是解决真实痛点的设计。

6.1 WiFi远程控制:摆脱数据线束缚

不用USB线,一样能操控。适合:

  • 手机放在支架上长期运行
  • 多台设备集中管理
  • 开发调试时避免反复插拔

操作流程:

  1. USB连接手机,执行:adb tcpip 5555
  2. 断开USB,确保手机和电脑在同一WiFi下
  3. 终端输入:adb connect 192.168.1.100:5555(将IP换成你手机实际IP)
  4. 验证:adb devices应显示192.168.1.100:5555 device

之后所有命令中的--device-id参数,直接填这个IP即可:

python main.py --device-id 192.168.1.100:5555 --base-url http://localhost:8000/v1 "打开B站"

6.2 敏感操作确认:支付、删除、隐私操作必经关卡

安全不是口号。Open-AutoGLM 内置两级防护:

  • 自动拦截:检测到“支付”“删除聊天”“清除数据”等关键词,立即暂停
  • 人工接管:终端弹出明确提示,如:
    需要确认:即将在美团支付28.5元,是否继续?(y/n)
    你输入y才继续,输n则终止。

你还可以自定义确认逻辑:

def my_confirm(msg): import os # 发送企业微信通知,等待审批 os.system(f'curl -X POST "https://qyapi.weixin.qq.com/..." --data "{msg}"') return input("审批通过?(y/n): ") == "y" agent = PhoneAgent( model_config=model_config, confirmation_callback=my_confirm )

6.3 自定义提示词:让AI更懂你的领域

模型通用能力很强,但针对特定场景微调,效果立竿见影。修改phone_agent/config/prompts.py中的SYSTEM_PROMPT

例如,强化电商导购能力:

SYSTEM_PROMPT = """ 你是一名资深电商购物助手,专注在淘宝、京东、拼多多帮用户买到高性价比商品。 请严格遵守: 1. 优先按销量排序,而非价格 2. 主动识别“学生党”“宝妈”“程序员”等身份标签,推荐适配商品 3. 对比至少3个竞品,指出核心差异(如“这款电池续航比A多2小时,但比B重15g”) """

保存后重启main.py,指令中带上“学生党”“宝妈”等词,AI会主动按此逻辑分析。


7. 故障排查:90%的问题,三步内解决

部署中遇到报错?别翻日志大海捞针。我们按发生频率,整理了最可能卡住你的问题及直给方案。

现象最可能原因一句话解决
adb devices不显示设备USB调试未授权或未开启重新插拔数据线 → 手机点“允许” → 终端adb kill-server && adb start-server
模型服务启动报OSError: CUDA out of memory显存不足(尤其RTX3060以下)启动时加参数--device cpu强制CPU运行
AI识别不了屏幕,一直说“未找到元素”手机锁屏或截图权限被禁解锁手机 → 设置中开启“无障碍服务”和“截屏权限” → 重启服务
中文输入乱码或不出现ADB Keyboard未启用为默认手机设置→语言输入法→切换默认输入法为ADB Keyboard → 重启手机
运行时报ModuleNotFoundError: No module named 'phone_agent'控制端未正确安装确保在Open-AutoGLM根目录下执行pip install -e .

终极建议:遇到任何问题,先执行adb devicescurl http://localhost:8000/health(检查模型服务健康状态),80%的问题根源就在这两个命令的返回里。


8. 总结:你已经拥有了一个可编程的手机分身

回看这一路:

  • 你装好了Python和ADB,让电脑和手机建立了信任;
  • 你下载了18GB模型,启动了一个能“看图思考”的本地AI服务;
  • 你克隆了Open-AutoGLM,用一行命令让手机自动打开设置;
  • 你试了订外卖、刷抖音、回微信,发现50+应用真的可以听你指挥;
  • 你学会了WiFi远程、敏感确认、自定义提示词,把能力握在自己手里。

Open-AutoGLM 的价值,不在于它多酷炫,而在于它足够实在——

  • 对个人:把重复操作交给AI,每天省下20分钟;
  • 对开发者:提供干净的Python API,30行代码就能做出自动化工具;
  • 对企业:可私有化部署,数据不出内网,满足合规要求。

它不是终点,而是起点。接下来,你可以:
🔹 用Python写个脚本,每天自动汇总工作群重要消息
🔹 给父母手机装上,教他们用语音“帮我查快递”
🔹 在公司测试机集群上部署,实现APP回归测试自动化

真正的AI,不该是遥不可及的概念。它应该像电一样,开箱即用,融入日常。

--- > **获取更多AI镜像** > > 想探索更多AI镜像和应用场景?访问 [CSDN星图镜像广场](https://ai.csdn.net/?utm_source=mirror_blog_end),提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询