项目地址:GitHub - zai-org/Open-AutoGLM: An Open Phone Agent Model & Framework. Unlocking the AI Phone for Everyone

项目介绍

Phone Agent 是一个基于 AutoGLM 构建的手机端智能助理框架,它能够以多模态方式理解手机屏幕内容,并通过自动化操作帮助用户完成任务。系统通过 ADB(Android Debug Bridge)来控制设备,以视觉语言模型进行屏幕感知,再结合智能规划能力生成并执行操作流程。用户只需用自然语言描述需求,如“打开小红书搜索美食”,Phone Agent 即可自动解析意图、理解当前界面、规划下一步动作并完成整个流程。系统还内置敏感操作确认机制,并支持在登录或验证码场景下进行人工接管。同时,它提供远程 ADB 调试能力,可通过 WiFi 或网络连接设备,实现灵活的远程控制与开发。

项目搭建

Android 环境准备

·启用 开发者模式 和 USB 调试

·安装 ADB Keyboard(仅 Android 设备需要,用于文本输入)

下载 安装包 并在对应的安卓设备中进行安装。 注意,安装完成后还需要到 设置-输入法 或者 设置-键盘列表 中启用 ADB Keyboard 才能生效。

Windows准备

·Python环境建议使用 Python 3.10 及以上版本。

·拉取项目

git clone https://github.com/zai-org/open-AutoGLM.git
cd open-AutoGLM

·安装项目依赖

pip install -r requirements.txt
pip install -e .

*如安装不了可以换源尝试

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple -r requirements.txt

pip install https://pypi.tuna.tsinghua.edu.cn/simple -e .

·对于 Android 设备 - 使用 ADB

  1. 下载官方 ADB 安装包,并解压到自定义路径
  2. 配置环境变量

输入# 检查已连接的设备 adb devices

成功显示

# 输出结果应显示你的设备,如:
# List of devices attached
# emulator-5554 device

选择模型(这里只介绍第三方,需要自行搭建可参考项目地址)
1. 智谱 BigModel

文档: https://docs.bigmodel.cn/cn/api/introduction
--base-url: https://open.bigmodel.cn/api/paas/v4
--model: autoglm-phone
--apikey: 在智谱平台申请你的 API Key
2. ModelScope(魔搭社区)

文档: https://modelscope.cn/models/ZhipuAI/AutoGLM-Phone-9B
--base-url: https://api-inference.modelscope.cn/v1
--model: ZhipuAI/AutoGLM-Phone-9B
--apikey: 在 ModelScope 平台申请你的 API Key
使用第三方服务的示例:

# 使用智谱 BigModel
python main.py --base-url https://open.bigmodel.cn/api/paas/v4 --model "autoglm-phone" --apikey "your-bigmodel-api-key" "打开美团搜索附近的火锅店"

# 使用 ModelScope
python main.py --base-url https://api-inference.modelscope.cn/v1 --model "ZhipuAI/AutoGLM-Phone-9B" --apikey "your-modelscope-api-key" "打开美团搜索附近的火锅店"

运行结果