👋 加入我们的 微信 社区
⚠️ 本项目仅用于研究和教育目的。
严禁将其用于非法数据访问、系统干扰或任何违法活动。
请仔细阅读我们的使用条款。
Phone Agent 是基于 AutoGLM 构建的移动智能助手框架,能够通过多模态感知理解智能手机屏幕并执行自动化操作以完成任务。
该系统通过 ADB(Android Debug Bridge) 控制设备,利用 视觉语言模型 进行屏幕理解,并借助 智能规划 生成和执行操作序列。
用户只需用自然语言描述任务——例如,“打开小红书,搜索美食推荐。”
Phone Agent 将自动解析意图、理解当前界面、规划后续步骤并执行整个流程。
系统还包括:
我们提供开源模型使用指南,帮助您快速下载和部署模型。
详细说明请访问我们的 GitHub。
GLM-4.1V-9B-Thinking 完全一致。如果您觉得我们的研究工作对您有所帮助,请引用以下论文:
@article{liu2024autoglm,
title={Autoglm: Autonomous foundation agents for guis},
author={Liu, Xiao and Qin, Bo and Liang, Dongzhu and Dong, Guang and Lai, Hanyu and Zhang, Hanchen and Zhao, Hanlin and Iong, Iat Long and Sun, Jiadai and Wang, Jiaqi and others},
journal={arXiv preprint arXiv:2411.00820},
year={2024}
}
@article{xu2025mobilerl,
title={MobileRL: Online Agentic Reinforcement Learning for Mobile GUI Agents},
author={Xu, Yifan and Liu, Xiao and Liu, Xinghan and Fu, Jiaqi and Zhang, Hanchen and Jing, Bohao and Zhang, Shudan and Wang, Yuting and Zhao, Wenyi and Dong, Yuxiao},
journal={arXiv preprint arXiv:2509.18119},
year={2025}
}