clawgui-agent.mp4ClawGUI-Agent 通过自然语言操控真实手机 |
clawgui-rl.mp4ClawGUI-RL 在线强化学习训练 GUI 智能体 |
- 📄 [2026/4/14] 论文已发布至 arXiv:ClawGUI: A Unified Framework for Training, Evaluating, and Deploying GUI Agents。
- 🔥 [2026/4/8] ClawGUI 正式发布——ClawGUI-RL(GiGPO)训练、ClawGUI-Eval 评测、ClawGUI-Agent 部署,三件套一次到位。基于该完整链路训练的 ClawGUI-2B 在 MobileWorld SR 上达到 17.1,大幅超越基线 11.1。查看 快速开始 上手。
ClawGUI 是一个面向 GUI Agent的全栈式研究框架,涵盖 Online Agentic RL 训练、标准评测、OpenClaw 部署三大模块。
构建一个有能力的 GUI 智能体,涉及三个紧密耦合却鲜少被同时解决的问题:需要一个在线强化学习训练环境、一套严格的评测基准,以及一个能在真实设备上落地的部署系统。ClawGUI 将这三件事打通。
| 模块 | 角色 |
|---|---|
| 🚀 ClawGUI-RL | 构建 — 在线 RL 训练 GUI 智能体:多环境并行、真机支持、GiGPO+PRM 细粒度逐步奖励 |
| 📊 ClawGUI-Eval | 评测 — 衡量智能体学到了什么:6 个 Benchmark、11+ 模型,官方结果复现率 95.8% |
| 🤖 ClawGUI-Agent | 部署 — 让智能体真正落地:通过 12+ 聊天平台以自然语言控制手机,内置一句话启动评测 |
| 🧩 ClawGUI-Skills | 自进化技能 — 实现我们论文提出并验证的训练自由技能自进化架构:结构化技能包、按需检索、失败诊断、受限修订与复用 |
| 📱 ClawGUI-APP | 真机部署 — 在一台 Android 手机上直接运行完整的 Brain + GUI Agent,无需桌面端协调,基于 Shizuku 实现 |
| 🏆 ClawGUI-2B | 完整链路的验证:使用 ClawGUI-RL GiGPO 训练的 2B 智能体,MobileWorld SR 达到 17.1,大幅超越基线 11.1 |
git clone https://github.com/ZJU-REAL/ClawGUI.git
cd ClawGUI三个模块各自独立,拥有独立的环境。点击各模块查看完整安装与使用文档。
📁
clawgui-rl/· 📖 完整文档
ClawGUI-RL 以在线强化学习训练 GUI 智能体。支持数十个 Docker 虚拟 Android 环境并行运行或直接在真机上训练,并以 GiGPO+PRM 细粒度逐步奖励取代标准 GRPO,带来更强的策略学习效果。
- 多环境并行 — 数十个 Docker 虚拟 Android 环境同时运行
- 真机训练 — 物理手机或云手机,使用相同 API
- GiGPO + PRM — 细粒度逐步奖励,策略优化优于标准 GRPO
- Spare Server 轮转 — 自动故障转移,训练不中断
- Episode 可视化 — 记录并回放任意训练轨迹
📁
clawgui-eval/· 📖 完整文档 · 🤗 HuggingFace · 🤖 ModelScope
ClawGUI-Eval 为 GUI Grounding 研究提供可靠的测量基准。推理 → 判断 → 指标三阶段流水线涵盖 6 个 Benchmark、11+ 模型,对官方结果复现率达到 95.8%——让不同论文的数字真正具有可比性。
- 6 个 Benchmark — ScreenSpot-Pro、ScreenSpot-V2、UIVision、MMBench-GUI、OSWorld-G、AndroidControl
- 11+ 模型 — Qwen3-VL、Qwen2.5-VL、UI-TARS、MAI-UI、GUI-G2、UI-Venus、Gemini、Seed 1.8 等
- 双后端 — 本地 GPU(transformers)或远端 API(OpenAI 兼容)
- 多 GPU & 多线程 — 并行推理,支持断点续跑
- ClawGUI-Agent 集成 — 搭配 ClawGUI-Agent 使用,一句自然语言即可驱动完整评测流程
📁
clawgui-agent/· 📖 完整文档 · English
ClawGUI-Agent 打通从训练到生产的最后一环。基于 OpenClaw 构建,由 nanobot 驱动,可通过 12+ 聊天平台以自然语言控制 Android、鸿蒙或 iOS 设备,也可一句话触发完整的 ClawGUI-Eval 评测流程,无需手写脚本。
- 跨平台支持 — Android(ADB)、鸿蒙(HDC)、iOS(XCTest)
- 多模型接入 — AutoGLM、MAI-UI、GUI-Owl、Qwen-VL、UI-TARS,OpenAI 兼容 API
- 一句话评测 — 说"帮我测一下 qwen3vl 在 screenspot-pro 上的指标",自动完成环境检测 → 多 GPU 推理 → 判分 → 指标计算 → 结果对比
- 个性化记忆 — 自动学习用户偏好,跨任务持续复用
- Episode 记录 — 每次执行以结构化 Episode 保存,支持回放与数据集构建
- Web UI — Gradio 界面,支持设备管理、任务执行与记忆查看
📁
clawgui-skills/· 📖 完整文档 · English
ClawGUI-Skills 实现我们论文 《Reflect, Revise, Reuse: Training-Free Skill Evolution for GUI Agents》 中提出并验证的训练自由 GUI 技能自进化架构。它将任务过程知识保存为结构化技能包,并在 PhoneAgent 执行时按需检索、注入、诊断和修订。
- 四种模式 —
off、trace、reuse、evolve,默认关闭,避免额外上下文开销 - 结构化技能包 —
meta_info.json、plan.md、backup.md、recover.md、failure_examples/ - 即时修订 — 失败后通过 isolated verifier 反思,并只修改对应技能文件
- 可视化查看 — Web UI 可查看命中的技能名、
skill_id、注入内容、修订记录和失败案例
📁
clawgui-app/· 📖 安装指南
ClawGUI-APP 将完整的 "Brain + GUI Agent" 运行在一台 Android 手机上,去掉了桌面端协调的旧架构。基于 Shizuku 实现高权限免 Root 设备控制。
- 纯手机运行 — 无需桌面端,有 Shizuku 即可
- 双智能体架构 — Brain LLM 负责规划与工具编排,Phone Agent 负责屏幕理解与操作执行
- 多模型支持 — AutoGLM、MAI-UI、GUI-Owl、Qwen-VL、UI-TARS 等,OpenAI 兼容 API
- 语音输入 (STT) — 一键录音,支持 OpenAI 兼容语音转文字 API(SiliconFlow、Groq Whisper 等)
- 对话 + 自动化 — 会话、长期记忆、外部渠道(飞书)、Trace 回放
- 面向真实使用 — 悬浮球状态、内置输入法、会话持久化、诊断日志导出
- ClawGUI-Agent — GUI 智能体框架,支持自然语言手机操控与评测
- ClawGUI-RL — 可扩展的 Mobile Online RL 训练基础设施,支持 GiGPO + PRM
- ClawGUI-Eval — 标准化 GUI Grounding 评测套件,6 个 Benchmark,官方复现率 95%+
- ClawGUI-2B — 基于 GiGPO 训练的 2B GUI 智能体,MobileWorld SR 达到 17.1(基线 11.1)
- 真机部署 ClawGUI-Agent(ClawGUI-APP) — 将 ClawGUI-Agent 直接部署在真实手机上 —— 无需桌面端协调,为未来完全本地推理铺路(brain/VLM 当前仍通过云端 API 提供)
- Desktop Online RL — 将 ClawGUI-RL 扩展至桌面环境,支持桌面端在线强化学习
- Web Online RL — 将 ClawGUI-RL 扩展至 Web 环境,支持网页端在线强化学习
- 更多 ClawGUI-Agent 技能 — 为 ClawGUI-Agent 添加更多可插拔技能,拓展能力边界
- CLI & GUI 混合机制 — 探索命令行与 GUI 操作相结合的混合交互模式
- 实时 RL 集成 — 基于 OPD 算法,为 ClawGUI-RL 和 ClawGUI-Agent 引入实时强化学习能力
欢迎任何形式的贡献——新模型支持、新 RL 环境、Bug 修复、文档改进。请参阅 CONTRIBUTING.md 了解如何开始、各模块具体指南以及 PR 要求。
ClawGUI 基于以下优秀的开源项目构建,在此衷心感谢各项目的贡献者:
本项目基于 Apache License 2.0 开源。
如果 ClawGUI 对您的研究有帮助,请考虑引用我们的论文:
@article{tang2026clawgui,
title={ClawGUI: A Unified Framework for Training, Evaluating, and Deploying GUI Agents},
author={Tang, Fei and Lu, Zhiqiong and Zhang, Boxuan and Lu, Weiming and Xiao, Jun and Zhuang, Yueting and Shen, Yongliang},
journal={arXiv preprint arXiv:2604.11784},
year={2026}
}



