Skip to content

Latest commit

 

History

History
242 lines (163 loc) · 12.6 KB

File metadata and controls

242 lines (163 loc) · 12.6 KB
ClawGUI Logo

ClawGUI:训练、评测与部署 GUI 智能体的统一框架

Python 3.12 License Stars arXiv Daily Paper

HuggingFace Model ModelScope Model Project Page

English | 中文

一套完整的 GUI 智能体研究框架:用 RL 训练、严格评测、真机部署。
clawgui-agent.mp4

ClawGUI-Agent 通过自然语言操控真实手机
clawgui-rl.mp4

ClawGUI-RL 在线强化学习训练 GUI 智能体

新闻

目录

📖 概述

ClawGUI 是一个面向 GUI Agent的全栈式研究框架,涵盖 Online Agentic RL 训练标准评测OpenClaw 部署三大模块。

构建一个有能力的 GUI 智能体,涉及三个紧密耦合却鲜少被同时解决的问题:需要一个在线强化学习训练环境、一套严格的评测基准,以及一个能在真实设备上落地的部署系统。ClawGUI 将这三件事打通。

模块 角色
🚀 ClawGUI-RL 构建 — 在线 RL 训练 GUI 智能体:多环境并行、真机支持、GiGPO+PRM 细粒度逐步奖励
📊 ClawGUI-Eval 评测 — 衡量智能体学到了什么:6 个 Benchmark、11+ 模型,官方结果复现率 95.8%
🤖 ClawGUI-Agent 部署 — 让智能体真正落地:通过 12+ 聊天平台以自然语言控制手机,内置一句话启动评测
🧩 ClawGUI-Skills 自进化技能 — 实现我们论文提出并验证的训练自由技能自进化架构:结构化技能包、按需检索、失败诊断、受限修订与复用
📱 ClawGUI-APP 真机部署 — 在一台 Android 手机上直接运行完整的 Brain + GUI Agent,无需桌面端协调,基于 Shizuku 实现
🏆 ClawGUI-2B 完整链路的验证:使用 ClawGUI-RL GiGPO 训练的 2B 智能体,MobileWorld SR 达到 17.1,大幅超越基线 11.1

🏗️ 系统架构

ClawGUI 系统架构图

🚀 快速开始

git clone https://github.com/ZJU-REAL/ClawGUI.git
cd ClawGUI

三个模块各自独立,拥有独立的环境。点击各模块查看完整安装与使用文档。

🚀 ClawGUI-RL — 构建

📁 clawgui-rl/ · 📖 完整文档

ClawGUI-RL 以在线强化学习训练 GUI 智能体。支持数十个 Docker 虚拟 Android 环境并行运行或直接在真机上训练,并以 GiGPO+PRM 细粒度逐步奖励取代标准 GRPO,带来更强的策略学习效果。

  • 多环境并行 — 数十个 Docker 虚拟 Android 环境同时运行
  • 真机训练 — 物理手机或云手机,使用相同 API
  • GiGPO + PRM — 细粒度逐步奖励,策略优化优于标准 GRPO
  • Spare Server 轮转 — 自动故障转移,训练不中断
  • Episode 可视化 — 记录并回放任意训练轨迹
ClawGUI-RL 架构图

查看 ClawGUI-RL 完整文档

📊 ClawGUI-Eval — 评测

📁 clawgui-eval/ · 📖 完整文档 · 🤗 HuggingFace · 🤖 ModelScope

ClawGUI-Eval 为 GUI Grounding 研究提供可靠的测量基准。推理 → 判断 → 指标三阶段流水线涵盖 6 个 Benchmark、11+ 模型,对官方结果复现率达到 95.8%——让不同论文的数字真正具有可比性。

  • 6 个 Benchmark — ScreenSpot-Pro、ScreenSpot-V2、UIVision、MMBench-GUI、OSWorld-G、AndroidControl
  • 11+ 模型 — Qwen3-VL、Qwen2.5-VL、UI-TARS、MAI-UI、GUI-G2、UI-Venus、Gemini、Seed 1.8 等
  • 双后端 — 本地 GPU(transformers)或远端 API(OpenAI 兼容)
  • 多 GPU & 多线程 — 并行推理,支持断点续跑
  • ClawGUI-Agent 集成 — 搭配 ClawGUI-Agent 使用,一句自然语言即可驱动完整评测流程
ClawGUI-Eval 架构图

查看 ClawGUI-Eval 完整文档

🤖 ClawGUI-Agent — 部署

📁 clawgui-agent/ · 📖 完整文档 · English

ClawGUI-Agent 打通从训练到生产的最后一环。基于 OpenClaw 构建,由 nanobot 驱动,可通过 12+ 聊天平台以自然语言控制 Android、鸿蒙或 iOS 设备,也可一句话触发完整的 ClawGUI-Eval 评测流程,无需手写脚本。

  • 跨平台支持 — Android(ADB)、鸿蒙(HDC)、iOS(XCTest)
  • 多模型接入 — AutoGLM、MAI-UI、GUI-Owl、Qwen-VL、UI-TARS,OpenAI 兼容 API
  • 一句话评测 — 说"帮我测一下 qwen3vl 在 screenspot-pro 上的指标",自动完成环境检测 → 多 GPU 推理 → 判分 → 指标计算 → 结果对比
  • 个性化记忆 — 自动学习用户偏好,跨任务持续复用
  • Episode 记录 — 每次执行以结构化 Episode 保存,支持回放与数据集构建
  • Web UI — Gradio 界面,支持设备管理、任务执行与记忆查看
ClawGUI-Agent

查看 ClawGUI-Agent 完整文档

🧩 ClawGUI-Skills — 自进化技能

📁 clawgui-skills/ · 📖 完整文档 · English

ClawGUI-Skills 实现我们论文 《Reflect, Revise, Reuse: Training-Free Skill Evolution for GUI Agents》 中提出并验证的训练自由 GUI 技能自进化架构。它将任务过程知识保存为结构化技能包,并在 PhoneAgent 执行时按需检索、注入、诊断和修订。

  • 四种模式offtracereuseevolve,默认关闭,避免额外上下文开销
  • 结构化技能包meta_info.jsonplan.mdbackup.mdrecover.mdfailure_examples/
  • 即时修订 — 失败后通过 isolated verifier 反思,并只修改对应技能文件
  • 可视化查看 — Web UI 可查看命中的技能名、skill_id、注入内容、修订记录和失败案例

查看 ClawGUI-Skills 完整文档

📱 ClawGUI-APP — 真机部署

📁 clawgui-app/ · 📖 安装指南

ClawGUI-APP 将完整的 "Brain + GUI Agent" 运行在一台 Android 手机上,去掉了桌面端协调的旧架构。基于 Shizuku 实现高权限免 Root 设备控制。

  • 纯手机运行 — 无需桌面端,有 Shizuku 即可
  • 双智能体架构 — Brain LLM 负责规划与工具编排,Phone Agent 负责屏幕理解与操作执行
  • 多模型支持 — AutoGLM、MAI-UI、GUI-Owl、Qwen-VL、UI-TARS 等,OpenAI 兼容 API
  • 语音输入 (STT) — 一键录音,支持 OpenAI 兼容语音转文字 API(SiliconFlow、Groq Whisper 等)
  • 对话 + 自动化 — 会话、长期记忆、外部渠道(飞书)、Trace 回放
  • 面向真实使用 — 悬浮球状态、内置输入法、会话持久化、诊断日志导出

构建 ClawGUI-APP

🎯 路线图

  • ClawGUI-Agent — GUI 智能体框架,支持自然语言手机操控与评测
  • ClawGUI-RL — 可扩展的 Mobile Online RL 训练基础设施,支持 GiGPO + PRM
  • ClawGUI-Eval — 标准化 GUI Grounding 评测套件,6 个 Benchmark,官方复现率 95%+
  • ClawGUI-2B — 基于 GiGPO 训练的 2B GUI 智能体,MobileWorld SR 达到 17.1(基线 11.1)
  • 真机部署 ClawGUI-Agent(ClawGUI-APP — 将 ClawGUI-Agent 直接部署在真实手机上 —— 无需桌面端协调,为未来完全本地推理铺路(brain/VLM 当前仍通过云端 API 提供)
  • Desktop Online RL — 将 ClawGUI-RL 扩展至桌面环境,支持桌面端在线强化学习
  • Web Online RL — 将 ClawGUI-RL 扩展至 Web 环境,支持网页端在线强化学习
  • 更多 ClawGUI-Agent 技能 — 为 ClawGUI-Agent 添加更多可插拔技能,拓展能力边界
  • CLI & GUI 混合机制 — 探索命令行与 GUI 操作相结合的混合交互模式
  • 实时 RL 集成 — 基于 OPD 算法,为 ClawGUI-RL 和 ClawGUI-Agent 引入实时强化学习能力

🤝 参与贡献

欢迎任何形式的贡献——新模型支持、新 RL 环境、Bug 修复、文档改进。请参阅 CONTRIBUTING.md 了解如何开始、各模块具体指南以及 PR 要求。

🙏 致谢

ClawGUI 基于以下优秀的开源项目构建,在此衷心感谢各项目的贡献者:

许可证

本项目基于 Apache License 2.0 开源。

📝 引用

如果 ClawGUI 对您的研究有帮助,请考虑引用我们的论文:

@article{tang2026clawgui,
  title={ClawGUI: A Unified Framework for Training, Evaluating, and Deploying GUI Agents},
  author={Tang, Fei and Lu, Zhiqiong and Zhang, Boxuan and Lu, Weiming and Xiao, Jun and Zhuang, Yueting and Shen, Yongliang},
  journal={arXiv preprint arXiv:2604.11784},
  year={2026}
}

Star History

Star History Chart