ClawGUI：训练、评测与部署 GUI 智能体的统一框架

English | 中文

一套完整的 GUI 智能体研究框架：用 RL 训练、严格评测、真机部署。

clawgui-agent.mp4

ClawGUI-Agent 通过自然语言操控真实手机

clawgui-rl.mp4

ClawGUI-RL 在线强化学习训练 GUI 智能体

新闻

📄 [2026/4/14] 论文已发布至 arXiv：ClawGUI: A Unified Framework for Training, Evaluating, and Deploying GUI Agents。
🔥 [2026/4/8] ClawGUI 正式发布——ClawGUI-RL（GiGPO）训练、ClawGUI-Eval 评测、ClawGUI-Agent 部署，三件套一次到位。基于该完整链路训练的 ClawGUI-2B 在 MobileWorld SR 上达到 17.1，大幅超越基线 11.1。查看快速开始上手。

📖 概述

ClawGUI 是一个面向 GUI Agent的全栈式研究框架，涵盖 Online Agentic RL 训练、标准评测、OpenClaw 部署三大模块。

构建一个有能力的 GUI 智能体，涉及三个紧密耦合却鲜少被同时解决的问题：需要一个在线强化学习训练环境、一套严格的评测基准，以及一个能在真实设备上落地的部署系统。ClawGUI 将这三件事打通。

模块	角色
🚀 ClawGUI-RL	构建 — 在线 RL 训练 GUI 智能体：多环境并行、真机支持、GiGPO+PRM 细粒度逐步奖励
📊 ClawGUI-Eval	评测 — 衡量智能体学到了什么：6 个 Benchmark、11+ 模型，官方结果复现率 95.8%
🤖 ClawGUI-Agent	部署 — 让智能体真正落地：通过 12+ 聊天平台以自然语言控制手机，内置一句话启动评测
🧩 ClawGUI-Skills	自进化技能 — 实现我们论文提出并验证的训练自由技能自进化架构：结构化技能包、按需检索、失败诊断、受限修订与复用
📱 ClawGUI-APP	真机部署 — 在一台 Android 手机上直接运行完整的 Brain + GUI Agent，无需桌面端协调，基于 Shizuku 实现
🏆 ClawGUI-2B	完整链路的验证：使用 ClawGUI-RL GiGPO 训练的 2B 智能体，MobileWorld SR 达到 17.1，大幅超越基线 11.1

🏗️ 系统架构

🚀 快速开始

git clone https://github.com/ZJU-REAL/ClawGUI.git
cd ClawGUI

三个模块各自独立，拥有独立的环境。点击各模块查看完整安装与使用文档。

🚀 ClawGUI-RL — 构建

📁 clawgui-rl/ · 📖 完整文档

ClawGUI-RL 以在线强化学习训练 GUI 智能体。支持数十个 Docker 虚拟 Android 环境并行运行或直接在真机上训练，并以 GiGPO+PRM 细粒度逐步奖励取代标准 GRPO，带来更强的策略学习效果。

多环境并行 — 数十个 Docker 虚拟 Android 环境同时运行
真机训练 — 物理手机或云手机，使用相同 API
GiGPO + PRM — 细粒度逐步奖励，策略优化优于标准 GRPO
Spare Server 轮转 — 自动故障转移，训练不中断
Episode 可视化 — 记录并回放任意训练轨迹

→ 查看 ClawGUI-RL 完整文档

📊 ClawGUI-Eval — 评测

📁 clawgui-eval/ · 📖 完整文档 · 🤗 HuggingFace · 🤖 ModelScope

ClawGUI-Eval 为 GUI Grounding 研究提供可靠的测量基准。推理 → 判断 → 指标三阶段流水线涵盖 6 个 Benchmark、11+ 模型，对官方结果复现率达到 95.8%——让不同论文的数字真正具有可比性。

6 个 Benchmark — ScreenSpot-Pro、ScreenSpot-V2、UIVision、MMBench-GUI、OSWorld-G、AndroidControl
11+ 模型 — Qwen3-VL、Qwen2.5-VL、UI-TARS、MAI-UI、GUI-G2、UI-Venus、Gemini、Seed 1.8 等
双后端 — 本地 GPU（transformers）或远端 API（OpenAI 兼容）
多 GPU & 多线程 — 并行推理，支持断点续跑
ClawGUI-Agent 集成 — 搭配 ClawGUI-Agent 使用，一句自然语言即可驱动完整评测流程

→ 查看 ClawGUI-Eval 完整文档

🤖 ClawGUI-Agent — 部署

📁 clawgui-agent/ · 📖 完整文档 · English

ClawGUI-Agent 打通从训练到生产的最后一环。基于 OpenClaw 构建，由 nanobot 驱动，可通过 12+ 聊天平台以自然语言控制 Android、鸿蒙或 iOS 设备，也可一句话触发完整的 ClawGUI-Eval 评测流程，无需手写脚本。

跨平台支持 — Android（ADB）、鸿蒙（HDC）、iOS（XCTest）
多模型接入 — AutoGLM、MAI-UI、GUI-Owl、Qwen-VL、UI-TARS，OpenAI 兼容 API
一句话评测 — 说"帮我测一下 qwen3vl 在 screenspot-pro 上的指标"，自动完成环境检测 → 多 GPU 推理 → 判分 → 指标计算 → 结果对比
个性化记忆 — 自动学习用户偏好，跨任务持续复用
Episode 记录 — 每次执行以结构化 Episode 保存，支持回放与数据集构建
Web UI — Gradio 界面，支持设备管理、任务执行与记忆查看

→ 查看 ClawGUI-Agent 完整文档

🧩 ClawGUI-Skills — 自进化技能

📁 clawgui-skills/ · 📖 完整文档 · English

ClawGUI-Skills 实现我们论文 《Reflect, Revise, Reuse: Training-Free Skill Evolution for GUI Agents》 中提出并验证的训练自由 GUI 技能自进化架构。它将任务过程知识保存为结构化技能包，并在 PhoneAgent 执行时按需检索、注入、诊断和修订。

四种模式 — off、trace、reuse、evolve，默认关闭，避免额外上下文开销
结构化技能包 — meta_info.json、plan.md、backup.md、recover.md、failure_examples/
即时修订 — 失败后通过 isolated verifier 反思，并只修改对应技能文件
可视化查看 — Web UI 可查看命中的技能名、skill_id、注入内容、修订记录和失败案例

→ 查看 ClawGUI-Skills 完整文档

📱 ClawGUI-APP — 真机部署

📁 clawgui-app/ · 📖 安装指南

ClawGUI-APP 将完整的 "Brain + GUI Agent" 运行在一台 Android 手机上，去掉了桌面端协调的旧架构。基于 Shizuku 实现高权限免 Root 设备控制。

纯手机运行 — 无需桌面端，有 Shizuku 即可
双智能体架构 — Brain LLM 负责规划与工具编排，Phone Agent 负责屏幕理解与操作执行
多模型支持 — AutoGLM、MAI-UI、GUI-Owl、Qwen-VL、UI-TARS 等，OpenAI 兼容 API
语音输入 (STT) — 一键录音，支持 OpenAI 兼容语音转文字 API（SiliconFlow、Groq Whisper 等）
对话 + 自动化 — 会话、长期记忆、外部渠道（飞书）、Trace 回放
面向真实使用 — 悬浮球状态、内置输入法、会话持久化、诊断日志导出

→ 构建 ClawGUI-APP

🎯 路线图

🤝 参与贡献

欢迎任何形式的贡献——新模型支持、新 RL 环境、Bug 修复、文档改进。请参阅 CONTRIBUTING.md 了解如何开始、各模块具体指南以及 PR 要求。

🙏 致谢

ClawGUI 基于以下优秀的开源项目构建，在此衷心感谢各项目的贡献者：

许可证

本项目基于 Apache License 2.0 开源。

📝 引用

如果 ClawGUI 对您的研究有帮助，请考虑引用我们的论文：

@article{tang2026clawgui,
  title={ClawGUI: A Unified Framework for Training, Evaluating, and Deploying GUI Agents},
  author={Tang, Fei and Lu, Zhiqiong and Zhang, Boxuan and Lu, Weiming and Xiao, Jun and Zhuang, Yueting and Shen, Yongliang},
  journal={arXiv preprint arXiv:2604.11784},
  year={2026}
}

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

ClawGUI：训练、评测与部署 GUI 智能体的统一框架

新闻

目录

📖 概述

🏗️ 系统架构