# ClawGUI
**Repository Path**: Rivex/ClawGUI
## Basic Information
- **Project Name**: ClawGUI
- **Description**: No description available
- **Primary Language**: Unknown
- **License**: Apache-2.0
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No
## Statistics
- **Stars**: 0
- **Forks**: 0
- **Created**: 2026-05-27
- **Last Updated**: 2026-05-27
## Categories & Tags
**Categories**: Uncategorized
**Tags**: None
## README
ClawGUI:训练、评测与部署 GUI 智能体的统一框架
[](https://www.python.org/downloads/release/python-3120/)
[](https://opensource.org/licenses/Apache-2.0)
[](https://github.com/ZJU-REAL/ClawGUI/stargazers)
[](https://arxiv.org/abs/2604.11784)
[](https://huggingface.co/papers/2604.11784)
[](https://huggingface.co/SugarVapeur/OpenGUI-2B)
[](https://www.modelscope.cn/models/SugarFree/OpenGUI-2B)
[](https://zju-real.github.io/ClawGUI-Page/)
[English](README.md) | [中文](README_zh.md)
一套完整的 GUI 智能体研究框架:用 RL 训练、严格评测、真机部署。
ClawGUI-Agent 通过自然语言操控真实手机
|
ClawGUI-RL 在线强化学习训练 GUI 智能体
|
## 新闻
+ 📄 **[2026/4/14]** 论文已发布至 arXiv:[ClawGUI: A Unified Framework for Training, Evaluating, and Deploying GUI Agents](https://arxiv.org/abs/2604.11784)。
+ 🔥 **[2026/4/8]** ClawGUI 正式发布——ClawGUI-RL(GiGPO)训练、ClawGUI-Eval 评测、ClawGUI-Agent 部署,三件套一次到位。基于该完整链路训练的 ClawGUI-2B 在 MobileWorld SR 上达到 **17.1**,大幅超越基线 **11.1**。查看 [快速开始](#-快速开始) 上手。
## 目录
- [概述](#-概述)
- [系统架构](#️-系统架构)
- [快速开始](#-快速开始)
- [ClawGUI-RL — 构建](#-clawgui-rl--构建)
- [ClawGUI-Eval — 评测](#-clawgui-eval--评测)
- [ClawGUI-Agent — 部署](#-clawgui-agent--部署)
- [ClawGUI-APP — 真机部署](#-clawgui-app--真机部署)
- [路线图](#️-路线图)
- [致谢](#-致谢)
- [许可证](#-许可证)
## 📖 概述
**ClawGUI** 是一个面向 GUI Agent的全栈式研究框架,涵盖 **Online Agentic RL 训练**、**标准评测**、**OpenClaw 部署**三大模块。
构建一个有能力的 GUI 智能体,涉及三个紧密耦合却鲜少被同时解决的问题:需要一个在线强化学习训练环境、一套严格的评测基准,以及一个能在真实设备上落地的部署系统。ClawGUI 将这三件事打通。
| 模块 | 角色 |
|------|------|
| 🚀 **[ClawGUI-RL](clawgui-rl/)** | **构建** — 在线 RL 训练 GUI 智能体:多环境并行、真机支持、GiGPO+PRM 细粒度逐步奖励 |
| 📊 **[ClawGUI-Eval](clawgui-eval/)** | **评测** — 衡量智能体学到了什么:6 个 Benchmark、11+ 模型,官方结果复现率 95.8% |
| 🤖 **[ClawGUI-Agent](clawgui-agent/)** | **部署** — 让智能体真正落地:通过 12+ 聊天平台以自然语言控制手机,内置一句话启动评测 |
| 📱 **[ClawGUI-APP](clawgui-app/)** | **真机部署** — 在一台 Android 手机上直接运行完整的 Brain + GUI Agent,无需桌面端协调,基于 Shizuku 实现 |
| 🏆 **ClawGUI-2B** | 完整链路的验证:使用 ClawGUI-RL GiGPO 训练的 2B 智能体,MobileWorld SR 达到 **17.1**,大幅超越基线 **11.1** |
## 🏗️ 系统架构
## 🚀 快速开始
```bash
git clone https://github.com/ZJU-REAL/ClawGUI.git
cd ClawGUI
```
三个模块各自独立,拥有独立的环境。点击各模块查看完整安装与使用文档。
### 🚀 ClawGUI-RL — 构建
> 📁 [`clawgui-rl/`](clawgui-rl/) · 📖 [完整文档](clawgui-rl/README.md)
ClawGUI-RL 以在线强化学习训练 GUI 智能体。支持数十个 Docker 虚拟 Android 环境并行运行或直接在真机上训练,并以 GiGPO+PRM 细粒度逐步奖励取代标准 GRPO,带来更强的策略学习效果。
- **多环境并行** — 数十个 Docker 虚拟 Android 环境同时运行
- **真机训练** — 物理手机或云手机,使用相同 API
- **GiGPO + PRM** — 细粒度逐步奖励,策略优化优于标准 GRPO
- **Spare Server 轮转** — 自动故障转移,训练不中断
- **Episode 可视化** — 记录并回放任意训练轨迹
→ **[查看 ClawGUI-RL 完整文档](clawgui-rl/README.md)**
### 📊 ClawGUI-Eval — 评测
> 📁 [`clawgui-eval/`](clawgui-eval/) · 📖 [完整文档](clawgui-eval/README.md) · [🤗 HuggingFace](https://huggingface.co/datasets/johnzqlu/clawgui-eval) · [🤖 ModelScope](https://modelscope.cn/datasets/Matrix0602/clawgui-eval)
ClawGUI-Eval 为 GUI Grounding 研究提供可靠的测量基准。**推理 → 判断 → 指标**三阶段流水线涵盖 6 个 Benchmark、11+ 模型,对官方结果复现率达到 **95.8%**——让不同论文的数字真正具有可比性。
- **6 个 Benchmark** — ScreenSpot-Pro、ScreenSpot-V2、UIVision、MMBench-GUI、OSWorld-G、AndroidControl
- **11+ 模型** — Qwen3-VL、Qwen2.5-VL、UI-TARS、MAI-UI、GUI-G2、UI-Venus、Gemini、Seed 1.8 等
- **双后端** — 本地 GPU(transformers)或远端 API(OpenAI 兼容)
- **多 GPU & 多线程** — 并行推理,支持断点续跑
- **ClawGUI-Agent 集成** — 搭配 ClawGUI-Agent 使用,一句自然语言即可驱动完整评测流程
→ **[查看 ClawGUI-Eval 完整文档](clawgui-eval/README.md)**
### 🤖 ClawGUI-Agent — 部署
> 📁 [`clawgui-agent/`](clawgui-agent/) · 📖 [完整文档](clawgui-agent/README_CN.md) · [English](clawgui-agent/README.md)
ClawGUI-Agent 打通从训练到生产的最后一环。基于 OpenClaw 构建,由 nanobot 驱动,可通过 12+ 聊天平台以自然语言控制 Android、鸿蒙或 iOS 设备,也可一句话触发完整的 ClawGUI-Eval 评测流程,无需手写脚本。
- **跨平台支持** — Android(ADB)、鸿蒙(HDC)、iOS(XCTest)
- **多模型接入** — AutoGLM、MAI-UI、GUI-Owl、Qwen-VL、UI-TARS,OpenAI 兼容 API
- **一句话评测** — 说"帮我测一下 qwen3vl 在 screenspot-pro 上的指标",自动完成环境检测 → 多 GPU 推理 → 判分 → 指标计算 → 结果对比
- **个性化记忆** — 自动学习用户偏好,跨任务持续复用
- **Episode 记录** — 每次执行以结构化 Episode 保存,支持回放与数据集构建
- **Web UI** — Gradio 界面,支持设备管理、任务执行与记忆查看
→ **[查看 ClawGUI-Agent 完整文档](clawgui-agent/README.md)**
### 📱 ClawGUI-APP — 真机部署
> 📁 [`clawgui-app/`](clawgui-app/) · 📖 [安装指南](clawgui-app/SETUP.md)
ClawGUI-APP 将完整的 "Brain + GUI Agent" 运行在一台 Android 手机上,去掉了桌面端协调的旧架构。基于 Shizuku 实现高权限免 Root 设备控制。
- **纯手机运行** — 无需桌面端,有 Shizuku 即可
- **双智能体架构** — Brain LLM 负责规划与工具编排,Phone Agent 负责屏幕理解与操作执行
- **多模型支持** — AutoGLM、MAI-UI、GUI-Owl、Qwen-VL、UI-TARS 等,OpenAI 兼容 API
- **对话 + 自动化** — 会话、长期记忆、外部渠道(飞书)、Trace 回放
- **面向真实使用** — 悬浮球状态、内置输入法、会话持久化、诊断日志导出
→ **[构建 ClawGUI-APP](clawgui-app/SETUP.md)**
## 🎯 路线图
- [x] **ClawGUI-Agent** — GUI 智能体框架,支持自然语言手机操控与评测
- [x] **ClawGUI-RL** — 可扩展的 Mobile Online RL 训练基础设施,支持 GiGPO + PRM
- [x] **ClawGUI-Eval** — 标准化 GUI Grounding 评测套件,6 个 Benchmark,官方复现率 95%+
- [x] **ClawGUI-2B** — 基于 GiGPO 训练的 2B GUI 智能体,MobileWorld SR 达到 17.1(基线 11.1)
- [x] **真机部署 ClawGUI-Agent([ClawGUI-APP](clawgui-app/))** — 将 ClawGUI-Agent 直接部署在真实手机上 —— 无需桌面端协调,为未来完全本地推理铺路(brain/VLM 当前仍通过云端 API 提供)
- [ ] **Desktop Online RL** — 将 ClawGUI-RL 扩展至桌面环境,支持桌面端在线强化学习
- [ ] **Web Online RL** — 将 ClawGUI-RL 扩展至 Web 环境,支持网页端在线强化学习
- [ ] **更多 ClawGUI-Agent 技能** — 为 ClawGUI-Agent 添加更多可插拔技能,拓展能力边界
- [ ] **CLI & GUI 混合机制** — 探索命令行与 GUI 操作相结合的混合交互模式
- [ ] **实时 RL 集成** — 基于 OPD 算法,为 ClawGUI-RL 和 ClawGUI-Agent 引入实时强化学习能力
## 🤝 参与贡献
欢迎任何形式的贡献——新模型支持、新 RL 环境、Bug 修复、文档改进。请参阅 [CONTRIBUTING.md](CONTRIBUTING.md) 了解如何开始、各模块具体指南以及 PR 要求。
## 🙏 致谢
ClawGUI 基于以下优秀的开源项目构建,在此衷心感谢各项目的贡献者:
- [**verl-agent**](https://github.com/langfengq/verl-agent)
- [**MAI-UI**](https://github.com/Tongyi-MAI/MAI-UI)
- [**MobileWorld**](https://github.com/Tongyi-MAI/MobileWorld)
- [**Mobile-Agent**](https://github.com/x-plug/mobileagent)
- [**nanobot**](https://github.com/HKUDS/nanobot)
- [**Open-AutoGLM**](https://github.com/zai-org/Open-AutoGLM)
## 许可证
本项目基于 [Apache License 2.0](LICENSE) 开源。
## 📝 引用
如果 ClawGUI 对您的研究有帮助,请考虑引用我们的论文:
```bibtex
@article{tang2026clawgui,
title={ClawGUI: A Unified Framework for Training, Evaluating, and Deploying GUI Agents},
author={Tang, Fei and Lu, Zhiqiong and Zhang, Boxuan and Lu, Weiming and Xiao, Jun and Zhuang, Yueting and Shen, Yongliang},
journal={arXiv preprint arXiv:2604.11784},
year={2026}
}
```
## Star History