默认安全循环应该是:
- 先截图。
- 检查截图。
- 执行一个原子动作。
- 再次截图。
- 重新评估下一步。
这个项目故意只提供控制能力,不提供感知能力。感知、识别和决策应由上层 Agent 完成。
面对陌生界面时,不要先点,先截图。
避免这样的长链式猜测:
- 点击
- 输入
- 回车
- 再点击
更稳妥的方式是在每个重要状态变化后插入一次新截图。
以下情况会让旧坐标失效:
- 窗口发生移动
- 页面发生滚动
- 对话框弹出
- 切换了 Space 或显示器
只输入当前步骤需要的文本。大段生成文本会提高误输入和敏感信息泄露的概率。
如果已聚焦控件对 type_text_input 响应不稳定,应切换到 paste_text_input,不要重复赌直接键入这条路径。
读取、使用、完成后就清理。
当出现以下情况时应停止并重新评估:
- 新截图和预期不一致
- 目标控件不可见
- 应用弹出了权限对话框或模态框
- 键盘焦点不明确
不要靠猜测继续恢复。
明确告诉 Agent:
- 第一次动作前必须截图
- 每次状态变化后都要重新截图
- 不要依赖旧坐标
- 除非用户明确要求,否则不要输入敏感信息
- 不确定就停
服务器已经提供 ui_action_protocol、macinput://overview、macinput://best-practices 和 macinput://permissions,宿主侧应尽量把这些暴露给规划器使用。