Skip to content

Latest commit

 

History

History
74 lines (46 loc) · 1.82 KB

File metadata and controls

74 lines (46 loc) · 1.82 KB

macinput Agent 最佳实践

Language: English | 中文

核心工作流

默认安全循环应该是:

  1. 先截图。
  2. 检查截图。
  3. 执行一个原子动作。
  4. 再次截图。
  5. 重新评估下一步。

这个项目故意只提供控制能力,不提供感知能力。感知、识别和决策应由上层 Agent 完成。

推荐行动策略

先观察,再行动

面对陌生界面时,不要先点,先截图。

一次只做一个改变状态的动作

避免这样的长链式猜测:

  • 点击
  • 输入
  • 回车
  • 再点击

更稳妥的方式是在每个重要状态变化后插入一次新截图。

重新确认坐标

以下情况会让旧坐标失效:

  • 窗口发生移动
  • 页面发生滚动
  • 对话框弹出
  • 切换了 Space 或显示器

文本输入保持短小

只输入当前步骤需要的文本。大段生成文本会提高误输入和敏感信息泄露的概率。

如果已聚焦控件对 type_text_input 响应不稳定,应切换到 paste_text_input,不要重复赌直接键入这条路径。

把截图当作临时工件

读取、使用、完成后就清理。

失败处理

当出现以下情况时应停止并重新评估:

  • 新截图和预期不一致
  • 目标控件不可见
  • 应用弹出了权限对话框或模态框
  • 键盘焦点不明确

不要靠猜测继续恢复。

对宿主 Agent 的提示词建议

明确告诉 Agent:

  • 第一次动作前必须截图
  • 每次状态变化后都要重新截图
  • 不要依赖旧坐标
  • 除非用户明确要求,否则不要输入敏感信息
  • 不确定就停

服务器已经提供 ui_action_protocolmacinput://overviewmacinput://best-practicesmacinput://permissions,宿主侧应尽量把这些暴露给规划器使用。