74 lines (46 loc) · 1.82 KB

macinput Agent 最佳实践

Language: English | 中文

核心工作流

默认安全循环应该是：

先截图。
检查截图。
执行一个原子动作。
再次截图。
重新评估下一步。

这个项目故意只提供控制能力，不提供感知能力。感知、识别和决策应由上层 Agent 完成。

推荐行动策略

先观察，再行动

面对陌生界面时，不要先点，先截图。

一次只做一个改变状态的动作

避免这样的长链式猜测：

点击
输入
回车
再点击

更稳妥的方式是在每个重要状态变化后插入一次新截图。

重新确认坐标

以下情况会让旧坐标失效：

窗口发生移动
页面发生滚动
对话框弹出
切换了 Space 或显示器

文本输入保持短小

只输入当前步骤需要的文本。大段生成文本会提高误输入和敏感信息泄露的概率。

如果已聚焦控件对 type_text_input 响应不稳定，应切换到 paste_text_input，不要重复赌直接键入这条路径。

把截图当作临时工件

读取、使用、完成后就清理。

失败处理

当出现以下情况时应停止并重新评估：

新截图和预期不一致
目标控件不可见
应用弹出了权限对话框或模态框
键盘焦点不明确

不要靠猜测继续恢复。

对宿主 Agent 的提示词建议

明确告诉 Agent：

第一次动作前必须截图
每次状态变化后都要重新截图
不要依赖旧坐标
除非用户明确要求，否则不要输入敏感信息
不确定就停

服务器已经提供 ui_action_protocol、macinput://overview、macinput://best-practices 和 macinput://permissions，宿主侧应尽量把这些暴露给规划器使用。