丝美导航 AI技能集 AI智能技能

screen-vision

screen-vision是一款基于Mac Vision框架的本地OCR与自动化工具,实现屏幕理解与操作。

标签:
分享到:

screen-vision

screen-vision是什么

screen-vision是一款基于Mac Vision框架的本地OCR与自动化工具,适用于需要屏幕文字识别和自动化操作的场景,无需Token费用,支持多语言识别。

开源协议:MIT-0

screen-vision的主要功能

  • OCR识别:利用Mac本地Vision框架快速实现屏幕文字提取,支持中英文混合识别。
  • 精确坐标定位:识别屏幕上任何文字的[X, Y]坐标,实现精准操作。
  • 自动化操作:配合内置脚本,可实现对任何应用的自动化点击和输入。
  • 多语言支持:支持中英文混合识别,满足不同用户需求。
  • 无需Token费用:在本地完成屏幕文字提取,仅向AI传输关键文本和坐标,节省Token费用。

如何使用screen-vision

  • 开启权限:在系统设置中开启屏幕录制和辅助功能权限。
  • 运行Skill:当需要操作应用时,运行screen-vision Skill扫描界面。
  • 识别文字:识别屏幕上的文字,获取其坐标信息。
  • 自动化操作:根据识别结果,执行自动化点击和输入操作。

screen-vision的应用场景

  • 自动化处理屏幕上的信息,如监控状态变化、识别非标准UI等。
  • 在需要屏幕文字识别和自动化操作的场景中使用,提高工作效率。
  • 适用于需要处理大量屏幕信息的用户,如开发者、测试人员等。
  • 在需要跨应用操作的场景中使用,实现自动化流程。

相关导航