
screen-vision是什么
screen-vision是一款基于Mac Vision框架的本地OCR与自动化工具,适用于需要屏幕文字识别和自动化操作的场景,无需Token费用,支持多语言识别。
开源协议:MIT-0
screen-vision的主要功能
- OCR识别:利用Mac本地Vision框架快速实现屏幕文字提取,支持中英文混合识别。
- 精确坐标定位:识别屏幕上任何文字的[X, Y]坐标,实现精准操作。
- 自动化操作:配合内置脚本,可实现对任何应用的自动化点击和输入。
- 多语言支持:支持中英文混合识别,满足不同用户需求。
- 无需Token费用:在本地完成屏幕文字提取,仅向AI传输关键文本和坐标,节省Token费用。
如何使用screen-vision
- 开启权限:在系统设置中开启屏幕录制和辅助功能权限。
- 运行Skill:当需要操作应用时,运行screen-vision Skill扫描界面。
- 识别文字:识别屏幕上的文字,获取其坐标信息。
- 自动化操作:根据识别结果,执行自动化点击和输入操作。
screen-vision的应用场景
- 自动化处理屏幕上的信息,如监控状态变化、识别非标准UI等。
- 在需要屏幕文字识别和自动化操作的场景中使用,提高工作效率。
- 适用于需要处理大量屏幕信息的用户,如开发者、测试人员等。
- 在需要跨应用操作的场景中使用,实现自动化流程。
渝公网安备50011302222466号
暂无评论