screen-vision

丝美导航 AI技能集 AI智能技能

screen-vision

screen-vision是一款基于Mac Vision框架的本地OCR与自动化工具，实现屏幕理解与操作。

标签： OCR识别

链接直达手机查看

screen-vision

screen-vision是什么

screen-vision是一款基于Mac Vision框架的本地OCR与自动化工具，适用于需要屏幕文字识别和自动化操作的场景，无需Token费用，支持多语言识别。

开源协议：MIT-0

screen-vision的主要功能

OCR识别：利用Mac本地Vision框架快速实现屏幕文字提取，支持中英文混合识别。
精确坐标定位：识别屏幕上任何文字的[X, Y]坐标，实现精准操作。
自动化操作：配合内置脚本，可实现对任何应用的自动化点击和输入。
多语言支持：支持中英文混合识别，满足不同用户需求。
无需Token费用：在本地完成屏幕文字提取，仅向AI传输关键文本和坐标，节省Token费用。

如何使用screen-vision

开启权限：在系统设置中开启屏幕录制和辅助功能权限。
运行Skill：当需要操作应用时，运行screen-vision Skill扫描界面。
识别文字：识别屏幕上的文字，获取其坐标信息。
自动化操作：根据识别结果，执行自动化点击和输入操作。

screen-vision的应用场景

自动化处理屏幕上的信息，如监控状态变化、识别非标准UI等。
在需要屏幕文字识别和自动化操作的场景中使用，提高工作效率。
适用于需要处理大量屏幕信息的用户，如开发者、测试人员等。
在需要跨应用操作的场景中使用，实现自动化流程。

相关导航

screen-vision

screen-vision是一款基于Mac Vision框架的本地OCR与自动化工具，实现屏幕理解与操作。

暂无评论