playwright-scraper-skill

丝美导航 AI技能集 AI智能技能

playwright-scraper-skill

Playwright Scraper Skill，基于Playwright的网页抓取工具，具备反机器人保护功能，适用于复杂网站数据抓取。

标签：网页抓取

链接直达手机查看

playwright-scraper-skill

playwright-scraper-skill是什么

Playwright Scraper Skill是一款基于Playwright框架的网页抓取工具，集成了反机器人保护机制，适用于从复杂网站如Discuss.com.hk等抓取数据，支持多种抓取方法和定制化设置。

开源协议：MIT-0

playwright-scraper-skill的主要功能

多方法抓取：支持常规网站、动态网站、Cloudflare保护网站等多种抓取方法。
反机器人保护：具备反机器人保护功能，有效应对目标网站的防机器人策略。
Playwright框架：基于Playwright框架，提供高效稳定的网页抓取能力。
定制化设置：支持环境变量设置，如截图路径、等待时间、用户代理等。
多种输出格式：支持JSON、截图、HTML等多种输出格式。

如何使用playwright-scraper-skill

安装：使用npm安装依赖，并配置Playwright。
选择抓取方法：根据目标网站特性选择合适的抓取方法。
执行抓取：运行相应的脚本进行数据抓取。
处理输出：根据需要处理抓取到的数据，如转换为JSON、保存截图等。
定制化调整：根据需求调整环境变量，以优化抓取效果。

playwright-scraper-skill的应用场景

从常规网站抓取静态数据。
从动态网站抓取需要JavaScript渲染的数据。
从具有Cloudflare保护的网站抓取数据。
抓取YouTube视频字幕。
抓取Reddit论坛内容。

相关导航

微信公众号阅读器

微信公众号阅读器，提取微信公众号文章内容，支持任意公众号文章链接的内容抓取和结构化输出。

饿了么外卖点餐

基于Playwright MCP的饿了么外卖点餐自动化工具，实现高效便捷的外卖订单处理。

zoomin-scraper

Zoomin Scraper：基于Playwright的自动化文档抓取工具，适用于从Zoomin Software站点抓取文档内容。

Zoomin Docs Portal Scraper Tool

利用Playwright自动化技术从Zoomin软件门户抓取文档内容，适用于处理动态内容加载的需求。

x-twitter-browser

x-twitter-browser：通过真实浏览器会话自动化X/Twitter操作，支持发布、回复、转发等。

wpstime-punchclock

自动化WPS Time和NetTime打卡操作，支持多种打卡类型和状态检查。

webapp-testing

本地Web应用程序测试工具，支持Playwright脚本编写、UI调试和截图捕获。

Web Form Automation

利用Playwright技术，自动化网页表单交互，包括登录、文件上传、文本输入和表单提交。

Tmp.SpQgKzelJa

提供生产级Playwright测试功能的工具包，支持端到端测试、浏览器自动化，修复不稳定的测试。

Tistory Publish

Tistory Publish：通过Playwright CLI自动化发布Tistory博客文章，支持多种格式和编辑器操作。

soushen

搜神猎手：基于 Playwright 的高性能 Bing 搜索引擎 Skill，提供深度网页搜索和元素提取功能。

Skill Deps Doctor

Skill Deps Doctor是一款跨平台技能依赖诊断工具，用于预检缺失的二进制文件、版本不匹配、系统库等。

暂无评论