
html2md是什么
html2md是一款基于Readability和Turndown技术的HTML转Markdown工具,适用于网络抓取、内容提取和代理工作流程,能高效移除网页中的导航、广告等干扰元素,提取核心内容。
开源协议:MIT-0
html2md的主要功能
- HTML转Markdown:将HTML页面转换为干净的Markdown格式,便于阅读和编辑。
- 内容提取:移除网页中的导航、广告、页脚等干扰元素,提取核心内容。
- Readability技术:使用Mozilla Readability技术,确保内容提取的准确性。
- Token预算:支持Token预算功能,控制输出内容的长度。
- 多种输入方式:支持URL抓取、本地文件、stdin等多种输入方式。
- JSON输出:支持JSON输出格式,便于程序化使用。
如何使用html2md
- 安装:在工具目录下运行npm install和npm link命令进行安装。
- 转换网页:使用html2md命令加上网页URL进行转换。
- 转换本地文件:使用html2md命令加上本地文件路径进行转换。
- 使用stdin:将HTML内容通过stdin管道传输给html2md进行转换。
- 设置Token预算:使用--max-tokens参数设置输出内容的Token预算。
html2md的应用场景
- 网络抓取和内容提取
- 代理工作流程中的数据处理
- 研究任务中的数据整理
- API文档的生成和整理
渝公网安备50011302222466号
暂无评论