丝美导航 AI技能集 内容创作技能

html2md

html2md:专业HTML到Markdown转换工具,移除干扰元素,提取核心内容。

标签:
分享到:

html2md

html2md是什么

html2md是一款基于Readability和Turndown技术的HTML转Markdown工具,适用于网络抓取、内容提取和代理工作流程,能高效移除网页中的导航、广告等干扰元素,提取核心内容。

开源协议:MIT-0

html2md的主要功能

  • HTML转Markdown:将HTML页面转换为干净的Markdown格式,便于阅读和编辑。
  • 内容提取:移除网页中的导航、广告、页脚等干扰元素,提取核心内容。
  • Readability技术:使用Mozilla Readability技术,确保内容提取的准确性。
  • Token预算:支持Token预算功能,控制输出内容的长度。
  • 多种输入方式:支持URL抓取、本地文件、stdin等多种输入方式。
  • JSON输出:支持JSON输出格式,便于程序化使用。

如何使用html2md

  • 安装:在工具目录下运行npm install和npm link命令进行安装。
  • 转换网页:使用html2md命令加上网页URL进行转换。
  • 转换本地文件:使用html2md命令加上本地文件路径进行转换。
  • 使用stdin:将HTML内容通过stdin管道传输给html2md进行转换。
  • 设置Token预算:使用--max-tokens参数设置输出内容的Token预算。

html2md的应用场景

  • 网络抓取和内容提取
  • 代理工作流程中的数据处理
  • 研究任务中的数据整理
  • API文档的生成和整理

相关导航