丝美导航 AI技能集 内容创作技能

Azure Document OCR

Azure 文档 OCR,从PDF、图片和扫描文档中提取文本和结构化数据,支持多种模型和输出格式。

标签:
分享到:

Azure Document OCR

Azure Document OCR是什么

Azure 文档 OCR是一款基于Azure文档智能(原名表单识别器)的文本提取工具,适用于从各种文档格式中提取关键信息,支持多种模型和输出格式,适用于内容创作和数据分析。

Li-Hongmin 开发 | 累计安装 283 次 | 开源协议:MIT-0

Azure Document OCR的主要功能

  • 文本提取:从PDF、图片和扫描文档中提取文本内容。
  • 结构化数据:识别和提取表格、表单等结构化数据。
  • 多种模型:提供多种预建模型,如通用文本、结构化文档、发票等。
  • 输出格式多样:支持文本、Markdown、JSON等多种输出格式。
  • 手写识别:支持手写文本的识别。
  • 多语言支持:支持中文、日文、韩文等CJK字符。

如何使用Azure Document OCR

  • 环境设置:配置Azure文档智能的端点和API密钥。
  • 单文件OCR:使用提供的脚本从单个文档中提取文本。
  • 批量处理:使用批量脚本处理文件夹中的所有文档。
  • 自定义输出:根据需要自定义输出目录和格式。
  • 错误处理:处理无效凭据等常见错误。

Azure Document OCR的项目地址

  • 项目官网https://clawhub.ai/Li-Hongmin/azure-doc-ocr

Azure Document OCR的应用场景

  • 从PDF文件中提取文本内容。
  • 从扫描的发票中提取结构化数据。
  • 将文档中的表格转换为电子表格格式。
  • 从在线文档链接中提取文本。
  • 在内容创作中快速提取文档信息。

相关导航