Enterprise Document OCR

您可以将 Enterprise Document OCR 用作 Document AI 的一部分,以检测和提取各种文档中的文本和布局信息。借助可配置的功能,您可以根据特定的文档处理要求定制系统。

概览

您可以使用 Enterprise Document OCR 来执行基于算法或机器学习的数据输入等任务,并提高和验证数据准确性。您还可以使用 Enterprise Document OCR 来处理以下任务:

  • 文本数字化:从文档中提取文本和布局数据,以用于搜索、基于规则的文档处理流水线或自定义模型创建。
  • 使用大语言模型应用:利用 LLM 的上下文理解能力和 OCR 的文本及布局提取能力,自动生成问题和答案。从数据中发掘数据洞见,并简化工作流程。
  • 归档:将纸质文档数字化为机器可读的文本,以提高文档的可访问性。

为您的使用场景选择最佳 OCR

解决方案 产品 说明 用例
Document AI Enterprise Document OCR 专门针对文档使用场景的模型。高级功能包括图片质量得分、语言提示和旋转校正。 建议在从文档中提取文本时使用。用例包括 PDF 文档、图片扫描文档或 Microsoft DocX 文件。
Document AI OCR 加购项 满足特定需求的高级功能。仅与 Enterprise Document OCR 版本 2.0 及更高版本兼容。 需要检测和识别数学公式、接收字体样式信息或启用复选框提取功能。
Cloud Vision API 文本检测 基于 Google Cloud 标准 OCR 模型的全球可用 REST API。默认配额为每分钟 1,800 个请求。 需要低延迟和高容量的常规文本提取使用场景。
Cloud Vision OCR Google Distributed Cloud(已弃用) Google Cloud Marketplace 应用,可作为容器部署到任何 GKE 集群(使用 GKE Enterprise)。 满足数据驻留或合规性要求。

检测和提取

Enterprise Document OCR 可以检测 PDF 和图片中的文本块、段落、行、字词和符号,还可以对文档进行倾斜校正,以提高准确性。

支持的布局检测和提取属性:

印刷文字 手写 段落 屏蔽 Line 文字 符号级 页码
默认 默认 默认 默认 默认 默认 可配置 默认

可配置的 Enterprise Document OCR 功能包括:

  • 从数字 PDF 中提取嵌入式文本或原生文本:此功能可提取文本和符号,即使是旋转的文本、极端的字体大小或样式以及部分隐藏的文本,也能准确提取。

  • 旋转校正:使用 Enterprise Document OCR 预处理文档图片,以校正可能会影响提取质量或处理的旋转问题。

  • 图片质量得分:接收有助于文档路由的质量指标。图片质量得分可为您提供 8 个维度的网页级质量指标,包括模糊度、是否存在比正常字体小的字体以及眩光。

  • 指定网页范围:指定输入文档中要进行 OCR 的网页范围。这样可以节省不必要网页的支出和处理时间。

  • 语言检测:检测提取的文本中使用的语言。

  • 语言和手写提示:根据数据集的已知特征,为 OCR 模型提供语言或手写提示,从而提高准确性。

如需了解如何启用 OCR 配置,请参阅启用 OCR 配置

OCR 加购项

Enterprise Document OCR 提供可选的分析功能,可根据需要在各个处理请求中启用。

以下附加功能适用于稳定版 pretrained-ocr-v2.0-2023-06-02pretrained-ocr-v2.1-2024-08-07 以及候选版本 pretrained-ocr-v2.1.1-2025-01-31

  • 数学 OCR:以 LaTeX 格式识别并提取文档中的公式。
  • 复选框提取:在 Enterprise Document OCR 响应中检测复选框并提取其状态(选中/未选中)。
  • 字体样式检测:识别字词级字体属性,包括字体类型、字体样式、手写体、粗细和颜色。

如需了解如何启用所列的插件,请参阅启用 OCR 插件

支持的文件格式

企业版文档 OCR 支持 PDF、GIF、TIFF、JPEG、PNG、BMP 和 WebP 文件格式。如需了解详情,请参阅支持的文件

Enterprise Document OCR 还支持最多 15 页的同步 DocX 文件和最多 30 页的异步 DocX 文件。DocX 支持目前为非公开预览版。 如需申请访问权限,请提交 DocX 支持请求表单

高级版本控制

高级版本控制目前为