您可以将 Enterprise Document OCR 用作 Document AI 的一部分,以检测和提取各种文档中的文本和布局信息。借助可配置的功能,您可以根据特定的文档处理要求定制系统。
概览
您可以使用 Enterprise Document OCR 来执行基于算法或机器学习的数据输入等任务,并提高和验证数据准确性。您还可以使用 Enterprise Document OCR 来处理以下任务:
- 文本数字化:从文档中提取文本和布局数据,以用于搜索、基于规则的文档处理流水线或自定义模型创建。
- 使用大语言模型应用:利用 LLM 的上下文理解能力和 OCR 的文本及布局提取能力,自动生成问题和答案。从数据中发掘数据洞见,并简化工作流程。
- 归档:将纸质文档数字化为机器可读的文本,以提高文档的可访问性。
为您的使用场景选择最佳 OCR
解决方案 | 产品 | 说明 | 用例 |
---|---|---|---|
Document AI | Enterprise Document OCR | 专门针对文档使用场景的模型。高级功能包括图片质量得分、语言提示和旋转校正。 | 建议在从文档中提取文本时使用。用例包括 PDF 文档、图片扫描文档或 Microsoft DocX 文件。 |
Document AI | OCR 加购项 | 满足特定需求的高级功能。仅与 Enterprise Document OCR 版本 2.0 及更高版本兼容。 | 需要检测和识别数学公式、接收字体样式信息或启用复选框提取功能。 |
Cloud Vision API | 文本检测 | 基于 Google Cloud 标准 OCR 模型的全球可用 REST API。默认配额为每分钟 1,800 个请求。 | 需要低延迟和高容量的常规文本提取使用场景。 |
Cloud Vision | OCR Google Distributed Cloud(已弃用) | Google Cloud Marketplace 应用,可作为容器部署到任何 GKE 集群(使用 GKE Enterprise)。 | 满足数据驻留或合规性要求。 |
检测和提取
Enterprise Document OCR 可以检测 PDF 和图片中的文本块、段落、行、字词和符号,还可以对文档进行倾斜校正,以提高准确性。
支持的布局检测和提取属性:
印刷文字 | 手写 | 段落 | 屏蔽 | Line | 文字 | 符号级 | 页码 |
---|---|---|---|---|---|---|---|
默认 | 默认 | 默认 | 默认 | 默认 | 默认 | 可配置 | 默认 |
可配置的 Enterprise Document OCR 功能包括:
从数字 PDF 中提取嵌入式文本或原生文本:此功能可提取文本和符号,即使是旋转的文本、极端的字体大小或样式以及部分隐藏的文本,也能准确提取。
旋转校正:使用 Enterprise Document OCR 预处理文档图片,以校正可能会影响提取质量或处理的旋转问题。
图片质量得分:接收有助于文档路由的质量指标。图片质量得分可为您提供 8 个维度的网页级质量指标,包括模糊度、是否存在比正常字体小的字体以及眩光。
指定网页范围:指定输入文档中要进行 OCR 的网页范围。这样可以节省不必要网页的支出和处理时间。
语言检测:检测提取的文本中使用的语言。
语言和手写提示:根据数据集的已知特征,为 OCR 模型提供语言或手写提示,从而提高准确性。
如需了解如何启用 OCR 配置,请参阅启用 OCR 配置。
OCR 加购项
Enterprise Document OCR 提供可选的分析功能,可根据需要在各个处理请求中启用。
以下附加功能适用于稳定版 pretrained-ocr-v2.0-2023-06-02
和 pretrained-ocr-v2.1-2024-08-07
以及候选版本 pretrained-ocr-v2.1.1-2025-01-31
。
- 数学 OCR:以 LaTeX 格式识别并提取文档中的公式。
- 复选框提取:在 Enterprise Document OCR 响应中检测复选框并提取其状态(选中/未选中)。
- 字体样式检测:识别字词级字体属性,包括字体类型、字体样式、手写体、粗细和颜色。
如需了解如何启用所列的插件,请参阅启用 OCR 插件。
支持的文件格式
企业版文档 OCR 支持 PDF、GIF、TIFF、JPEG、PNG、BMP 和 WebP 文件格式。如需了解详情,请参阅支持的文件。
Enterprise Document OCR 还支持最多 15 页的同步 DocX 文件和最多 30 页的异步 DocX 文件。DocX 支持目前为非公开预览版。 如需申请访问权限,请提交 DocX 支持请求表单。
高级版本控制
高级版本控制目前为