选择文档处理函数

本文档对 BigQuery ML 中提供的文档处理函数进行了比较,这些函数分别为 ML.GENERATE_TEXTML.PROCESS_DOCUMENT

在函数功能重叠的情况下,您可以使用本文档中的信息来帮助您确定要使用哪个函数。

概括来说,这些函数之间的区别如下:

  • ML.GENERATE_TEXT 非常适合执行其中部分内容位于文档中的自然语言处理 (NLP) 任务。此函数具有以下优势:

    • 费用更低
    • 推出更多语言版本
    • 吞吐量速度更快
    • 模型调优功能
    • 提供多模态模型

    如需查看此方法最适合处理的文档处理任务示例,请参阅使用 Gemini API 探索文档处理功能

  • ML.PROCESS_DOCUMENT 非常适合执行需要文档解析和预定义结构化响应的文档处理任务。

支持的模型

支持的型号如下:

  • ML.GENERATE_TEXT:您可以使用 Vertex AI Gemini 模型的一部分来生成文本。如需详细了解支持的模型,请参阅 ML.GENERATE_TEXT 语法
  • ML.PROCESS_DOCUMENT:您使用 Document AI API 的默认模型。使用 Document AI API 可让您访问许多不同的文档处理器,例如账单解析器、布局解析器和表单解析器。您可以使用这些文档处理器来处理具有多种不同结构的 PDF 文件。

支持的任务

支持的任务如下:

  • ML.GENERATE_TEXT:您可以执行输入为文档的任何 NLP 任务。例如,如果提供的是某公司的财务文档,您可以通过提供提示(例如 What is the quarterly revenue for each division?)来检索文档信息。
  • ML.PROCESS_DOCUMENT:您可以针对不同类型的文档(例如账单、纳税表单和财务报表)执行专门的文档处理。您还可以执行文档分块。如需详细了解如何使用 ML.PROCESS_DOCUMENT 函数完成此任务,请参阅在检索增强生成流水线中解析 PDF

价格

价格如下所示:

  • ML.GENERATE_TEXT:如需了解与此函数搭配使用的 Vertex AI 模型的价格,请参阅 Vertex AI 价格。对受支持模型的监督式调优按每节点时美元收费。如需了解详情,请参阅 Vertex AI 自定义训练价格
  • ML.PROCESS_DOCUMENT:如需了解与此函数搭配使用的 Cloud AI 服务的价格,请参阅 Document AI API 价格

监督式调优

监督式调整支持如下:

  • ML.GENERATE_TEXT:某些模型支持监督式调优
  • ML.PROCESS_DOCUMENT:不支持监督式调优。

每分钟查询次数 (QPM) 限额

QPM 限制如下:

  • ML.GENERATE_TEXT:对于 gemini-1.5-pro 模型,在默认的 us-central1 区域为 60 QPM;对于 gemini-1.5-flash 模型,在默认的 us-central1 区域为 200 QPM。如需了解详情,请参阅 Vertex AI 上的生成式 AI 配额
  • ML.PROCESS_DOCUMENT:每种处理器类型 120 QPM,每个项目的总限额为 600 QPM。如需了解详情,请参阅配额列表

如需增加配额,请参阅申请配额调整

token 限制

令牌限制如下:

  • ML.GENERATE_TEXT:700 个输入 token 和 8196 个输出 token。
  • ML.PROCESS_DOCUMENT:没有令牌限制。不过,此函数具有不同的页面限制,具体取决于您使用的处理器。如需了解详情,请参阅限制

支持的语言

支持的语言如下:

  • ML.GENERATE_TEXT:支持与 Gemini 相同的语言。
  • ML.PROCESS_DOCUMENT:语言支持取决于文档处理器类型;大多数类型仅支持英语。如需了解详情,请参阅处理器列表

区域可用性

推出区域如下:

  • ML.GENERATE_TEXT:在所有适用于 Vertex AI 的生成式 AI 区域提供。
  • ML.PROCESS_DOCUMENT:在 EUUS 多区域中提供,适用于所有处理器。部分处理器还在某些单一区域中提供。如需了解详情,请参阅区域级和多区域级支持