选择文档处理函数
本文档对 BigQuery ML 中提供的文档处理函数进行了比较,这些函数分别为 ML.GENERATE_TEXT
和 ML.PROCESS_DOCUMENT
。
在函数功能重叠的情况下,您可以使用本文档中的信息来帮助您确定要使用哪个函数。
概括来说,这些函数之间的区别如下:
ML.GENERATE_TEXT
非常适合执行其中部分内容位于文档中的自然语言处理 (NLP) 任务。此函数具有以下优势:- 费用更低
- 推出更多语言版本
- 吞吐量速度更快
- 模型调优功能
- 提供多模态模型
如需查看此方法最适合处理的文档处理任务示例,请参阅使用 Gemini API 探索文档处理功能。
ML.PROCESS_DOCUMENT
非常适合执行需要文档解析和预定义结构化响应的文档处理任务。
支持的模型
支持的型号如下:
ML.GENERATE_TEXT
:您可以使用 Vertex AI Gemini 模型的一部分来生成文本。如需详细了解支持的模型,请参阅ML.GENERATE_TEXT
语法。ML.PROCESS_DOCUMENT
:您使用 Document AI API 的默认模型。使用 Document AI API 可让您访问许多不同的文档处理器,例如账单解析器、布局解析器和表单解析器。您可以使用这些文档处理器来处理具有多种不同结构的 PDF 文件。
支持的任务
支持的任务如下:
ML.GENERATE_TEXT
:您可以执行输入为文档的任何 NLP 任务。例如,如果提供的是某公司的财务文档,您可以通过提供提示(例如What is the quarterly revenue for each division?
)来检索文档信息。ML.PROCESS_DOCUMENT
:您可以针对不同类型的文档(例如账单、纳税表单和财务报表)执行专门的文档处理。您还可以执行文档分块。如需详细了解如何使用ML.PROCESS_DOCUMENT
函数完成此任务,请参阅在检索增强生成流水线中解析 PDF。
价格
价格如下所示:
ML.GENERATE_TEXT
:如需了解与此函数搭配使用的 Vertex AI 模型的价格,请参阅 Vertex AI 价格。对受支持模型的监督式调优按每节点时美元收费。如需了解详情,请参阅 Vertex AI 自定义训练价格。ML.PROCESS_DOCUMENT
:如需了解与此函数搭配使用的 Cloud AI 服务的价格,请参阅 Document AI API 价格。
监督式调优
监督式调整支持如下:
ML.GENERATE_TEXT
:某些模型支持监督式调优。ML.PROCESS_DOCUMENT
:不支持监督式调优。
每分钟查询次数 (QPM) 限额
QPM 限制如下:
ML.GENERATE_TEXT
:对于gemini-1.5-pro
模型,在默认的us-central1
区域为 60 QPM;对于gemini-1.5-flash
模型,在默认的us-central1
区域为 200 QPM。如需了解详情,请参阅 Vertex AI 上的生成式 AI 配额。ML.PROCESS_DOCUMENT
:每种处理器类型 120 QPM,每个项目的总限额为 600 QPM。如需了解详情,请参阅配额列表。
如需增加配额,请参阅申请配额调整。
token 限制
令牌限制如下:
ML.GENERATE_TEXT
:700 个输入 token 和 8196 个输出 token。ML.PROCESS_DOCUMENT
:没有令牌限制。不过,此函数具有不同的页面限制,具体取决于您使用的处理器。如需了解详情,请参阅限制。
支持的语言
支持的语言如下:
区域可用性
推出区域如下:
ML.GENERATE_TEXT
:在所有适用于 Vertex AI 的生成式 AI 区域提供。ML.PROCESS_DOCUMENT
:在EU
和US
多区域中提供,适用于所有处理器。部分处理器还在某些单一区域中提供。如需了解详情,请参阅区域级和多区域级支持。