Esta secção explica os conceitos de unidade de escala de IA generativa (GSU) e taxas de redução. O débito processado é calculado e tem um preço com base nas unidades de escala de IA generativa (GSUs) e nas taxas de redução.
GSU e taxa de redução
Uma unidade de escala de IA generativa (GSU) é uma medida da taxa de transferência para os seus comandos e respostas. Este valor especifica a quantidade de débito a aprovisionar para um modelo.
Uma taxa de redução é uma proporção que converte as unidades de entrada e saída (como tokens, carateres ou imagens) em tokens de entrada por segundo, carateres de entrada por segundo ou imagens de entrada por segundo, respetivamente. Esta proporção representa o débito e é usada para produzir uma unidade padrão em todos os modelos.
Os diferentes modelos usam quantidades diferentes de débito. Para obter informações sobre o valor mínimo de compra do GSU e os incrementos para cada modelo, consulte o artigo Modelos suportados e taxas de redução neste documento.
Esta equação demonstra como o débito é calculado:
inputs_per_query = inputs_across_modalities_converted_using_burndown_rates
outputs_per_query = outputs_across_modalities_converted_using_burndown_rates
throughput_per_second = (inputs_per_query + outputs_per_query) * queries_per_second
O débito calculado por segundo determina o número de GSUs de que precisa para o seu exemplo de utilização.
Considerações importantes
Para ajudar a planear as suas necessidades de débito aprovisionado, reveja as seguintes considerações importantes:
As solicitações são processadas com prioridade.
Os clientes de débito processado aprovisionado têm prioridade e são atendidos antes dos pedidos a pedido.
A taxa de transferência não é acumulável.
A taxa de transferência não usada não se acumula nem transita para o mês seguinte.
A capacidade de débito aprovisionada é medida em tokens por segundo, carateres por segundo ou imagens por segundo.
O débito aprovisionado não é medido apenas com base nas consultas por minuto (QPM). É medido com base no tamanho da consulta para o seu exemplo de utilização, no tamanho da resposta e no QPM.
O débito processado é específico de um projeto, uma região, um modelo e uma versão.
O débito aprovisionado é atribuído a uma combinação específica de projeto, região e versão do modelo. O mesmo modelo chamado a partir de uma região diferente não conta para a sua quota de débito processado e não tem prioridade sobre os pedidos a pedido.
Colocação em cache de contexto
O débito aprovisionado suporta a colocação em cache de contexto implícita. Não suporta o armazenamento em cache de contexto explícito. O tráfego de colocação em cache de contexto explícito é movido do débito processado para o pagamento conforme o uso.
A colocação em cache implícita está ativada em todos os Google Cloud projetos por predefinição. A colocação em cache implícita reduz o custo e a latência durante os acertos da cache. Para os modelos Gemini 2.0 Flash, Gemini 2.5 Flash e Gemini 2.5 Pro, os tokens em cache são cobrados com um desconto de 75% em relação aos tokens de entrada padrão quando ocorre um acerto da cache. Para o débito processado, o desconto é aplicado através de uma taxa de redução mais baixa.
Por exemplo, o Gemini 2.5 Pro tem as seguintes taxas de consumo de tokens de texto de entrada e tokens em cache:
1 token de texto de entrada = 1 token
1 símbolo de texto em cache de entrada = 0,25 símbolos
O envio de 1000 tokens de entrada para este modelo resulta numa redução do seu débito processado aprovisionado de 1000 tokens de entrada por segundo. No entanto, se enviar 1000 tokens em cache para o Gemini 2.5 Pro, isto resulta numa redução do débito processado de 250 tokens por segundo.
Tenha em atenção que isto pode levar a um débito mais elevado para consultas semelhantes em que os tokens não estão em cache e o desconto de cache não é aplicado.
Para ver as taxas de redução para modelos suportados no débito processado, consulte Modelos suportados e taxas de redução.
Compreenda a redução da API Live
O débito processado suporta o Gemini 2.5 Flash com a API Live. Para saber como calcular a redução enquanto usa a API Live, consulte o artigo Calcule o débito para a API Live.
Para mais informações sobre a utilização do débito processado para o Gemini 2.5 Flash com a API Live, consulte o artigo Débito processado para a API Live.
Exemplo de estimativa das suas necessidades de débito aprovisionado
Para estimar as suas necessidades de débito processado, use a ferramenta de estimativa na Google Cloud consola. O exemplo seguinte ilustra o processo de estimativa da quantidade de débito processado para o seu modelo. A região não é considerada nos cálculos de estimativa.
Esta tabela indica as taxas de redução de gemini-2.0-flash
que pode usar para seguir o exemplo.
Modelo | Débito por GSU | Unidades | Incremento mínimo de compra de GSU | Taxas de burndown |
---|---|---|---|---|
Gemini 2.0 Flash | 3360 | Tokens | 1 |
1 token de texto de entrada = 1 token 1 token de imagem de entrada = 1 token 1 token de vídeo de entrada = 1 token 1 token de áudio de entrada = 7 tokens 1 token de texto de saída = 4 tokens |
Reúna os seus requisitos.
Neste exemplo, o seu requisito é validar se consegue suportar 10 consultas por segundo (QPS) de uma consulta com uma entrada de 1000 tokens de texto e 500 tokens de áudio, para receber uma saída de 300 tokens de texto através da API
gemini-2.0-flash
.Este passo significa que compreende o seu exemplo de utilização, porque identificou o seu modelo, as QPS e o tamanho das suas entradas e saídas.
Para calcular o débito, consulte as taxas de redução do modelo selecionado.
Calcule o débito.
Multiplique as suas entradas pelas taxas de redução para chegar ao total de tokens de entrada:
1000*(1 token por token de texto de entrada) + 500*(7 tokens por token de áudio de entrada) = 4500 tokens de entrada ajustados por consulta.
Multiplique as suas saídas pelas taxas de redução para chegar ao total de tokens de saída:
300*(4 tokens por token de texto de saída) = 1200 tokens de saída ajustados de redução por consulta
Adicione os totais:
4500 tokens de entrada ajustados por redução + 1200 tokens de saída ajustados por redução = 5700 tokens totais por consulta
Multiplique o número total de tokens pelas CPS para obter o débito total por segundo:
5700 tokens totais por consulta * 10 CPS = 57 000 tokens totais por segundo
Calcule as suas GSUs.
As GSUs são o total de tokens por segundo dividido pelo débito por segundo por GSU da tabela de redução.
57 000 tokens totais por segundo ÷ 3360 débito por segundo por GSU = 16,96 GSUs
O incremento mínimo de compra de GSU para
gemini-2.0-flash
é 1, pelo que precisa de 17 GSUs para garantir a sua carga de trabalho.