Ir para o conteúdo principal
Google Cloud
Documentação Áreas de tecnologia
  • IA e ML
  • Desenvolvimento de aplicativos
  • Hospedagem de aplicativos
  • Computação
  • Pipelines e análises de dados
  • Bancos de dados
  • Distribuído, híbrido e multicloud
  • IA generativa
  • Soluções por setor
  • Rede
  • Observabilidade e monitoramento
  • Segurança
  • Storage
Ferramentas de vários produtos
  • Gerenciamento de recursos e acesso
  • Gerenciamento de custos e uso
  • SDK Google Cloud, linguagens, frameworks e ferramentas
  • Infraestrutura como código
  • Migração
Sites relacionados
  • Página inicial do Google Cloud
  • Teste gratuito e Nível gratuito
  • Centro de arquitetura
  • Blog
  • Entrar em contato com a equipe de vendas
  • Centro para Desenvolvedores do Google Cloud
  • Centro para Desenvolvedores do Google
  • Google Cloud Marketplace
  • Documentação do Google Cloud Marketplace
  • Google Cloud Skills Boost
  • Google Cloud Solution Center
  • Suporte do Google Cloud
  • Canal de tecnologia do Google Cloud no YouTube
/
  • English
  • Deutsch
  • Español
  • Español – América Latina
  • Français
  • Indonesia
  • Italiano
  • Português
  • Português – Brasil
  • 中文 – 简体
  • 中文 – 繁體
  • 日本語
  • 한국어
Console Fazer login
  • Cloud Run
Guias Referência Exemplos Recursos
Entre em contato Comece gratuitamente
Google Cloud
  • Documentação
    • Guias
    • Referência
    • Exemplos
    • Recursos
  • Áreas de tecnologia
    • Mais
  • Ferramentas de vários produtos
    • Mais
  • Sites relacionados
    • Mais
  • Console
  • Entre em contato
  • Comece gratuitamente
  • Descoberta
  • Visão geral do produto
  • Modelo de recurso do Cloud Run
  • Contrato de ambiente de execução de contêiner
  • Meu app é adequado para um serviço do Cloud Run?
  • Quando devo implantar uma função?
  • Começar
  • Visão geral
  • Implantar um serviço da Web de exemplo
    • Implantar um contêiner de amostra
    • Criar um repositório de modelos e implantar a partir de um repositório git
    • Implantar um serviço "Hello World" a partir do código-fonte
      • Go
      • Node.js
      • Python
        • Flask
        • FastAPI
        • Gradio
        • Streamlit
      • Java
      • Kotlin
      • C#
      • C++
      • PHP
      • Ruby
      • Outros
      • Frameworks
        • Visão geral
        • SSR do Angular
        • Next.js
        • Nuxt.js
        • SvelteKit
  • Implantar um contêiner de pool de workers de amostra
  • Executar um job de amostra
    • Executar um job
    • Executar um job a partir do código-fonte
      • Go
      • Node.js
      • Python
      • Java
      • Shell
  • Implantar uma função de exemplo
    • Implantar uma função usando o console
    • Implantar uma função usando o gcloud
  • Desenvolver
  • Configurar o ambiente
  • Planejar e preparar seu serviço
    • Desenvolver seu serviço
    • Conteinerizar o código
    • Conectar-se aos serviços do Google Cloud
    • Instalar um pacote de sistema no contêiner
    • Executar comandos gcloud no contêiner
  • Agentes de IA
    • Hospedar agentes de IA
    • Hospedar agentes A2A
      • Visão geral dos agentes A2A do host
      • Implantar um agente A2A
      • Testar e monitorar a implantação do agente A2A
  • Servidores MCP
    • Hospedar servidores MCP
    • Criar e implantar um servidor MCP remoto
  • Planejar e preparar sua função
    • Visão geral
    • Comparar funções do Cloud Run
    • Escrever funções
      • Visão geral
      • Funções HTTP
      • Funções baseadas em eventos
    • Ambientes de execução
      • Visão geral
      • Node.js
        • Visão geral
        • Dependências do Node.js
      • Python
        • Visão geral
        • Dependências do Python
      • Go
        • Visão geral
        • Dependências do Go
      • Java
        • Visão geral
        • Dependências de Java
      • .NET
      • Ruby
      • PHP
    • Desenvolvimento de funções locais
    • Acionadores de função
    • Tutoriais
      • Criar uma função que retorna resultados do BigQuery
      • Criar uma função que retorna resultados do Spanner
      • Integração com bancos de dados do Google Cloud
      • Codelabs
  • Criação e teste
    • Criar origens para contêineres
    • Criar funções para contêineres
    • Teste local
  • Exibir solicitações HTTP
  • Implantar serviços
    • Implantar imagens de contêiner
    • Implantação contínua do git
    • Implantar a partir do código-fonte
    • Implantar funções
  • Veicular tráfego da Web
    • Como mapear domínios personalizados
    • Como veicular recursos estáticos com o CDN
    • Como exibir o tráfego de várias regiões
    • Ativar a afinidade de sessão
    • Proxy de front-end usando Nginx
  • Gerenciar serviços
    • Ver, copiar ou excluir serviços
    • Ver ou excluir revisões
    • Migração de tráfego, lançamentos graduais e reversões
  • Configura serviços
    • Visão geral
    • Capacidade
      • Limites de memória
      • Limites de CPU
      • GPU
        • Configuração da GPU
        • Práticas recomendadas para desempenho da GPU
        • Executar inferência de LLM em GPUs do Cloud Run com o Ollama
        • Executar modelos do Gemma 3 no Cloud Run
        • Executar inferência LLM em GPUs do Cloud Run com vLLM
        • Executar o OpenCV no Cloud Run com aceleração de GPU
        • Executar inferência LLM em GPUs do Cloud Run com o Transformers.js do Hugging Face
        • Executar inferência LLM em GPUs do Cloud Run com o TGI do Hugging Face
      • Tempo limite da solicitação
      • Máximo de solicitações simultâneas
        • Sobre o número máximo de solicitações simultâneas por instância
        • Configurar o máximo de solicitações simultâneas
      • Faturamento
      • Otimizar configurações de serviço com o Recommender
    • Ambiente
      • Porta do contêiner e ponto de entrada
      • Variáveis de ambiente
      • Montagens de volumes
        • Volumes do Cloud Storage
        • Volumes NFS
        • Volumes na memória
      • Ambiente de execução
        • Visão geral
        • Selecionar um ambiente de execução
      • Verificações de integridade do contêiner
      • Solicitações HTTP/2
      • Secrets
      • Identidade do serviço
    • Escalonamento
      • Sobre o escalonamento automático de instâncias para serviços
      • Número máximo de instâncias
        • Sobre o número máximo de instâncias para serviços
        • Configurar o máximo de instâncias
      • Instâncias mínimas
      • Escalonamento manual
    • Metadados
      • Descrição
      • Rótulos
      • Tags
    • Configurações de implantação de origem
      • Ambientes de execução de linguagem e imagens de base compatíveis
      • Configurar atualizações automáticas da imagem de base
      • Variáveis de ambiente de build
      • Criar conta de serviço
      • Criar pools de workers
  • Invocar e acionar serviços
    • Invocar com solicitações HTTPS
    • Hospedar um destino de webhook
    • Transmitir com WebSockets
      • Visão geral
      • Tutorial de criação de um serviço de chat do WebSocket
    • Invocar de forma assíncrona
      • Invocar serviços em uma programação
      • Criar um fluxo de trabalho
        • Invocar serviços como parte de um fluxo de trabalho
        • Conectar uma série de serviços do Cloud Functions e do tutorial do Cloud Run
      • Executar tarefas assíncronas
      • Chamar um serviço de uma assinatura de push do Pub/Sub
        • Acionar serviço do Pub/Sub
        • Tutorial de integração de processamento de imagens no Pub/Sub
    • Acionar eventos
      • Criar gatilhos com o Eventarc
      • Gatilhos do Pub/Sub
        • Criar gatilhos do Eventarc no Pub/Sub
        • Acionar funções do Pub/Sub usando o Eventarc
        • Acionar funções de entradas de registro roteadas
      • Gatilhos do Cloud Storage
        • Criar acionadores com o Cloud Storage
        • Acionar serviços do Cloud Storage usando o Eventarc
        • Acionar funções do Cloud Storage usando o Eventarc
      • Gatilhos do Firestore
        • Criar gatilhos com o Firestore
        • Acionar funções de eventos em um banco de dados do Firestore
    • Conectar-se a outros serviços usando o gRPC
  • Práticas recomendadas
    • Dicas gerais de desenvolvimento para serviços
    • Otimizar serviços Java
    • Otimizar serviços do Python
    • Otimizar serviços do Node.js
    • Práticas recomendadas de teste de carga
    • Entenda a redundância zonal
    • Práticas recomendadas para funções
      • Visão geral
      • Ativar novas tentativas de funções orientadas a eventos
  • Executar tarefas de job até a conclusão
  • Criar jobs
  • Executar jobs
    • Executar jobs
    • Executar jobs programados
    • Executar jobs programados em um perímetro do VPC SC
    • Executar jobs com o Workflows
  • Configurar jobs
    • Ponto de entrada de contêiner
    • Limites de CPU
    • Limites de memória
    • GPU
      • Configuração da GPU
      • Práticas recomendadas para GPU
      • Ajustar LLMs usando GPUs com jobs do Cloud Run
      • Executar inferência em lote usando GPUs com jobs do Cloud Run
    • Variáveis de ambiente
    • Verificações de integridade do contêiner
    • Montagens de volumes
      • Volumes do Cloud Storage
      • Volumes NFS
      • Volumes na memória
      • Outros sistemas de arquivos de rede
    • Rótulos
    • Máximo de novas tentativas
    • Paralelismo
    • Secrets
    • Identidade do serviço
    • Tempo limite da tarefa
    • Tags
  • Gerencie vagas
    • Ver ou excluir jobs
    • Ver ou parar execuções de job
  • Práticas recomendadas
  • Realizar trabalho contínuo em segundo plano
  • Implantar pools de workers
    • Implantar pools de workers
    • Implantar pools de workers do código-fonte
  • Gerenciar pools de workers
    • Ver ou excluir pools de workers
    • Ver ou excluir revisões do pool de workers
  • Configurar pools de workers
    • Capacidade
      • Limites de memória
      • Limites de CPU
      • GPU