Introdução à partilha do BigQuery

A partilha do BigQuery (anteriormente Analytics Hub) é uma plataforma de troca de dados que lhe permite partilhar dados e estatísticas em grande escala entre limites organizacionais com uma estrutura de segurança e privacidade robusta. A partilha permite-lhe descobrir e aceder a uma biblioteca de dados organizada por vários fornecedores de dados. Esta biblioteca de dados também inclui conjuntos de dados fornecidos pela Google.

Por exemplo, pode usar a partilha para aumentar as suas iniciativas de estatísticas e ML com conjuntos de dados de terceiros e da Google.

As funções da gestão de identidade e de acesso (IAM) do Analytics Hub permitem-lhe realizar as seguintes tarefas de partilha:

  • Como publicador do Analytics Hub, pode partilhar dados com a sua rede de parceiros ou na sua própria organização em tempo real. As fichas permitem-lhe partilhar dados sem replicar os dados partilhados e podem ser rentabilizadas no Google Cloud Marketplace ou através dos seus próprios canais. Pode criar um catálogo de origens de dados prontas para análise com autorizações detalhadas que lhe permitem fornecer dados aos públicos-alvo certos. Também pode gerir subscrições e ver as métricas de utilização das suas fichas.

  • Como subscritor do Analytics Hub, pode descobrir os dados que procura, combinar dados partilhados com os seus dados existentes e usar as funcionalidades incorporadas do BigQuery. Quando subscreve uma ficha, é criado um conjunto de dados associado ou uma subscrição do Pub/Sub associada no seu projeto. Pode gerir as suas subscrições através do recurso Subscription, que armazena informações relevantes sobre o subscritor e representa a ligação entre a editora e o subscritor.

  • Enquanto visualizador do Analytics Hub, pode procurar os recursos partilhados aos quais tem acesso na partilha do BigQuery e fazer um pedido ao publicador para aceder aos dados partilhados. Pode descobrir fichas comerciais integradas no Cloud Marketplace na partilha do BigQuery e no Cloud Marketplace.

  • Enquanto administrador do Analytics Hub, pode criar trocas de dados que permitem a partilha de dados e, em seguida, conceder autorizações aos publicadores e subscritores de dados para acederem a estas trocas de dados.

Para mais informações, consulte o artigo Configure funções do Analytics Hub.

Arquitetura

A partilha baseia-se num modelo de publicação e subscrição de Google Cloud recursos de dados, o que permite a partilha sem cópia no local. A partilha suporta os seguintes Google Cloud recursos:

  • Conjuntos de dados do BigQuery
  • Tópicos do Pub/Sub

Fluxo de trabalho do publicador

O diagrama seguinte descreve como um publicador partilha recursos:

O fluxo de trabalho do publicador do Analytics Hub, que inclui recursos partilhados, trocas de dados e fichas.

As secções seguintes descrevem as funcionalidades neste fluxo de trabalho.

Recursos partilhados

Os recursos partilhados são a unidade de partilha de um publicador na partilha do BigQuery.

Conjuntos de dados partilhados

Um conjunto de dados partilhado é um conjunto de dados do BigQuery que é a unidade de partilha de dados na partilha do BigQuery. A separação do processamento e do armazenamento na arquitetura do BigQuery permite que os publicadores de dados partilhem conjuntos de dados com quantos subscritores quiserem, sem terem de fazer várias cópias dos dados. Enquanto publicador, cria ou usa um conjunto de dados do BigQuery existente no seu projeto com os seguintes objetos suportados que quer enviar para os seus subscritores:

Os conjuntos de dados partilhados suportam a segurança ao nível da coluna e a segurança ao nível da linha.

Tenha em atenção as seguintes limitações relativamente aos VPC Service Controls e à partilha:

  • Não é recomendado que os publicadores publiquem dados partilhados em projetos dentro dos perímetros dos VPC Service Controls. Se os conjuntos de dados partilhados num projeto estiverem dentro de perímetros do VPC Service Controls, são necessárias regras de entrada e saída adequadas para o projeto de troca (anúncios alojados) e todos os projetos do subscritor subscreverem com êxito os anúncios do publicador.

  • Não é recomendável que os administradores da troca coloquem o respetivo projeto de troca num perímetro dos VPC Service Controls, uma vez que pode interromper os fluxos de trabalho de publicação, o que requer regras de entrada e saída para o projeto do publicador e todos os projetos dos subscritores para subscreverem com êxito as respetivas fichas.

Tópicos partilhados

Um tópico partilhado é um tópico do Pub/Sub que é a unidade de partilha de dados de streaming no BigQuery. Enquanto publicador, cria ou usa um tópico Pub/Sub existente no seu projeto e distribui-o pelos seus subscritores.

Intercâmbios de dados

Uma troca de dados é um contentor que permite a partilha de dados autónoma. Contém fichas que fazem referência a recursos partilhados. Os publicadores e os administradores podem conceder acesso aos subscritores ao nível da bolsa de câmbio e da ficha. Este método ajuda a evitar a concessão explícita de acesso aos recursos partilhados subjacentes. Um subscritor pode procurar trocas de dados, descobrir dados aos quais pode aceder e subscrever recursos partilhados. Quando cria uma troca de dados, pode atribuir-lhe um email de contacto principal. O email do contacto principal oferece aos utilizadores uma forma de contactar o proprietário de uma troca de dados com perguntas ou dúvidas sobre a troca de dados. Uma troca de dados pode ser dos seguintes tipos:

  • Troca de dados privados. Por predefinição, uma troca de dados é privada e apenas os utilizadores ou os grupos que têm acesso a essa troca podem ver ou subscrever as respetivas fichas.
  • Troca de dados públicos. Por predefinição, uma troca de dados é privada e apenas os utilizadores ou os grupos que têm acesso a essa troca podem ver ou subscrever as respetivas fichas. No entanto, pode optar por tornar uma troca de dados pública. As fichas nas trocas de dados públicas podem ser descobertas e subscritas por Google Cloud utilizadores (allAuthenticatedUsers). Para mais informações sobre as trocas de dados públicas, consulte Torne uma troca de dados pública.

A função de administrador do Analytics Hub permite-lhe criar várias trocas de dados e gerir outros utilizadores que realizam tarefas de partilha.

Fichas

Uma ficha é uma referência a um recurso partilhado que um publicador lista numa troca de dados. Como publicador, pode criar uma ficha e especificar a descrição do recurso, consultas de exemplo a executar ou dados de mensagens de exemplo, links para qualquer documentação relevante e quaisquer informações adicionais que possam ajudar os subscritores a usar o seu recurso partilhado. Quando cria uma ficha, pode atribuir um email de contacto principal, um nome e um contacto do fornecedor, bem como um nome e um contacto do publicador. O email de contacto principal permite aos utilizadores contactar o proprietário de uma ficha com perguntas ou preocupações acerca da troca de dados. O nome e o contacto do fornecedor são as informações da agência que forneceu originalmente os dados para a ficha. Estas informações são opcionais. O nome e o contacto do publicador são a agência que publicou os dados para utilização na partilha do BigQuery. Estas informações são opcionais. Para mais informações, consulte o artigo Faça a gestão das fichas.

Uma ficha pode ser de um dos dois tipos seguintes com base na política de gestão de identidades e acessos (IAM) definida para a ficha e no tipo de troca de dados que contém a ficha:

  • Anúncio público. É partilhada com todos os Google Cloud utilizadores (allAuthenticatedUsers). As fichas numa troca de dados pública são fichas públicas. Estas fichas podem ser referências de um recurso público gratuito ou de um recurso comercial. Se a ficha for de um recurso comercial, os subscritores podem pedir acesso à ficha diretamente ao fornecedor de dados ou podem procurar e comprar fichas comerciais integradas no Google Cloud Marketplace.
  • Anúncio privado. É partilhado diretamente com indivíduos ou grupos. Por exemplo, uma ficha privada pode fazer referência a um conjunto de dados de métricas de marketing que partilha com outras equipas internas na sua organização.

Fluxo de trabalho de subscritores

O diagrama seguinte descreve como os subscritores do Analytics Hub interagem com os recursos partilhados:

O fluxo de trabalho de subscritor do Analytics Hub, que inclui recursos partilhados, trocas de dados, fichas e recursos associados.

As secções seguintes descrevem as funcionalidades no fluxo de trabalho do subscritor.

Recursos associados

Os recursos associados são criados quando subscreve uma ficha de partilha do BigQuery, o que associa um subscritor ao recurso partilhado subjacente.

Conjuntos de dados associados

Um conjunto de dados associado é um conjunto de dados do BigQuery só de leitura que funciona como um ponteiro ou uma referência a um conjunto de dados partilhado. A subscrição de uma ficha cria um conjunto de dados associado no seu projeto e não uma cópia do conjunto de dados, pelo que os subscritores podem ler os dados, mas não podem adicionar nem atualizar objetos no mesmo. Quando consulta objetos, como tabelas e vistas, através de um conjunto de dados associado, são devolvidos os dados do conjunto de dados partilhado. Para mais informações sobre conjuntos de dados associados, consulte o artigo Veja e subscreva fichas.

Os conjuntos de dados associados estão autorizados a aceder a tabelas e vistas de um conjunto de dados partilhado. Os subscritores com conjuntos de dados associados acedem a tabelas e vistas de um conjunto de dados partilhado sem autorização adicional de gestão de identidade e acesso.

Os conjuntos de dados associados suportam os seguintes objetos:

Subscrições do Pub/Sub associadas

A subscrição de uma ficha com um tópico partilhado cria uma subscrição do Pub/Sub associada no projeto do subscritor. Não são criadas cópias dos dados do tópico ou da mensagem partilhados. Os subscritores da subscrição Pub/Sub associada podem aceder às mensagens publicadas no tópico partilhado. Os subscritores acedem aos dados das mensagens de um tópico partilhado sem autorização adicional do Identity and Access Management. Os publicadores podem gerir as subscrições diretamente no Pub/Sub ou através da gestão de subscrições de partilha do BigQuery. Para mais informações sobre as subscrições do Pub/Sub associadas, consulte o artigo Partilha de streams com o Pub/Sub.

Opções de saída de dados (apenas conjuntos de dados partilhados do BigQuery)

As opções de saída de dados permitem que os publicadores restrinjam a exportação de dados dos conjuntos de dados associados do BigQuery por parte dos subscritores.

Os publicadores podem ativar a restrição de saída de dados numa ficha, nos resultados de uma consulta ou em ambos. Quando a saída de dados está restrita, aplicam-se as seguintes restrições:

  • As APIs de cópia, clonagem, exportação e instantâneo estão desativadas.

  • As opções de copiar, clonar, exportar e criar instantâneos na consola Google Cloud estão desativadas.

  • A associação do conjunto de dados restrito ao explorador de tabelas está desativada.

  • O Serviço de transferência de dados do BigQuery está desativado no conjunto de dados restrito.

  • As declarações CREATE TABLE AS SELECT e a escrita numa tabela de destino estão desativadas.

  • As declarações CREATE VIEW AS SELECT e a gravação numa vista de destino estão desativadas.

Quando cria uma ficha, pode definir as opções de saída de dados adequadas.

Limitações

A partilha tem as seguintes limitações:

  • Um conjunto de dados partilhado pode ter um máximo de 1000 conjuntos de dados associados.

  • Um tópico partilhado pode ter um máximo de 10 000 subscrições do Pub/Sub. Este limite inclui subscrições do Pub/Sub associadas e subscrições do Pub/Sub criadas fora da partilha do BigQuery (por exemplo, diretamente a partir do Pub/Sub).

  • Não é possível selecionar um conjunto de dados com recursos não suportados como um conjunto de dados partilhado quando cria uma ficha. Para mais informações sobre os objetos do BigQuery que a partilha do BigQuery suporta, consulte a secção Conjuntos de dados partilhados neste documento.

  • Não pode definir funções da IAM nem políticas da IAM em tabelas individuais num conjunto de dados associado. Em alternativa, aplique-os ao nível do conjunto de dados associado.

  • Não é possível anexar etiquetas IAM em tabelas num conjunto de dados associado. Em alternativa, aplique-as ao nível do conjunto de dados associado.

  • Os conjuntos de dados associados criados antes de 25 de julho de 2023 não são preenchidos novamente pelo recurso de subscrição. Apenas as subscrições criadas após 25 de julho de 2023 funcionam com os métodos da API.

  • Se for um publicador, aplicam-se as seguintes limitações de interoperabilidade do BigQuery:

    • Os subscritores têm de receber autorizações explícitas para ler o conjunto de dados de origem para poderem consultar vistas em conjuntos de dados associados. Para conceder acesso às visualizações, como prática recomendada, os publicadores devem criar visualizações autorizadas. As visualizações autorizadas podem conceder aos subscritores acesso aos dados de visualização sem lhes dar acesso aos dados de origem subjacentes.

    • O plano de consulta revela a consulta de visualização partilhada e a consulta de rotina, incluindo IDs de projetos e outros conjuntos de dados envolvidos em visualizações autorizadas. Nunca inclua nada que considere sensível, como chaves de encriptação, na vista partilhada ou na consulta de rotina.

    • Os conjuntos de dados partilhados são indexados no Data Catalog (descontinuado) e no Dataplex Universal Catalog. As atualizações num conjunto de dados partilhado, como a adição de tabelas ou vistas, são disponibilizadas aos subscritores sem atrasos. No entanto, em determinados cenários, por exemplo, quando existem mais de cem subscritores ou tabelas num conjunto de dados partilhado, a indexação das atualizações nestes serviços pode demorar até 18 horas. Devido ao atraso na indexação, os subscritores não podem pesquisar estes recursos atualizados na consola imediatamente. Google Cloud

    • Os tópicos partilhados são indexados no catálogo de dados (descontinuado) e no catálogo universal do Dataplex, mas não pode filtrar especificamente pelo respetivo tipo de recurso.

    • Se tiver configurado políticas de segurança ao nível da linha ou de ocultação de dados nas tabelas indicadas, os subscritores têm de ser clientes do Enterprise ou Enterprise Plus para executar a tarefa de consulta no conjunto de dados associado. Para ver informações sobre as edições, consulte o artigo Introdução às edições do BigQuery.

  • Se for subscritor, aplicam-se as seguintes limitações de interoperabilidade do BigQuery:

    • As vistas materializadas que fazem referência a tabelas no conjunto de dados associado não são suportadas.

    • A criação de capturas de ecrã de tabelas de conjuntos de dados associados não é suportada.

    • As consultas com conjuntos de dados associados e declarações JOIN com mais de 1 TB (armazenamento físico) podem falhar. Pode contactar o apoio técnico para resolver este problema.

    • Não pode usar qualificadores de região com visualizações de propriedades INFORMATION_SCHEMA para ver metadados do seu conjunto de dados associado.

    • Quando consulta rotinas num conjunto de dados associado, só pode consultar funções definidas pelo utilizador (FDUs SQL e JavaScript) e tipos de rotinas de funções de tabela. A consulta de um tipo de rotina não suportado resulta na mensagem de erro: Querying routine type type is not yet supported on linked dataset dataset.

  • Aplicam-se as seguintes limitações às fichas de várias regiões:

    • As fichas de várias regiões só são suportadas para conjuntos de dados partilhados e réplicas de conjuntos de dados associados. As fichas para várias regiões não são suportadas para tópicos e subscrições Pub/Sub partilhados.
    • As fichas para várias regiões não são suportadas em salas limpas de dados.
    • As fichas de várias regiões não são suportadas nas regiões do BigQuery Omni.
  • As seguintes limitações aplicam-se às métricas de utilização:

    • Não pode aceder às métricas de utilização de fichas que foram subscritas antes de 20 de julho de 2023.

    • As métricas de utilização da tabela externa para os campos num_rows_processed e total_bytes_processed podem conter dados incorretos.

    • As métricas de utilização para o consumo só são suportadas para a utilização através de tarefas do BigQuery. O consumo através dos seguintes recursos não é suportado:

    • As métricas de utilização para visualizações só são preenchidas para consultas após 22 de abril de 2024.

    • As métricas de utilização não são capturadas para subscrições do Pub/Sub associadas no BigQuery (pode continuar a ver a utilização diretamente no Pub/Sub).

  • As seguintes limitações aplicam-se quando subscreve dados do Salesforce Data Cloud:

    • Os dados do Data Cloud são partilhados como vistas. Como subscritor, não pode aceder às tabelas subjacentes a que as vistas fazem referência.

Regiões suportadas

A partilha do BigQuery é suportada nas seguintes regiões e multirregiões.

Regiões

A tabela seguinte lista as regiões nas Américas onde a partilha está disponível.
Descrição da região Nome da região Detalhes
Columbus, Ohio us-east5
Dallas us-south1 ícone de folha Baixo CO2
Iowa us-central1 ícone de folha Baixo CO2
Las Vegas us-west4
Los Angeles us-west2
México northamerica-south1
Montréal northamerica-northeast1 ícone de folha Baixo CO2
Virgínia do Norte us-east4
Oklahoma us-central2
Oregon us-west1 ícone de folha Baixo CO2
Salt Lake City us-west3
São Paulo southamerica-east1 ícone de folha Baixo CO2
Santiago southamerica-west1
Carolina do Sul us-east1
Toronto northamerica-northeast2
A tabela seguinte apresenta as regiões na Ásia-Pacífico onde a partilha está disponível.
Descrição da região Nome da região Detalhes
Deli asia-south2
Hong Kong asia-east2
Jacarta asia-southeast2
Melbourne australia-southeast2
Mumbai asia-south1
Osaca asia-northeast2
Seul asia-northeast3
Singapura asia-southeast1
Sydney australia-southeast1
Taiwan asia-east1
Tóquio asia-northeast1
A tabela seguinte lista as regiões na Europa onde a partilha está disponível.
Descrição da região Nome da região Detalhes
Bélgica europe-west1 ícone de folha Baixo CO2
Berlim europe-west10
Finlândia europe-north1 ícone de folha Baixo CO2
Frankfurt europe-west3
Londres europe-west2 ícone de folha Baixo CO2
Madrid europe-southwest1 ícone de folha Baixo CO2
Milão europe-west8
Países Baixos europe-west4 ícone de folha Baixo CO2
Paris europe-west9 ícone de folha Baixo CO2
Turim europe-west12
Varsóvia europe-central2
Zurique europe-west6 ícone de folha Baixo CO2
A tabela seguinte indica as regiões do Médio Oriente onde a partilha está disponível.
Descrição da região Nome da região Detalhes
Damã me-central2
Doha me-central1
Telavive me-west1
A tabela seguinte apresenta as regiões em África onde a partilha está disponível.
Descrição da região Nome da região Detalhes
Joanesburgo africa-south1

Várias regiões

A tabela seguinte apresenta as várias regiões onde a partilha está disponível.
Descrição de várias regiões Nome da multirregião
Centros de dados nos Estados-Membros da União Europeia1 EU
Centros de dados nos Estados Unidos US

1 Os dados localizados na multirregião EU não são armazenados nos centros de dados europe-west2 (Londres) nem europe-west6 (Zurique).

Regiões omni

A tabela seguinte indica onde a partilha omnicanal está disponível.
Descrição da região omnicanal Nome da região omnicanal
AWS
AWS – Leste dos EUA (Virgínia do Norte) aws-us-east-1
AWS – Oeste dos EUA (Oregon) aws-us-west-2
AWS - Ásia-Pacífico (Seul) aws-ap-northeast-2
AWS – Ásia-Pacífico (Sydney) aws-ap-southeast-2
AWS - Europe (Ireland) aws-eu-west-1
AWS – Europa (Frankfurt) aws-eu-central-1
Azure
Azure – Leste dos EUA 2 azure-eastus2

Exemplo de utilização

Esta secção mostra um exemplo de como pode usar a partilha no BigQuery.

Suponhamos que é um retalhista e que a sua organização tem dados de previsão da procura em tempo real num Google Cloud projeto denominadoForecasting. Quer partilhar estes dados de previsão da procura com centenas de fornecedores no seu sistema de cadeia de fornecimento. Veja como pode partilhar os seus dados com fornecedores através da partilha do BigQuery:

Administradores

Enquanto proprietário do projeto de previsão, tem de ativar primeiro a API e, em seguida, atribuir a função de administrador do Analytics Hub a um utilizador que administre a troca de dados no projeto. Os utilizadores com a função de administrador do Analytics Hub são denominados administradores.

Este administrador pode realizar as seguintes tarefas:

  • Criar, atualizar, eliminar e partilhar a troca de dados no projeto de previsão da sua organização.

  • Faça a gestão de outros administradores com a função de administrador do Analytics Hub.

  • Faça a gestão dos publicadores concedendo a função de publicador do Analytics Hub aos funcionários da sua organização. Se quiser que alguns funcionários só possam atualizar, eliminar e partilhar fichas, mas não criá-las, pode atribuir-lhes a função de administrador de fichas do Analytics Hub.

  • Faça a gestão dos subscritores atribuindo a função de subscritor do Analytics Hub a um grupo Google composto por todos os fornecedores. Se quiser que alguns fornecedores tenham apenas acesso de visualização às bolsas de troca e às fichas disponíveis, pode conceder-lhes a função de leitor do Analytics Hub. Estes fornecedores não podem subscrever fichas.

Para mais informações, consulte o artigo Faça a gestão das trocas de dados.

Publicadores

Os publicadores criam as seguintes fichas para os respetivos conjuntos de dados no projeto Previsão ou num projeto diferente:

  • Ficha A: conjunto de dados de previsão da procura 1
  • Ficha B: conjunto de dados de previsão da procura 2
  • Ficha C: conjunto de dados de previsão da procura 3

Enquanto fornecedor de dados, pode monitorizar as métricas de utilização do seu conjunto de dados partilhado. As métricas de utilização incluem os seguintes detalhes:

  • Tarefas executadas no seu conjunto de dados partilhado.
  • Os detalhes de consumo do seu conjunto de dados partilhado pelos projetos e pela organização dos subscritores.
  • O número de linhas e bytes processados pela tarefa.

Para mais informações, consulte o artigo Faça a gestão das fichas.

Subscritores

Os subscritores podem procurar fichas às quais têm acesso em trocas de dados. Também podem subscrever estas fichas e adicionar estes conjuntos de dados aos respetivos projetos criando um conjunto de dados associado. Os fornecedores podem, em seguida, executar consultas nestes conjuntos de dados associados e obter resultados em tempo real.

Para mais informações, consulte o artigo Veja e subscreva fichas.

Preços

Não existem custos adicionais para gerir as trocas de dados ou as fichas.

Para conjuntos de dados do BigQuery, os publicadores pagam pelo armazenamento de dados, enquanto os subscritores pagam pelas consultas executadas em relação aos dados partilhados com base em modelos de preços a pedido ou baseados na capacidade. Para informações sobre os preços, consulte os preços do BigQuery.

No Pub/Sub, os publicadores de tópicos são cobrados pelo número total de bytes escritos (débito de publicação) no tópico partilhado e na saída de rede (se aplicável). Os subscritores são cobrados pelo número total de bytes lidos (débito de subscrição) da subscrição associada e da saída de rede (se aplicável). Consulte os preços do Pub/Sub para ver detalhes adicionais.

Quotas

Para informações sobre as quotas de partilha do BigQuery, consulte o artigo Quotas e limites.

Conformidade

A partilha, como parte do BigQuery, está em conformidade com os seguintes programas de conformidade:

VPC Service Controls

Pode definir as regras de entrada e saída necessárias para permitir que os publicadores e os subscritores acedam aos dados de projetos que têm perímetros do VPC Service Controls. Para mais informações, consulte o artigo Partilhar regras do VPC Service Controls.

O que se segue?