Introdução à partilha do BigQuery
A partilha do BigQuery (anteriormente Analytics Hub) é uma plataforma de troca de dados que lhe permite partilhar dados e estatísticas em grande escala entre limites organizacionais com uma estrutura de segurança e privacidade robusta. A partilha permite-lhe descobrir e aceder a uma biblioteca de dados organizada por vários fornecedores de dados. Esta biblioteca de dados também inclui conjuntos de dados fornecidos pela Google.
Por exemplo, pode usar a partilha para aumentar as suas iniciativas de estatísticas e ML com conjuntos de dados de terceiros e da Google.
As funções da gestão de identidade e de acesso (IAM) do Analytics Hub permitem-lhe realizar as seguintes tarefas de partilha:
Como publicador do Analytics Hub, pode partilhar dados com a sua rede de parceiros ou na sua própria organização em tempo real. As fichas permitem-lhe partilhar dados sem replicar os dados partilhados e podem ser rentabilizadas no Google Cloud Marketplace ou através dos seus próprios canais. Pode criar um catálogo de origens de dados prontas para análise com autorizações detalhadas que lhe permitem fornecer dados aos públicos-alvo certos. Também pode gerir subscrições e ver as métricas de utilização das suas fichas.
Como subscritor do Analytics Hub, pode descobrir os dados que procura, combinar dados partilhados com os seus dados existentes e usar as funcionalidades incorporadas do BigQuery. Quando subscreve uma ficha, é criado um conjunto de dados associado ou uma subscrição do Pub/Sub associada no seu projeto. Pode gerir as suas subscrições através do recurso Subscription, que armazena informações relevantes sobre o subscritor e representa a ligação entre a editora e o subscritor.
Enquanto visualizador do Analytics Hub, pode procurar os recursos partilhados aos quais tem acesso na partilha do BigQuery e fazer um pedido ao publicador para aceder aos dados partilhados. Pode descobrir fichas comerciais integradas no Cloud Marketplace na partilha do BigQuery e no Cloud Marketplace.
Enquanto administrador do Analytics Hub, pode criar trocas de dados que permitem a partilha de dados e, em seguida, conceder autorizações aos publicadores e subscritores de dados para acederem a estas trocas de dados.
Para mais informações, consulte o artigo Configure funções do Analytics Hub.
Arquitetura
A partilha baseia-se num modelo de publicação e subscrição de Google Cloud recursos de dados, o que permite a partilha sem cópia no local. A partilha suporta os seguintes Google Cloud recursos:
- Conjuntos de dados do BigQuery
- Tópicos do Pub/Sub
Fluxo de trabalho do publicador
O diagrama seguinte descreve como um publicador partilha recursos:
As secções seguintes descrevem as funcionalidades neste fluxo de trabalho.
Recursos partilhados
Os recursos partilhados são a unidade de partilha de um publicador na partilha do BigQuery.
Conjuntos de dados partilhados
Um conjunto de dados partilhado é um conjunto de dados do BigQuery que é a unidade de partilha de dados na partilha do BigQuery. A separação do processamento e do armazenamento na arquitetura do BigQuery permite que os publicadores de dados partilhem conjuntos de dados com quantos subscritores quiserem, sem terem de fazer várias cópias dos dados. Enquanto publicador, cria ou usa um conjunto de dados do BigQuery existente no seu projeto com os seguintes objetos suportados que quer enviar para os seus subscritores:
- Vistas autorizadas
- Conjuntos de dados autorizados
- Modelos do BigQuery ML
- Tabelas externas
- Vistas materializadas
-
Nem todas as rotinas são suportadas em conjuntos de dados partilhados. Para mais informações, consulte a secção Limitações.
Os conjuntos de dados partilhados suportam a segurança ao nível da coluna e a segurança ao nível da linha.
Tenha em atenção as seguintes limitações relativamente aos VPC Service Controls e à partilha:
Não é recomendado que os publicadores publiquem dados partilhados em projetos dentro dos perímetros dos VPC Service Controls. Se os conjuntos de dados partilhados num projeto estiverem dentro de perímetros do VPC Service Controls, são necessárias regras de entrada e saída adequadas para o projeto de troca (anúncios alojados) e todos os projetos do subscritor subscreverem com êxito os anúncios do publicador.
Não é recomendável que os administradores da troca coloquem o respetivo projeto de troca num perímetro dos VPC Service Controls, uma vez que pode interromper os fluxos de trabalho de publicação, o que requer regras de entrada e saída para o projeto do publicador e todos os projetos dos subscritores para subscreverem com êxito as respetivas fichas.
Tópicos partilhados
Um tópico partilhado é um tópico do Pub/Sub que é a unidade de partilha de dados de streaming no BigQuery. Enquanto publicador, cria ou usa um tópico Pub/Sub existente no seu projeto e distribui-o pelos seus subscritores.
Intercâmbios de dados
Uma troca de dados é um contentor que permite a partilha de dados autónoma. Contém fichas que fazem referência a recursos partilhados. Os publicadores e os administradores podem conceder acesso aos subscritores ao nível da bolsa de câmbio e da ficha. Este método ajuda a evitar a concessão explícita de acesso aos recursos partilhados subjacentes. Um subscritor pode procurar trocas de dados, descobrir dados aos quais pode aceder e subscrever recursos partilhados. Quando cria uma troca de dados, pode atribuir-lhe um email de contacto principal. O email do contacto principal oferece aos utilizadores uma forma de contactar o proprietário de uma troca de dados com perguntas ou dúvidas sobre a troca de dados. Uma troca de dados pode ser dos seguintes tipos:
- Troca de dados privados. Por predefinição, uma troca de dados é privada e apenas os utilizadores ou os grupos que têm acesso a essa troca podem ver ou subscrever as respetivas fichas.
- Troca de dados públicos. Por predefinição, uma troca de dados é privada e apenas os utilizadores ou os grupos que têm acesso a essa troca podem ver ou subscrever as respetivas fichas. No entanto, pode optar por tornar uma troca de dados pública. As fichas nas
trocas de dados públicas podem ser
descobertas
e
subscritas
por
Google Cloud utilizadores (
allAuthenticatedUsers
). Para mais informações sobre as trocas de dados públicas, consulte Torne uma troca de dados pública.
A função de administrador do Analytics Hub permite-lhe criar várias trocas de dados e gerir outros utilizadores que realizam tarefas de partilha.
Fichas
Uma ficha é uma referência a um recurso partilhado que um publicador lista numa troca de dados. Como publicador, pode criar uma ficha e especificar a descrição do recurso, consultas de exemplo a executar ou dados de mensagens de exemplo, links para qualquer documentação relevante e quaisquer informações adicionais que possam ajudar os subscritores a usar o seu recurso partilhado. Quando cria uma ficha, pode atribuir um email de contacto principal, um nome e um contacto do fornecedor, bem como um nome e um contacto do publicador. O email de contacto principal permite aos utilizadores contactar o proprietário de uma ficha com perguntas ou preocupações acerca da troca de dados. O nome e o contacto do fornecedor são as informações da agência que forneceu originalmente os dados para a ficha. Estas informações são opcionais. O nome e o contacto do publicador são a agência que publicou os dados para utilização na partilha do BigQuery. Estas informações são opcionais. Para mais informações, consulte o artigo Faça a gestão das fichas.
Uma ficha pode ser de um dos dois tipos seguintes com base na política de gestão de identidades e acessos (IAM) definida para a ficha e no tipo de troca de dados que contém a ficha:
- Anúncio público. É partilhada com todos os
Google Cloud utilizadores (
allAuthenticatedUsers
). As fichas numa troca de dados pública são fichas públicas. Estas fichas podem ser referências de um recurso público gratuito ou de um recurso comercial. Se a ficha for de um recurso comercial, os subscritores podem pedir acesso à ficha diretamente ao fornecedor de dados ou podem procurar e comprar fichas comerciais integradas no Google Cloud Marketplace. - Anúncio privado. É partilhado diretamente com indivíduos ou grupos. Por exemplo, uma ficha privada pode fazer referência a um conjunto de dados de métricas de marketing que partilha com outras equipas internas na sua organização.
Fluxo de trabalho de subscritores
O diagrama seguinte descreve como os subscritores do Analytics Hub interagem com os recursos partilhados:
As secções seguintes descrevem as funcionalidades no fluxo de trabalho do subscritor.
Recursos associados
Os recursos associados são criados quando subscreve uma ficha de partilha do BigQuery, o que associa um subscritor ao recurso partilhado subjacente.
Conjuntos de dados associados
Um conjunto de dados associado é um conjunto de dados do BigQuery só de leitura que funciona como um ponteiro ou uma referência a um conjunto de dados partilhado. A subscrição de uma ficha cria um conjunto de dados associado no seu projeto e não uma cópia do conjunto de dados, pelo que os subscritores podem ler os dados, mas não podem adicionar nem atualizar objetos no mesmo. Quando consulta objetos, como tabelas e vistas, através de um conjunto de dados associado, são devolvidos os dados do conjunto de dados partilhado. Para mais informações sobre conjuntos de dados associados, consulte o artigo Veja e subscreva fichas.
Os conjuntos de dados associados estão autorizados a aceder a tabelas e vistas de um conjunto de dados partilhado. Os subscritores com conjuntos de dados associados acedem a tabelas e vistas de um conjunto de dados partilhado sem autorização adicional de gestão de identidade e acesso.
Os conjuntos de dados associados suportam os seguintes objetos:
Subscrições do Pub/Sub associadas
A subscrição de uma ficha com um tópico partilhado cria uma subscrição do Pub/Sub associada no projeto do subscritor. Não são criadas cópias dos dados do tópico ou da mensagem partilhados. Os subscritores da subscrição Pub/Sub associada podem aceder às mensagens publicadas no tópico partilhado. Os subscritores acedem aos dados das mensagens de um tópico partilhado sem autorização adicional do Identity and Access Management. Os publicadores podem gerir as subscrições diretamente no Pub/Sub ou através da gestão de subscrições de partilha do BigQuery. Para mais informações sobre as subscrições do Pub/Sub associadas, consulte o artigo Partilha de streams com o Pub/Sub.
Opções de saída de dados (apenas conjuntos de dados partilhados do BigQuery)
As opções de saída de dados permitem que os publicadores restrinjam a exportação de dados dos conjuntos de dados associados do BigQuery por parte dos subscritores.
Os publicadores podem ativar a restrição de saída de dados numa ficha, nos resultados de uma consulta ou em ambos. Quando a saída de dados está restrita, aplicam-se as seguintes restrições:
As APIs de cópia, clonagem, exportação e instantâneo estão desativadas.
As opções de copiar, clonar, exportar e criar instantâneos na consola Google Cloud estão desativadas.
A associação do conjunto de dados restrito ao explorador de tabelas está desativada.
O Serviço de transferência de dados do BigQuery está desativado no conjunto de dados restrito.
As declarações
CREATE TABLE AS SELECT
e a escrita numa tabela de destino estão desativadas.As declarações
CREATE VIEW AS SELECT
e a gravação numa vista de destino estão desativadas.
Quando cria uma ficha, pode definir as opções de saída de dados adequadas.
Limitações
A partilha tem as seguintes limitações:
Um conjunto de dados partilhado pode ter um máximo de 1000 conjuntos de dados associados.
Um tópico partilhado pode ter um máximo de 10 000 subscrições do Pub/Sub. Este limite inclui subscrições do Pub/Sub associadas e subscrições do Pub/Sub criadas fora da partilha do BigQuery (por exemplo, diretamente a partir do Pub/Sub).
Não é possível selecionar um conjunto de dados com recursos não suportados como um conjunto de dados partilhado quando cria uma ficha. Para mais informações sobre os objetos do BigQuery que a partilha do BigQuery suporta, consulte a secção Conjuntos de dados partilhados neste documento.
Não pode definir funções da IAM nem políticas da IAM em tabelas individuais num conjunto de dados associado. Em alternativa, aplique-os ao nível do conjunto de dados associado.
Não é possível anexar etiquetas IAM em tabelas num conjunto de dados associado. Em alternativa, aplique-as ao nível do conjunto de dados associado.
Os conjuntos de dados associados criados antes de 25 de julho de 2023 não são preenchidos novamente pelo recurso de subscrição. Apenas as subscrições criadas após 25 de julho de 2023 funcionam com os métodos da API.
Se for um publicador, aplicam-se as seguintes limitações de interoperabilidade do BigQuery:
Os subscritores têm de receber autorizações explícitas para ler o conjunto de dados de origem para poderem consultar vistas em conjuntos de dados associados. Para conceder acesso às visualizações, como prática recomendada, os publicadores devem criar visualizações autorizadas. As visualizações autorizadas podem conceder aos subscritores acesso aos dados de visualização sem lhes dar acesso aos dados de origem subjacentes.
O plano de consulta revela a consulta de visualização partilhada e a consulta de rotina, incluindo IDs de projetos e outros conjuntos de dados envolvidos em visualizações autorizadas. Nunca inclua nada que considere sensível, como chaves de encriptação, na vista partilhada ou na consulta de rotina.
Os conjuntos de dados partilhados são indexados no Data Catalog (descontinuado) e no Dataplex Universal Catalog. As atualizações num conjunto de dados partilhado, como a adição de tabelas ou vistas, são disponibilizadas aos subscritores sem atrasos. No entanto, em determinados cenários, por exemplo, quando existem mais de cem subscritores ou tabelas num conjunto de dados partilhado, a indexação das atualizações nestes serviços pode demorar até 18 horas. Devido ao atraso na indexação, os subscritores não podem pesquisar estes recursos atualizados na consola imediatamente. Google Cloud
Os tópicos partilhados são indexados no catálogo de dados (descontinuado) e no catálogo universal do Dataplex, mas não pode filtrar especificamente pelo respetivo tipo de recurso.
Se tiver configurado políticas de segurança ao nível da linha ou de ocultação de dados nas tabelas indicadas, os subscritores têm de ser clientes do Enterprise ou Enterprise Plus para executar a tarefa de consulta no conjunto de dados associado. Para ver informações sobre as edições, consulte o artigo Introdução às edições do BigQuery.
Se for subscritor, aplicam-se as seguintes limitações de interoperabilidade do BigQuery:
As vistas materializadas que fazem referência a tabelas no conjunto de dados associado não são suportadas.
A criação de capturas de ecrã de tabelas de conjuntos de dados associados não é suportada.
As consultas com conjuntos de dados associados e declarações
JOIN
com mais de 1 TB (armazenamento físico) podem falhar. Pode contactar o apoio técnico para resolver este problema.Não pode usar qualificadores de região com visualizações de propriedades
INFORMATION_SCHEMA
para ver metadados do seu conjunto de dados associado.Quando consulta rotinas num conjunto de dados associado, só pode consultar funções definidas pelo utilizador (FDUs SQL e JavaScript) e tipos de rotinas de funções de tabela. A consulta de um tipo de rotina não suportado resulta na mensagem de erro:
Querying routine type type is not yet supported on linked dataset dataset.
Aplicam-se as seguintes limitações às fichas de várias regiões:
- As fichas de várias regiões só são suportadas para conjuntos de dados partilhados e réplicas de conjuntos de dados associados. As fichas para várias regiões não são suportadas para tópicos e subscrições Pub/Sub partilhados.
- As fichas para várias regiões não são suportadas em salas limpas de dados.
- As fichas de várias regiões não são suportadas nas regiões do BigQuery Omni.
As seguintes limitações aplicam-se às métricas de utilização:
Não pode aceder às métricas de utilização de fichas que foram subscritas antes de 20 de julho de 2023.
As métricas de utilização da tabela externa para os campos
num_rows_processed
etotal_bytes_processed
podem conter dados incorretos.As métricas de utilização para o consumo só são suportadas para a utilização através de tarefas do BigQuery. O consumo através dos seguintes recursos não é suportado:
As métricas de utilização para visualizações só são preenchidas para consultas após 22 de abril de 2024.
As métricas de utilização não são capturadas para subscrições do Pub/Sub associadas no BigQuery (pode continuar a ver a utilização diretamente no Pub/Sub).
As seguintes limitações aplicam-se quando subscreve dados do Salesforce Data Cloud:
- Os dados do Data Cloud são partilhados como vistas. Como subscritor, não pode aceder às tabelas subjacentes a que as vistas fazem referência.
Regiões suportadas
A partilha do BigQuery é suportada nas seguintes regiões e multirregiões.
Regiões
A tabela seguinte lista as regiões nas Américas onde a partilha está disponível.Descrição da região | Nome da região | Detalhes |
---|---|---|
Columbus, Ohio | us-east5 |
|
Dallas | us-south1 |
|
Iowa | us-central1 |
|
Las Vegas | us-west4 |
|
Los Angeles | us-west2 |
|
México | northamerica-south1 |
|
Montréal | northamerica-northeast1 |
|
Virgínia do Norte | us-east4 |
|
Oklahoma | us-central2 |
|
Oregon | us-west1 |
|
Salt Lake City | us-west3 |
|
São Paulo | southamerica-east1 |
|
Santiago | southamerica-west1 |
|
Carolina do Sul | us-east1 |
|
Toronto | northamerica-northeast2 |
|
Descrição da região | Nome da região | Detalhes |
---|---|---|
Deli | asia-south2 |
|
Hong Kong | asia-east2 |
|
Jacarta | asia-southeast2 |
|
Melbourne | australia-southeast2 |
|
Mumbai | asia-south1 |
|
Osaca | asia-northeast2 |
|
Seul | asia-northeast3 |
|
Singapura | asia-southeast1 |
|
Sydney | australia-southeast1 |
|
Taiwan | asia-east1 |
|
Tóquio | asia-northeast1 |
Descrição da região | Nome da região | Detalhes |
---|---|---|
Bélgica | europe-west1 |
|
Berlim | europe-west10 |
|
Finlândia | europe-north1 |
|
Frankfurt | europe-west3 |
|
Londres | europe-west2 |
|
Madrid | europe-southwest1 |
|
Milão | europe-west8 |
|
Países Baixos | europe-west4 |
|
Paris | europe-west9 |
|
Turim | europe-west12 |
|
Varsóvia | europe-central2 |
|
Zurique | europe-west6 |
|
Descrição da região | Nome da região | Detalhes |
---|---|---|
Damã | me-central2 |
|
Doha | me-central1 |
|
Telavive | me-west1 |
Descrição da região | Nome da região | Detalhes |
---|---|---|
Joanesburgo | africa-south1 |
Várias regiões
A tabela seguinte apresenta as várias regiões onde a partilha está disponível.Descrição de várias regiões | Nome da multirregião |
---|---|
Centros de dados nos Estados-Membros da União Europeia1 | EU |
Centros de dados nos Estados Unidos | US |
1 Os dados localizados na multirregião EU
não são armazenados nos centros de dados europe-west2
(Londres) nem europe-west6
(Zurique).
Regiões omni
A tabela seguinte indica onde a partilha omnicanal está disponível.Descrição da região omnicanal | Nome da região omnicanal | |
---|---|---|
AWS | ||
AWS – Leste dos EUA (Virgínia do Norte) | aws-us-east-1 |
|
AWS – Oeste dos EUA (Oregon) | aws-us-west-2 |
|
AWS - Ásia-Pacífico (Seul) | aws-ap-northeast-2 |
|
AWS – Ásia-Pacífico (Sydney) | aws-ap-southeast-2 |
|
AWS - Europe (Ireland) | aws-eu-west-1 |
|
AWS – Europa (Frankfurt) | aws-eu-central-1 |
|
Azure | ||
Azure – Leste dos EUA 2 | azure-eastus2 |
Exemplo de utilização
Esta secção mostra um exemplo de como pode usar a partilha no BigQuery.
Suponhamos que é um retalhista e que a sua organização tem dados de previsão da procura em tempo real num Google Cloud projeto denominadoForecasting. Quer partilhar estes dados de previsão da procura com centenas de fornecedores no seu sistema de cadeia de fornecimento. Veja como pode partilhar os seus dados com fornecedores através da partilha do BigQuery:
Administradores
Enquanto proprietário do projeto de previsão, tem de ativar primeiro a API e, em seguida, atribuir a função de administrador do Analytics Hub a um utilizador que administre a troca de dados no projeto. Os utilizadores com a função de administrador do Analytics Hub são denominados administradores.
Este administrador pode realizar as seguintes tarefas:
Criar, atualizar, eliminar e partilhar a troca de dados no projeto de previsão da sua organização.
Faça a gestão de outros administradores com a função de administrador do Analytics Hub.
Faça a gestão dos publicadores concedendo a função de publicador do Analytics Hub aos funcionários da sua organização. Se quiser que alguns funcionários só possam atualizar, eliminar e partilhar fichas, mas não criá-las, pode atribuir-lhes a função de administrador de fichas do Analytics Hub.
Faça a gestão dos subscritores atribuindo a função de subscritor do Analytics Hub a um grupo Google composto por todos os fornecedores. Se quiser que alguns fornecedores tenham apenas acesso de visualização às bolsas de troca e às fichas disponíveis, pode conceder-lhes a função de leitor do Analytics Hub. Estes fornecedores não podem subscrever fichas.
Para mais informações, consulte o artigo Faça a gestão das trocas de dados.
Publicadores
Os publicadores criam as seguintes fichas para os respetivos conjuntos de dados no projeto Previsão ou num projeto diferente:
- Ficha A: conjunto de dados de previsão da procura 1
- Ficha B: conjunto de dados de previsão da procura 2
- Ficha C: conjunto de dados de previsão da procura 3
Enquanto fornecedor de dados, pode monitorizar as métricas de utilização do seu conjunto de dados partilhado. As métricas de utilização incluem os seguintes detalhes:
- Tarefas executadas no seu conjunto de dados partilhado.
- Os detalhes de consumo do seu conjunto de dados partilhado pelos projetos e pela organização dos subscritores.
- O número de linhas e bytes processados pela tarefa.
Para mais informações, consulte o artigo Faça a gestão das fichas.
Subscritores
Os subscritores podem procurar fichas às quais têm acesso em trocas de dados. Também podem subscrever estas fichas e adicionar estes conjuntos de dados aos respetivos projetos criando um conjunto de dados associado. Os fornecedores podem, em seguida, executar consultas nestes conjuntos de dados associados e obter resultados em tempo real.
Para mais informações, consulte o artigo Veja e subscreva fichas.
Preços
Não existem custos adicionais para gerir as trocas de dados ou as fichas.
Para conjuntos de dados do BigQuery, os publicadores pagam pelo armazenamento de dados, enquanto os subscritores pagam pelas consultas executadas em relação aos dados partilhados com base em modelos de preços a pedido ou baseados na capacidade. Para informações sobre os preços, consulte os preços do BigQuery.
No Pub/Sub, os publicadores de tópicos são cobrados pelo número total de bytes escritos (débito de publicação) no tópico partilhado e na saída de rede (se aplicável). Os subscritores são cobrados pelo número total de bytes lidos (débito de subscrição) da subscrição associada e da saída de rede (se aplicável). Consulte os preços do Pub/Sub para ver detalhes adicionais.
Quotas
Para informações sobre as quotas de partilha do BigQuery, consulte o artigo Quotas e limites.
Conformidade
A partilha, como parte do BigQuery, está em conformidade com os seguintes programas de conformidade:
VPC Service Controls
Pode definir as regras de entrada e saída necessárias para permitir que os publicadores e os subscritores acedam aos dados de projetos que têm perímetros do VPC Service Controls. Para mais informações, consulte o artigo Partilhar regras do VPC Service Controls.
O que se segue?
- Saiba como ver e subscrever fichas.
- Saiba como conceder funções do Analytics Hub.