Este documento fornece uma vista geral dos pipelines de conetividade geridos que pode usar para importar metadados de origens de terceiros para o Dataplex Universal Catalog.
A conetividade gerida permite-lhe importar metadados para o Dataplex Universal Catalog em grande escala. Um pipeline de conetividade gerido extrai metadados das suas origens de dados e, em seguida, importa os metadados para o catálogo universal do Dataplex. Se necessário, o pipeline também cria grupos de entradas do Dataplex Universal Catalog no seuGoogle Cloud projeto. Pode orquestrar os fluxos de trabalho e agendar as tarefas de importação com base nos seus requisitos.
Cria os seus próprios conetores personalizados para extrair metadados de origens de terceiros. Por exemplo, pode criar um conetor para extrair metadados de origens como MySQL, SQL Server, Oracle, Snowflake, Databricks e outras. Para ver os passos de criação de um conector personalizado de exemplo, consulte o artigo Desenvolva um conector personalizado para a importação de metadados. Também pode usar os conetores personalizados contribuídos pela comunidade que estão disponíveis para várias origens de terceiros.
Para ver os passos para executar um pipeline de conetividade gerido, consulte o artigo Importe metadados de uma origem personalizada através dos fluxos de trabalho.
Como funciona a conetividade gerida
O diagrama seguinte mostra um pipeline de conetividade gerido.
A um nível elevado, veja como funciona a conetividade gerida:
Cria um conetor para a sua origem de dados.
O conector tem de ser uma imagem do Artifact Registry que possa ser executada no Serverless para Apache Spark.
Executa o pipeline de conetividade gerida nos fluxos de trabalho, uma plataforma de orquestração.
O pipeline de conetividade gerido faz o seguinte:
- Cria um grupo de entradas de destino com base na sua configuração, se o grupo de entradas ainda não existir.
- Executa o conetor. O conetor extrai os metadados da sua origem de dados e gera um ficheiro de importação de metadados que pode ser importado para o Dataplex Universal Catalog.
- Monitoriza o progresso da extração de metadados.
- Executa uma tarefa de importação de metadados para importar os metadados para o catálogo universal do Dataplex.
- Monitoriza o progresso da tarefa de importação de metadados.
O pipeline de conetividade gerido usa o Google Cloud Serverless para Apache Spark para executar o conetor e os métodos da API de importação de metadados do catálogo universal do Dataplex para executar a tarefa de importação de metadados.
Os metadados que importa consistem em entradas do Dataplex Universal Catalog e nos respetivos aspetos. Para mais informações sobre os metadados do Dataplex Universal Catalog, consulte o artigo Acerca da gestão de metadados no Dataplex Universal Catalog.
Conetores personalizados contribuídos pela comunidade
Para importar metadados de origens externas, pode usar conetores personalizados que são contribuídos pela comunidade. Consulte o ficheiro README de cada conetor para ver instruções de configuração e mais informações sobre o conetor.
Origem de dados | Repositório |
---|---|
MySQL | mysql-connector |
Oracle | oracle-connector |
PostgreSQL | postgresql-connector |
Floco de neve | snowflake-connector |
SQL Server | sql-server-connector |
O que se segue?
- Importe metadados de uma origem personalizada através dos Workflows
- Desenvolva um conector personalizado para a importação de metadados
- Importe metadados através de um pipeline personalizado