Il est difficile de documenter les entrées de données à grande échelle, en particulier lorsqu'elles sont utilisées par différents groupes au sein d'une organisation ayant divers besoins. Souvent, chaque groupe crée son propre ensemble de documentation et de métadonnées pour décrire les mêmes données, ce qui entraîne des doublons et des informations incomplètes. Data Catalog résout ce problème à l'aide de tags qui permettent aux organisations de créer, rechercher et gérer des métadonnées pour toutes leurs entrées de données dans un service unifié.
Ce document explique deux concepts clés de Data Catalog:
Tags: champs de métadonnées personnalisés que vous pouvez associer à une entrée de données pour fournir du contexte
Modèles de tags: structures réutilisables qui vous permettent de créer rapidement des tags
Tags
Les tags sont un type de métadonnées commerciales. L'ajout de tags à une entrée de données permet de fournir un contexte pertinent à toute personne ayant besoin d'utiliser cet élément. Par exemple, un tag peut vous indiquer qui est responsable d'une entrée de données particulière, s'il contient ou non des informations permettant d'identifier personnellement l'utilisateur, les règles de conservation des données de cet actif et un niveau de qualité des données.
Les balises peuvent être publiques ou privées. Chaque type de balise présente des avantages uniques pour répondre aux exigences de votre entreprise.
Tags privés
Les tags privés offrent un contrôle strict des accès. Vous ne pouvez rechercher ou afficher les tags et les entrées de données associés que si vous disposez des autorisations d'affichage requises pour le modèle de tag privé et les entrées de données.
Pour rechercher des balises privées sur la page Data Catalog, vous devez utiliser la syntaxe de recherche tag:
ou les filtres de recherche.
Les tags privés sont adaptés aux scénarios dans lesquels vous devez stocker des informations sensibles dans le tag et vous souhaitez appliquer des restrictions d'accès supplémentaires en plus de vérifier que l'utilisateur est autorisé à afficher l'entrée taguée.
Tags publics
Les tags publics offrent un contrôle des accès moins strict pour la recherche et l'affichage des tags par rapport aux tags privés. Les utilisateurs disposant des autorisations requises pour consulter une entrée de données peuvent afficher tous les tags publics qui lui sont associés. Les autorisations d'affichage pour les balises publiques ne sont requises que lorsque vous effectuez une recherche dans Data Catalog à l'aide de la syntaxe tag:
ou lorsque vous affichez un modèle de balise non associé.
Les tags publics sont compatibles avec la recherche simple et la recherche avec des prédicats sur la page de recherche de Data Catalog. Lorsque vous créez un modèle de balise, l'option permettant de créer un modèle de balise public est l'option par défaut et recommandée dans la console Google Cloud.
Prenons l'exemple d'un modèle de balise publique appelé employee data
, que vous avez utilisé pour créer des balises pour trois entrées de données appelées Name
, Location
et Salary
. Parmi les trois entrées de données, seuls les membres d'un groupe spécifique appelé HR
peuvent afficher l'entrée de données Salary
. Les deux autres entrées de données disposent d'autorisations de consultation pour tous les employés de l'entreprise.
Si un employé qui n'est pas membre du groupe HR
utilise la page de recherche Data Catalog et effectue une recherche à l'aide du mot employee
, le résultat de la recherche affiche uniquement les entrées de données Name
et Location
avec les tags publics associés.
Les tags publics sont utiles pour un large éventail de scénarios et sont intuitifs à utiliser. Les tags publics sont compatibles avec la recherche simple et la recherche avec des prédicats, tandis que les tags privés ne sont compatibles qu'avec la recherche avec des prédicats.
Exemples de tags associés à une entrée de données
Le schéma suivant présente un exemple de table client (cust_tbl
), avec plusieurs tags de métadonnées commerciales associés à la table et à ses colonnes.
Modèles de tag
Pour commencer à ajouter des tags, vous devez créer un ou plusieurs modèles de tags, Un modèle de balise peut être public ou privé. Lorsque vous créez un modèle de tag, l'option permettant de créer un modèle de tag public est l'option par défaut et recommandée dans la console Google Cloud. Un modèle de balise est un groupe de paires de métadonnées clé/valeur, appelé champs. Disposer d'un ensemble de modèles s'apparente à disposer d'un schéma de base de données pour vos métadonnées.
Vous pouvez structurer vos tags par thème. Exemple :
- Un tag de gouvernance des données comprenant des champs pour : gouverneur de données, date de conservation, date de suppression, informations personnelles (oui ou non), et classification des données (publiques, confidentielles, sensibles, réglementaires)
- Un tag de qualité des données comportant des champs pour les problèmes de qualité, la fréquence de mise à jour et les informations de SLO
- Un tag de consommation des données contenant les champs suivants : utilisateurs les plus fréquents, requêtes les plus fréquentes et nombre d'utilisateurs quotidiens moyen
Vous pouvez alors combiner et associer des tags en n'utilisant que les tags pertinents pour chaque actif de données et pour vos besoins d'entreprise.
Champs d'une balise
Les tags contiennent un ou plusieurs champs dans lesquels les informations peuvent être stockées. Les champs d'un tag sont définis par un modèle de tag, et chaque champ peut être utilisé pour stocker une ou plusieurs valeurs. Chaque balise est une instance d'un modèle de balise qui peut être appliquée à une entrée de données complète, ou à des tables ou des colonnes particulières. Un tag sur une colonne peut vous indiquer, par exemple, si cette colonne contient des informations personnelles, si elle est obsolète ou quelle formule a été utilisée pour calculer une certaine valeur.
Chaque champ contient un ID, un nom à afficher et un type. Le type peut être string
, double
, boolean
, enum
(énumération) ou datetime
. Lorsque le type est enum
, le modèle stocke également les valeurs autorisées pour le champ.
Les champs sont stockés dans le modèle sous la forme d'un ensemble ordonné, dans lequel l'ordre représente l'importance relative d'un champ par rapport aux autres champs.
Les champs sont facultatifs, sauf s'ils sont marqués comme "obligatoires". Un champ obligatoire doit se voir attribuer une valeur lorsque le modèle est utilisé, tandis qu'un champ facultatif peut rester vide.
Vous ne pouvez pas remplacer un champ facultatif par un champ obligatoire après avoir créé votre modèle.
Exemples de champs dans une balise
Voici un exemple de modèle de balise du guide de démarrage rapide, qui contient plusieurs types de champs:
Voici un tag créé à partir du modèle, avec des valeurs fournies pour chaque champ:
Afficher la galerie de modèles de tags
Pour vous aider à démarrer, Data Catalog inclut une galerie de modèles de tags pour illustrer des cas d'utilisation courants d'ajout de tags. Utilisez ces exemples pour en savoir plus sur les avantages offerts par l'ajout de tags, pour obtenir des idées ou comme point de départ pour créer votre propre infrastructure d'ajout de tags.
Pour utiliser une galerie de modèles de tags, procédez comme suit :
Dans la console Google Cloud, accédez à la page Modèles de tags de Dataplex.
Cliquez sur Créer un modèle de tag.
La galerie de modèles s'affiche sur la page Créer un modèle.
Une fois que vous avez sélectionné un modèle dans la galerie, vous pouvez l'utiliser comme n'importe quel autre modèle de tag. Vous pouvez ajouter ou supprimer des attributs, et apporter des modifications au modèle selon les besoins de votre entreprise. Vous pouvez ensuite rechercher les champs et les valeurs du modèle à l'aide de Data Catalog.
Contrôle des accès aux tags
Les tags et leurs métadonnées peuvent contenir des informations sensibles, et les équipes de gouvernance des données peuvent souhaiter que certains tags ne soient visibles qu'à certains groupes d'utilisateurs. Data Catalog fournit un contrôle des accès sur les modèles de tags, et ces paramètres s'appliquent à tous les tags créés à l'aide de ce modèle.
Vous pouvez configurer des modèles de balises avec de nombreuses configurations de contrôle d'accès, par exemple:
- Modèle de tag que seul le créateur du modèle peut utiliser pour créer des tags
- Modèle de tag qui crée des tags visibles uniquement par un groupe d'utilisateurs sélectionné
- Modèle de tag utilisé par un ensemble d'utilisateurs sélectionné pour créer des tags visibles uniquement par un autre ensemble (éventuellement identique) d'utilisateurs
- Modèle de balise visible par tous les utilisateurs d'une organisation ou d'un projet (balise publique)
L'accès à un modèle de tag est accordé ou refusé à l'aide des rôles IAM. Ils fournissent des autorisations permettant de créer, modifier et utiliser le modèle de balise. Voici quelques rôles Data Catalog disponibles:
Pour autoriser un utilisateur à créer ou à mettre à jour un modèle de balise, vous devez lui accorder le rôle de créateur de modèles de balise.
Pour autoriser un utilisateur à appliquer des balises à une entrée de données, vous devez lui accorder le rôle Utilisateur du modèle de balise.
Pour en savoir plus, consultez la page Gestion de l'authentification et des accès (IAM) dans Data Catalog.
Ressources régionales
Chaque modèle de balise et balise est stocké dans une régionGoogle Cloud particulière. Vous pouvez utiliser un modèle de balise pour créer une balise dans n'importe quelle région. Vous n'avez donc pas besoin de créer des copies de votre modèle si vos entrées de données sont réparties dans plusieurs régions.
Étape suivante
Découvrez les rôles et les autorisations requis pour afficher et associer des balises publiques et privées. Consultez les sections Rôles permettant d'afficher les tags publics et privés et Rôles permettant d'associer des tags à des ressources Google Cloud .
Découvrez comment utiliser des balises publiques et privées pour rechercher des entrées de données. Consultez la section Syntaxe de recherche dans Data Catalog.
Créez un exemple de modèle de tag public et quelques tags. Pour en savoir plus, consultez Taguer une table BigQuery à l'aide de Data Catalog.