Das Dokumentieren von Dateneinträgen im großen Maßstab ist schwierig, insbesondere wenn sie von verschiedenen Gruppen in einer Organisation mit unterschiedlichen Anforderungen verwendet werden. Oft erstellt jede Gruppe eigene Dokumentationen und Metadaten, um dieselben Daten zu beschreiben. Das führt zu doppeltem Aufwand und unvollständigen Informationen. Data Catalog löst dieses Problem durch Tags, mit denen Organisationen Metadaten für alle ihre Dateneinträge in einem einheitlichen Dienst erstellen, suchen und verwalten können.
In diesem Dokument werden zwei wichtige Data Catalog-Konzepte erläutert:
Tags: Benutzerdefinierte Metadatenfelder, die Sie einem Dateneintrag hinzufügen können, um Kontext bereitzustellen
Tag-Vorlagen: wiederverwendbare Strukturen, mit denen Sie schnell neue Tags erstellen können
Tags
Tags sind eine Art von geschäftlichen Metadaten. Das Hinzufügen von Tags zu einem Dateneintrags trägt dazu bei, dass alle, die das Asset verwenden müssen, einen verständlichen Kontext erhalten. Ein Tag kann Ihnen beispielsweise mitteilen, wer für einen bestimmten Dateneintrag verantwortlich ist, ob er personenidentifizierbare Informationen (PII) enthält, die Aufbewahrungsrichtlinie für das Asset und einen Datenqualitätsfaktor.
Tags können öffentliche oder private Tags sein. Jeder Tagtyp hat einige einzigartige Vorteile, die Ihren Geschäftsanforderungen entsprechen.
Private Tags
Private Tags stellen strenge Zugriffskontrollen bereit. Sie können die Tags und die zugehörigen Dateneinträge nur suchen oder ansehen, wenn Ihnen die erforderlichen Leseberechtigungen sowohl für die private Tag-Vorlage als auch die Dateneinträge gewährt wurden.
Wenn Sie auf der Data Catalog-Seite nach privaten Tags suchen möchten, müssen Sie die tag:
-Suchsyntax oder die Suchfilter verwenden.
Private Tags sind für Szenarien geeignet, bei denen Sie vertrauliche Informationen im Tag speichern müssen und daher neben der Prüfung, ob Nutzer zum Ansehen eines getaggten Eintrags berechtigt sind, zusätzliche Zugriffsbeschränkungen nutzen möchten.
Öffentliche Tags
Bei öffentlichen Tags ist die Zugriffssteuerung für die Suche und das Ansehen des Tags weniger streng als bei privaten Tags. Jeder Nutzer, der über die erforderlichen Leseberechtigungen für einen Dateneintrag verfügt, kann alle zugehörigen öffentlichen Tags ansehen. Leseberechtigungen für öffentliche Tags sind nur erforderlich, wenn Sie eine Suche in Data Catalog mit der tag:
-Syntax ausführen oder wenn Sie eine nicht angehängte Tag-Vorlage anzeigen.
Öffentliche Tags unterstützen sowohl die einfache Suche als auch die Suche mit Prädikaten auf der Data Catalog-Suchseite. Wenn Sie eine Tag-Vorlage erstellen, ist die Option zum Erstellen einer öffentlichen Tag-Vorlage die Standard- und empfohlene Option in der Google Cloud Console.
Angenommen, Sie haben eine öffentliche Tag-Vorlage namens employee data
verwendet, um Tags für drei Dateneinträge namens Name
, Location
und Salary
zu erstellen. Von den drei Dateneinträgen können nur Mitglieder einer bestimmten Gruppe namens HR
den Dateneintrag Salary
aufrufen. Die anderen beiden Dateneinträge weisen Leseberechtigungen für alle Mitarbeiter des Unternehmens auf.
Wenn ein Mitarbeiter kein Mitglied der HR
-Gruppe ist, die Data Catalog-Suchseite verwendet und mit dem Wort employee
sucht, zeigt das Suchergebnis nur die Dateneinträge Name
und Location
mit den zugehörigen öffentlichen Tags an.
Öffentliche Tags sind für eine Vielzahl von Szenarien geeignet und ihre Verwendung ist intuitiv. Öffentliche Tags unterstützen die einfache Suche und die Suche mit Prädikaten, während private Tags nur die Suche mit Prädikaten unterstützen.
Beispiel-Tags, die an einen Datensatz angehängt sind
Das folgende Diagramm zeigt ein Beispiel für eine Kundentabelle cust_tbl
, in der mehrere geschäftliche Metadaten-Tags an die Tabelle und die zugehörigen Spalten angehängt sind.
Tag-Vorlagen
Um mit dem Tagging von Daten zu beginnen, müssen Sie zuerst mindestens eine Tag-Vorlage erstellen. Eine Tag-Vorlage kann eine öffentliche oder eine private Tag-Vorlage sein. Wenn Sie eine Tag-Vorlage erstellen, ist die Option zum Erstellen einer öffentlichen Tag-Vorlage in der Google Cloud Console die Standard- und empfohlene Option. Eine Tag-Vorlage ist eine Gruppe von Schlüssel/Wert-Paaren in Form von Metadaten, die Felder genannt werden. Ein Satz Vorlagen ist mit einem Datenbankschema für Ihre Metadaten vergleichbar.
Sie können Ihre Tags nach Themen strukturieren. Beispiel:
- Ein Data Governance-Tag mit Feldern für Data Governor, Aufbewahrungsdatum, Löschdatum, personenidentifizierbare Informationen (Ja oder Nein) und Datenklassifizierung (öffentlich, vertraulich, sensibel, rechtlich vorgeschrieben)
- Ein Datenqualitäts-Tag mit Feldern für Qualitätsprobleme, Aktualisierungshäufigkeit und SLO-Informationen
- Ein Datennutzungs-Tag mit Feldern für häufigste Nutzer, häufigste Abfragen und durchschnittliche tägliche Nutzer
Sie können dann Tags miteinander mischen und so kombinieren, dass nur die Tags verwendet werden, die für jedes Daten-Asset und Ihre Geschäftsanforderungen relevant sind.
Felder in einem Tag
Tags enthalten ein oder mehrere Felder, in denen Informationen gespeichert werden können. Die Felder in einem Tag werden durch eine Tag-Vorlage definiert. Jedes Feld kann zum Speichern eines oder mehrerer Werte verwendet werden. Jedes Tag ist eine Instanz einer Tag-Vorlage, die auf einen gesamten Dateneintrag oder auf bestimmte Tabellen oder Spalten angewendet werden kann. Ein Tag für eine Spalte kann beispielsweise Aufschluss darüber geben, ob diese Spalte personenidentifizierbare Informationen enthält, ob sie veraltet ist oder welche Formel zur Berechnung eines bestimmten Werts verwendet wurde.
Jedes Feld enthält eine ID, einen Anzeigenamen und einen Typ. Der Typ kann string
, double
, boolean
, enum
(Aufzählung) oder datetime
sein. Wenn der Typ enum
ist, speichert die Vorlage auch die zulässigen Werte für das Feld.
Felder werden in der Vorlage als geordneter Satz gespeichert, wobei die Reihenfolge die relative Wichtigkeit eines Felds im Verhältnis zu den anderen Feldern bedeutet.
Felder sind optional, sofern nicht als erforderlich gekennzeichnet. Ein Pflichtfeld muss einen Wert erhalten, wenn die Vorlage verwendet wird, während ein optionales Feld leer bleiben kann.
Nach der Erstellung Ihrer Vorlage können Sie optionale Felder nicht mehr in erforderliche Felder umwandeln.
Beispielfelder in einem Tag
Hier sehen Sie eine Beispiel-Tag-Vorlage aus der Kurzanleitung, die mehrere Feldtypen enthält:
Hier sehen Sie ein Tag, das aus der Vorlage erstellt wurde, mit Werten angegeben für jedes Feld:
Tag-Vorlagen-Sammlung aufrufen
Zum Einstieg enthält Data Catalog eine Galerie von Beispiel-Tag-Vorlagen, um gängige Tag-Anwendungsfälle zu veranschaulichen. Anhand dieser Beispiele erfahren Sie mehr über die Möglichkeiten von Tagging, als Inspiration oder als Ausgangspunkt für die Erstellung einer eigenen Tagging-Infrastruktur.
Führen Sie die folgenden Schritte aus, um eine Tag-Vorlagen-Gallerie zu verwenden:
Rufen Sie in der Google Cloud Console die Seite Tag-Vorlagen von Dataplex auf.
Klicken Sie auf Tag-Vorlage erstellen.
Die Vorlagengalerie wird auf der Seite Vorlage erstellen angezeigt.
Nachdem Sie eine Vorlage aus der Galerie ausgewählt haben, können Sie sie wie jede andere Tag-Vorlage verwenden. Außerdem haben Sie die Möglichkeit, Attribute hinzuzufügen und zu löschen und können die Vorlage ganz nach Ihren geschäftlichen Anforderungen ändern. Anschließend können Sie mit Data Catalog nach den Vorlagenfeldern und -werten suchen.
Zugriffssteuerung für Tags
Tags und deren Metadaten können vertrauliche Informationen enthalten. Manche Data Governance-Teams möchten vielleicht bestimmte Tags nur für ausgewählte Nutzergruppen sichtbar machen. Data Catalog ermöglicht die Zugriffssteuerung auf Tag-Vorlagen. Diese Einstellungen beziehen sich auf alle Tags, die mit einer Vorlage erstellt wurden.
Sie können Tag-Vorlagen mit vielen Zugriffssteuerungskonfigurationen einrichten, z. B.:
- Eine Tag-Vorlage, die nur der Vorlagenersteller verwenden kann, um Tags zu erstellen
- Eine Tag-Vorlage, die Tags erstellt, die nur für eine ausgewählte Gruppe von Nutzern sichtbar sind
- Eine Tag-Vorlage, mit der eine ausgewählte Gruppe von Nutzern Tags erstellen kann, die nur für eine andere (möglicherweise identische) Gruppe von Nutzern sichtbar sind
- Eine Tag-Vorlage, die für alle Nutzer einer Organisation oder eines Projekts sichtbar ist (öffentliches Tag)
Der Zugriff auf eine Tag-Vorlage wird mit IAM-Rollen gewährt oder verweigert. Diese Berechtigungen gewähren Berechtigungen zum Erstellen, Bearbeiten und Verwenden der Tag-Vorlage. Im Folgenden finden Sie einige verfügbare Data Catalog-Rollen:
Damit ein Nutzer eine Tag-Vorlage erstellen oder aktualisieren kann, müssen Sie ihm die Rolle „Tag-Vorlagen-Ersteller“ zuweisen.
Damit ein Nutzer Tags auf einen Dateneintrag anwenden kann, müssen Sie ihm die Rolle „Nutzer der Tag-Vorlage“ zuweisen.
Weitere Informationen finden Sie unter Data Catalog Identity and Access Management.
Regionale Ressourcen
Alle Tag-Vorlagen und Tags werden in einer bestimmten Google Cloud -Region gespeichert. Mit Tag-Vorlagen können Sie Tags in beliebigen Regionen erstellen. Sie müssen also keine Kopien Ihrer Vorlage erstellen, wenn Sie Dateneinträge über mehrere Regionen verteilt haben.
Weitere Informationen
Hier finden Sie Informationen zu den Rollen und Berechtigungen, die zum Ansehen und Anhängen öffentlicher und privater Tags erforderlich sind. Weitere Informationen finden Sie unter Rollen zum Ansehen öffentlicher und privater Tags und Rollen zum Anhängen von Tags an Google Cloud Ressourcen.
Weitere Informationen zum Suchen in Dateneinträgen mit öffentlichen und privaten Tags Weitere Informationen finden Sie unter Data Catalog-Suchsyntax.
Erstellen Sie eine Beispielvorlage für öffentliche Tags und einige Tags. Weitere Informationen finden Sie unter BigQuery-Tabelle mithilfe von Data Catalog taggen.