Passer au contenu principal
Google Cloud
Documentation Domaines technologiques
  • IA et ML
  • Développement d'applications
  • Hébergement d'applications
  • Calcul
  • Analyses de données et pipelines
  • Bases de données
  • Solutions distribuées, hybrides et multicloud
  • IA générative
  • Solutions par secteur d'activité
  • Mise en réseau
  • Observabilité et surveillance
  • Sécurité
  • Storage
Outils de produits croisés
  • Gestion des accès et des ressources
  • Gestion des coûts et de l'utilisation
  • Google Cloud SDK, langages, frameworks et outils
  • Infrastructure as Code
  • Migration
Sites connexes
  • Accueil Google Cloud
  • Essai sans frais et niveau gratuit
  • Architecture Center
  • Blog
  • Contacter le service commercial
  • Google Cloud Developer Center
  • Google Developer Center
  • Google Cloud Marketplace
  • Documentation de Google Cloud Marketplace
  • Google Cloud Skills Boost
  • Google Cloud Solution Center
  • Assistance Google Cloud
  • Chaîne YouTube Google Cloud Tech
/
  • English
  • Deutsch
  • Español
  • Español – América Latina
  • Français
  • Indonesia
  • Italiano
  • Português
  • Português – Brasil
  • 中文 – 简体
  • 中文 – 繁體
  • 日本語
  • 한국어
Console Connexion
  • Dataproc
Guides Référence Exemples Ressources
Nous contacter Commencer l'essai gratuit
Google Cloud
  • Documentation
    • Guides
    • Référence
    • Exemples
    • Ressources
  • Domaines technologiques
    • Plus
  • Outils de produits croisés
    • Plus
  • Sites connexes
    • Plus
  • Console
  • Nous contacter
  • Commencer l'essai gratuit
  • Découvrir
  • Vue d'ensemble du produit
  • Concepts clés
  • Composants
    • Aperçu
    • Delta Lake
    • Docker
    • Flink
    • HBase
    • Hive WebHCat
    • Hudi
    • Iceberg
    • Jupyter
    • Pig
    • Presto
    • Ranger
      • Installer Ranger
      • Utiliser Ranger avec Kerberos
      • Utiliser Ranger avec la mise en cache et la réduction du champ d'application
      • Sauvegarder et restaurer un schéma Ranger
    • Solr
    • Trino
    • Zeppelin
    • ZooKeeper
  • Services
  • Options de calcul
    • Types de machine
    • GPU
    • Configuration minimale de la plate-forme du CPU
    • Nœuds de calcul secondaires
    • Disques SSD locaux
    • Disques de démarrage
  • Gestion des versions
    • Aperçu
    • Versions 3.0.x
    • Versions 2.3.x
    • Versions 2.2.x
    • Versions 2.1.x
    • Versions 2.0.x
    • Listes des versions d'images de cluster
  • Questions fréquentes
  • Premiers pas
  • Exécuter Spark sur Dataproc
    • Utiliser la console
    • Utiliser la ligne de commandes
    • Utiliser l'explorateur d'API REST
      • Créer un cluster
      • Exécuter un job Spark
      • Mettre à jour un cluster
      • Supprimer un cluster
    • Utiliser des bibliothèques clientes
    • Exécuter Spark à l'aide de Kubernetes
  • Créer
  • Configurer un projet
  • Utiliser des modèles Dataproc
  • Créer des clusters Dataproc
    • Créer un cluster
    • Créer un cluster à haute disponibilité
    • Créer un cluster de groupes de nœuds
    • Créer un cluster partiel
    • Créer un cluster à nœud unique
    • Créer un cluster à locataire unique
    • Recréer un cluster
    • Créer une image personnalisée
  • Créer des clusters Kubernetes
    • Aperçu
    • Versions
    • Recréer un cluster
    • Créer des pools de nœuds
    • Créer une image personnalisée
  • Créer une table Apache Iceberg avec des métadonnées dans BigQuery Metastore
  • Développer
  • Apache Hadoop
  • Apache HBase
  • Apache Hive et Kafka
  • Apache Spark
    • Configurer
      • Gérer les dépendances Spark
      • Personnaliser l'environnement Spark
      • Activer les écritures simultanées
      • Améliorer les performances de Spark
      • Régler Spark
    • Liez contact
      • Utiliser le connecteur BigQuery Spark
      • Utiliser le connecteur Cloud Storage
      • Utiliser le connecteur Spark Spanner
    • Exécuter
      • Utiliser HBase
      • Utiliser une simulation Monte-Carlo
      • Utiliser Spark ML
      • Utiliser Spark Scala
  • Utiliser Notebooks
    • Aperçu
    • Exécuter un notebook Jupyter sur un cluster Dataproc
    • Exécuter une analyse génomique dans un notebook
    • Utiliser l'extension JupyterLab pour développer des charges de travail Spark sans serveur
  • Python
    • Configurer l'environnement
    • Utilisez les bibliothèques clientes Cloud
  • Trino
  • Déployer
  • Exécuter des tâches
    • Cycle de vie d'une tâche
    • Envoyer une tâche
    • Redémarrer des tâches
    • Afficher l'historique des missions
  • Utiliser des modèles de workflow
    • Aperçu
    • Paramétrage
    • Utiliser des fichiers YAML
    • Utiliser des sélecteurs de cluster
    • Utiliser des workflows intégrés
  • Orchestration des workflows
    • Solutions de planification des workflows
    • Utiliser des modèles de workflow Dataproc
    • Utiliser Cloud Composer
    • Utiliser Cloud Functions
    • Utiliser Cloud Scheduler
  • Ajuster les performances
    • Optimiser les performances de Spark
    • Métriques Dataproc
    • Créer des alertes basées sur les métriques
    • Profiler l'utilisation des ressources
  • Gérer
  • Gestion des clusters
    • Démarrer et arrêter des clusters
      • Démarrer et arrêter un cluster manuellement
      • Planifier l'arrêt d'un cluster
    • Mettre à jour et supprimer un cluster
    • Faire pivoter des clusters
    • Configurer les clusters
      • Définir les propriétés du cluster
      • Sélectionner une région
      • Sélection automatique de la zone
      • Définir des actions d'initialisation
      • Prioriser les types de VM
      • Planifier la suppression d'un cluster
    • Scaling des clusters
      • Scaling des clusters
      • Effectuer l'autoscaling des clusters
    • Gérer les données
      • Stockage de données Hadoop
      • Sélectionner le type de stockage
      • Mettre en cache les données des clusters
      • Décharger les données de mélange
    • Gérer les réseaux
      • Configurer un réseau
      • Mise en réseau des clusters Dataproc avec Private Service Connect
  • Gérer des clusters Kubernetes
    • Scaling des clusters
    • Supprimer un cluster
  • Accéder aux clusters
    • Utiliser SSH
    • Se connecter à des interfaces Web
    • Utiliser la passerelle des composants
    • Définir l'accès des collaborateurs
  • Gérer les métadonnées et les libellés
    • Activer la traçabilité des données Spark
    • Activer la traçabilité des données Hive
    • Définir les métadonnées
    • Définir des libellés pour le filtrage
    • Utiliser des tags sécurisés
  • Se connecter à Dataproc
    • Migrer Hadoop
    • Se connecter à BigQuery
      • Connecteur BigQuery
      • Connecteur Hive-BigQuery
      • Exemples de code
    • Se connecter à Bigtable
    • Se connecter à Cloud Storage
    • Se connecter avec Pub/Sub Lite
  • Bonnes pratiques en production
  • Sécurité et conformité
  • Bonnes pratiques concernant la sécurité
  • Authentifier les utilisateurs
    • S'authentifier auprès de Dataproc
    • Authentifier des clusters personnels
  • Attribuer des rôles et des autorisations
    • Rôles et autorisations Dataproc
    • Principaux Dataproc
    • IAM granulaire
    • Attribuer des rôles pour Kubernetes
  • Créer des comptes de service
  • Clusters sécurisés
    • Architecture mutualisée sécurisée à l'aide de Kerberos
    • Architecture mutualisée sécurisée à l'aide de comptes de service
    • Chiffrer la mémoire
    • Gérer les clés de chiffrement des données
    • Activer le service d'autorisation Ranger
    • Utiliser le fournisseur d'identifiants Secret Manager
    • Créer et sécuriser un cluster de métastore Hive
  • Créer des contraintes personnalisées
  • Assured Workloads
  • Conformité FedRAMP
  • Vérifier la facturation
  • Dépannage
  • Aperçu
  • Analyser des journaux
    • Journaux Dataproc
    • Journaux de sortie des tâches
    • Journaux d'audit
  • Résoudre les problèmes liés aux clusters
    • Afficher les données de diagnostic du cluster
    • Résoudre les problèmes de création de clusters