Ir al contenido principal
Documentación
Áreas tecnológicas
close
IA y aprendizaje automático
Desarrollo de aplicaciones
Alojamiento de aplicaciones
Computación
Analíticas y flujos de datos
Bases de datos
Tecnologías distribuidas, híbridas y multinube
IA generativa
Soluciones para sectores especializados
Redes
Observabilidad y monitorización
Seguridad
Storage
Herramientas entre productos
close
Gestión de accesos y recursos
Gestión de costes y uso
SDKs, lenguajes, frameworks y herramientas de Google Cloud
Infraestructura como código
Migración
Sitios relacionados
close
Página principal de Google Cloud
Prueba gratuita y nivel gratuito
Centro de arquitectura
Blog
Contactar con Ventas
Centro para Desarrolladores de Google Cloud
Centro para Desarrolladores de Google
Google Cloud Marketplace
Documentación de Google Cloud Marketplace
Google Cloud Skills Boost
Google Cloud Solution Center
El equipo de Asistencia de Google Cloud
Canal de YouTube de Google Cloud Tech
/
English
Deutsch
Español
Español – América Latina
Français
Indonesia
Italiano
Português
Português – Brasil
中文 – 简体
中文 – 繁體
日本語
한국어
Consola
Acceder
Dataproc
Guías
Referencia
Ejemplos
Recursos
Contacto
Empezar gratis
Documentación
Guías
Referencia
Ejemplos
Recursos
Áreas tecnológicas
Más
Herramientas entre productos
Más
Sitios relacionados
Más
Consola
Contacto
Empezar gratis
Descubrir
Descripción general del producto
Conceptos clave
Componentes
Presentación
Delta Lake
Docker
Flink
HBase
Hive WebHCat
Hudi
Iceberg
Jupyter
Pig
Presto
Ranger
Instalar Ranger
Usar Ranger con Kerberos
Usar Ranger con almacenamiento en caché y reducción de permisos
Crear copias de seguridad y restaurar un esquema de Ranger
Solr
Trino
Zeppelin
Zookeeper
Servicios
Opciones de computación
Tipos de máquina
GPUs
Plataforma de CPU mínima
Trabajadores secundarios
Unidades de estado sólido locales
Discos de arranque
Gestión de versiones
Presentación
Versiones de lanzamiento 3.0.x
Versiones de lanzamiento 2.3.x
Versiones de lanzamiento 2.2.x
Versiones de lanzamiento 2.1.x
Versiones de lanzamiento 2.0.x
Listas de versiones de imágenes de clústeres
Preguntas frecuentes
Empezar
Ejecutar Spark en Dataproc
Usar la consola
Usar la línea de comandos
Usar el Explorador de APIs REST
Crear un clúster
Ejecutar una tarea de Spark
Actualizar una agrupación
Eliminar un clúster
Usar bibliotecas de cliente
Ejecutar Spark con Kubernetes
Crear
Configurar un proyecto
Usar plantillas de Dataproc
Crear clústeres de Dataproc
Crear un clúster
Crear un clúster de alta disponibilidad
Crear un clúster de grupo de nodos
Crear un clúster parcial
Crear un clúster de un solo nodo
Crear un clúster de único cliente
Volver a crear un clúster
Crear una imagen personalizada
Crear clústeres de Kubernetes
Introducción
Versiones
Volver a crear un clúster
Crear grupos de nodos
Crear una imagen personalizada
Crear una tabla de Apache Iceberg con metadatos en BigQuery Metastore
Desarrollar
Apache Hadoop
Apache HBase
Apache Hive y Kafka
Apache Spark
Configurar
Gestionar las dependencias de Spark
Personalizar el entorno de Spark
Habilitar escrituras simultáneas
Mejorar el rendimiento de Spark
Tune Spark
Conectar
Usar el conector de Spark BigQuery
Usa el conector de Cloud Storage
Usar el conector de Spark Spanner
Ejecutar
Usar HBase
Usar la simulación de Montecarlo
Usar Spark ML
Usar Spark Scala
Usar Notebooks
Presentación
Ejecutar un cuaderno de Jupyter en un clúster de Dataproc
Ejecutar un análisis genómico en un cuaderno
Usar la extensión JupyterLab para desarrollar cargas de trabajo de Spark sin servidor
Python
Configurar el entorno
Usar bibliotecas de cliente de Cloud
Trino
Implementación
Ejecutar tareas
Vida de una tarea
Enviar una tarea
Reiniciar tareas
Ver el historial de tareas
Usar plantillas de flujo de trabajo
Introducción
Parametrización
Usar archivos YAML
Usar selectores de clústeres
Usar flujos de trabajo integrados
Orquestar flujos de trabajo
Soluciones de programación de flujos de trabajo
Usar plantillas de flujo de trabajo de Dataproc
Usar Cloud Composer
Usar Cloud Functions
Usar Cloud Scheduler
Ajustar el rendimiento
Optimizar el rendimiento de Spark
Métricas de Dataproc
Crear alertas de métricas
Perfil de uso de recursos
Gestionar
Gestionar clústeres
Iniciar y detener clústeres
Iniciar y detener un clúster manualmente
Programar la detención de un clúster
Actualizar y eliminar un clúster
Rotar clústeres
Configurar clústeres
Definir propiedades del clúster
Seleccionar región
Selección automática de zona
Definir acciones de inicialización
Priorizar tipos de VM
Programar la eliminación de un clúster
Escalar clústeres
Escalar clústeres
Autoescalar clústeres
Gestionar datos
Almacenamiento de datos de Hadoop
Selecciona un tipo de almacenamiento
Datos de clúster de caché
Transferir datos de Shuffle
Gestionar redes
Configurar una red
Redes de clústeres de Dataproc con Private Service Connect
Gestionar clústeres de Kubernetes
Escalar clústeres
Eliminar un clúster
Acceder a clústeres
Usar SSH
Conectarse a interfaces web
Usar la pasarela de componentes
Configurar el acceso de la plantilla
Gestionar metadatos y etiquetas
Habilitar el linaje de datos de Spark
Habilitar el linaje de datos de Hive
Definir metadatos
Definir etiquetas para filtrar
Usar etiquetas seguras
Conectarse a Dataproc
Migrar Hadoop
Conectarse a BigQuery
Conector de BigQuery
Conector Hive-BigQuery
Códigos de ejemplo
Conectarse a Bigtable
Conectarse a Cloud Storage
Conectarse con Pub/Sub Lite
Prácticas recomendadas para la producción
Seguridad y cumplimiento
Prácticas recomendadas de seguridad
Autenticar usuarios
Autenticarse en Dataproc
Autenticar clústeres personales
Asignar roles y permisos
Roles y permisos de Dataproc
Principales de Dataproc
Gestión de identidades y accesos pormenorizada
Asignar roles para Kubernetes
Crear cuentas de servicio
Clústeres seguros
Propiedad múltiple segura con Kerberos
Proteger la propiedad múltiple con cuentas de servicio
Cifrar memoria
Gestionar claves de cifrado de datos
Habilitar el servicio de autorización de Ranger
Usar el proveedor de credenciales de Secret Manager
Crear y proteger un clúster de metastore de Hive
Crear restricciones personalizadas
Assured Workloads
Cumplimiento del programa FedRAMP
Consultar facturación
Solucionar problemas
Introducción
Analizar registros
Registros de Dataproc
Registros de salida de tareas
Registros de auditoría
Solucionar problemas de clústeres
Ver datos de diagnóstico de clústeres
Solucionar problemas de creación de clústeres
Diagnosticar clústeres de Kubernetes
Habilitar el registro de Kubernetes
Solucionar problemas con las tareas
Solucionar problemas con las tareas
Solucionar errores de memoria
Solucionar problemas de retrasos en los trabajos
Ver el historial de tareas
Solucionar problemas de plantillas de flujo de trabajo
IA y aprendizaje automático
Desarrollo de aplicaciones
Alojamiento de aplicaciones
Computación
Analíticas y flujos de datos
Bases de datos
Tecnologías distribuidas, híbridas y multinube
IA generativa
Soluciones para sectores especializados
Redes
Observabilidad y monitorización
Seguridad
Storage
Gestión de accesos y recursos
Gestión de costes y uso
SDKs, lenguajes, frameworks y herramientas de Google Cloud
Infraestructura como código
Migración
Página principal de Google Cloud
Prueba gratuita y nivel gratuito
Centro de arquitectura
Blog
Contactar con Ventas
Centro para Desarrolladores de Google Cloud
Centro para Desarrolladores de Google
Google Cloud Marketplace
Documentación de Google Cloud Marketplace