跳至主要内容
Google Cloud
文档 技术领域
  • AI 和机器学习
  • 应用开发
  • 应用托管
  • 计算
  • 数据分析和流水线
  • 数据库
  • 分布式云、混合云和多云
  • 生成式 AI
  • 行业解决方案
  • 网络
  • 可观测性和监控
  • 安全
  • Storage
跨产品工具
  • 访问权限和资源管理
  • 费用和用量管理
  • Google Cloud SDK、语言、框架和工具
  • 基础架构即代码
  • 迁移
相关网站
  • Google Cloud 首页
  • 免费试用和免费层级
  • 架构中心
  • 博客
  • 联系销售团队
  • Google Cloud 开发者中心
  • Google 开发者中心
  • Google Cloud Marketplace
  • Google Cloud Marketplace 文档
  • Google Cloud Skills Boost
  • Google Cloud Solution Center
  • Google Cloud 支持团队
  • Google Cloud Tech YouTube 频道
/
  • English
  • Deutsch
  • Español
  • Español – América Latina
  • Français
  • Indonesia
  • Italiano
  • Português
  • Português – Brasil
  • 中文 – 简体
  • 中文 – 繁體
  • 日本語
  • 한국어
控制台 登录
  • Google Kubernetes Engine (GKE)
概览 指南 参考文档 示例 资源
联系我们 免费开始使用吧
Google Cloud
  • 文档
    • 概览
    • 指南
    • 参考文档
    • 示例
    • 资源
  • 技术领域
    • 更多
  • 跨产品工具
    • 更多
  • 相关网站
    • 更多
  • 控制台
  • 联系我们
  • 免费开始使用吧
  • Discover
  • GKE 简介
  • 探索 GKE 文档
  • 使用 GKE 还是 Cloud Run?
  • 试试看
    • 在控制台中创建集群
    • 使用 Terraform 创建集群
    • 探索集群
  • 在 Gemini 的协助下微调 GKE 服务
  • 了解基础知识
  • 开始了解 GKE
  • 了解 Kubernetes 基础知识
    • 开始了解 Kubernetes
    • 容器简介
    • Kubernetes 漫画
    • Kubernetes.io
    • 视频播放列表:借助 Google 了解 Kubernetes
  • 了解 GKE 基础知识
    • GKE 操作模式
    • GKE 版本
    • 视频播放列表:GKE 基本功能
  • 开始使用
  • 集群生命周期
  • 集群管理概览
  • 集群配置
  • 部署工作负载
  • GKE 集群架构
  • 工作流和工具
    • gcloud CLI 概览
    • Google Cloud 控制台中的 GKE
    • 使用 Terraform 预配 GKE 资源
    • 安装 kubectl 并配置集群访问权限
    • 使用 IDE 简化部署
  • 学习路线:将应用容器化
    • 概览
    • 了解单体
    • 对单体式应用进行模块化处理
    • 准备容器化
    • 将模块化应用容器化
    • 将应用部署到集群
  • 学习路线:可伸缩的应用
    • 概览
    • 创建集群
    • 使用 Prometheus 进行监控
    • 扩缩工作负载
    • 模拟故障
    • 生产注意事项
  • 设计和规划
  • 代码示例
  • 快速起步解决方案
    • 使用 Java 的动态 Web 应用
    • 电子商务 Web 应用
  • 架构和最佳实践
    • 使用 Cloud Code、Cloud Build 和 Google Cloud Deploy 开发和交付应用
    • 解决持续交付挑战
  • 设置 GKE 集群
  • 规划集群以运行工作负载
    • 比较 GKE Autopilot 和 GKE Standard 中的功能
    • 区域级集群简介
    • 特性门控简介
    • Alpha 版集群简介
  • 设置 Autopilot 集群
    • GKE Autopilot 简介
    • 创建 Autopilot 集群
    • 延长 Autopilot Pod 的运行时间
  • 设置 Standard 集群
    • 创建区域级集群
    • 创建区域级集群
    • 创建 Alpha 版集群
    • 使用 Windows 节点池创建集群
  • 准备使用集群
    • 使用标签整理集群
    • 使用标记管理 GKE 资源
  • 配置节点池
    • 节点池简介
    • 节点映像简介
    • Containerd 映像简介
    • 指定节点映像
    • GKE 上的 Arm 工作负载简介
    • 创建具有 Arm 节点的标准集群和节点池
    • 规划 GKE Standard 节点大小
    • Spot 虚拟机简介
    • 使用单租户节点
    • Windows Server 容器简介
    • 自动修复节点
    • 使用 DaemonSet 自动引导 GKE 节点
  • 设置多租户集群
    • 集群多租户简介
    • 规划多租户环境
    • 为第三方租户准备 GKE 集群
    • 设置多租户日志记录
  • 使用舰队以简化多集群管理
    • 舰队简介
    • 创建舰队
  • 设置服务网格
    • 在 Autopilot 集群中预配 Cloud Service Mesh
  • 增强集群的可扩缩性
    • GKE 可扩缩性简介
    • 规划可扩缩性
    • 规划大型 GKE 集群
    • 规划大型工作负载
    • 预配额外的计算容量以快速扩缩 Pod
    • 使用预留的可用区级资源
  • 降低和优化费用
  • 规划费用优化
  • 查看 GKE 费用
    • 查看集群费用明细
    • 查看与费用相关的优化指标
  • 优化 GKE 费用
    • 大规模合理调整 GKE 工作负载容量
    • 在非高峰时段缩容 GKE 集群以减少费用
    • 识别预配不足和预配过度的 GKE 集群
    • 识别空闲 GKE 集群
  • 为基础架构配置自动扩缩
    • 集群自动扩缩简介
    • 配置集群自动扩缩
    • 节点自动预配简介
    • 配置节点自动预配
    • 查看集群自动扩缩事件
  • 为工作负载配置自动扩缩
    • 扩缩已部署的应用
    • 关于根据指标自动扩缩工作负载
    • 根据指标优化 Pod 自动扩缩
    • Pod 横向自动扩缩简介
    • 使用 Pod 横向自动扩缩自动扩缩部署
    • 为 GPU 上的 LLM 工作负载配置自动扩缩
    • 为 TPU 上的 LLM 工作负载配置自动扩缩
    • 查看 Pod 横向自动扩缩器事件
    • Pod 纵向自动扩缩简介
    • 配置多维 Pod 自动扩缩
    • 扩缩容器资源请求和限制
    • 使用 KEDA 缩减至零
  • 预配存储
  • GKE 集群的存储简介
  • 使用 Kubernetes 功能、原语和抽象概念进行存储
    • 使用永久性卷和动态预配
    • 使用 StatefulSet
    • 卷快照简介
    • 使用卷扩展
    • 使用 GKE Volume Populator 从 Cloud Storage 传输数据
  • 块存储
    • 预配和使用永久性磁盘
      • 使用 Compute Engine Persistent Disk CSI 驱动程序
      • 使用预先存在的永久性磁盘
      • 手动安装 CSI 驱动程序
      • 将永久性磁盘与多个读取器结合使用 (ReadOnlyMany)
      • 基于固态硬盘的永久性磁盘
      • 区域永久性磁盘
      • 使用 Stateful HA Operator 提高有状态应用的可用性
    • 预配和使用 Hyperdisk
      • 关于 Hyperdisk
      • 利用 Hyperdisk 扩缩存储性能
      • 利用 Hyperdisk 存储池优化存储性能和费用
      • 利用 Hyperdisk ML 加快 AI/机器学习数据加载速度
    • 预配和使用 GKE 数据缓存
      • 使用 GKE 数据缓存提升有状态工作负载的读取性能
    • 管理永久性存储
      • 为节点文件系统配置启动磁盘
      • 克隆永久性磁盘
      • 使用卷快照备份和恢复 Persistent Disk 存储空间
    • 优化磁盘性能
      • 优化磁盘性能简介
      • 监控磁盘性能
  • 本地 SSD 和临时存储空间
    • GKE 的本地 SSD 存储简介
    • 预配基于本地 SSD 的临时存储空间
    • 预配基于本地 SSD 支持的原始块存储
    • 使用 EmptyDir 卷创建 Deployment
    • 将专用 Persistent Disk 用作临时卷
  • 文件存储
    • 预配和使用 Filestore
      • Filestore 对 GKE 的支持简介
      • 访问 Filestore 实例
      • 使用 Filestore 部署有状态工作负载
      • 关于适用于 GKE 的 Filestore 多共享
      • 优化 Multishares for GKE
      • 使用卷快照备份和恢复 Filestore 存储空间
    • 预配和使用 Parallelstore
      • Parallelstore for GKE 简介
      • 创建和使用由 Parallelstore 提供支持的卷
      • 访问现有的 Parallelstore 实例
  • 对象存储
    • 快速入门:适用于 GKE 的 Cloud Storage FUSE CSI 驱动程序
    • 适用于 GKE 的 Cloud Storage FUSE CSI 驱动程序简介
    • 设置 Cloud Storage FUSE CSI 驱动程序
    • 将 Cloud Storage 存储桶装载为临时卷
    • 将 Cloud Storage 存储桶装载为永久性卷
    • 配置 Cloud Storage FUSE CSI 驱动程序边车容器
    • 优化 Cloud Storage FUSE CSI 驱动程序性能
  • 配置集群安全
  • 探索 GKE 安全性
    • GKE 中的安全性简介
    • 控制平面安全简介
    • GKE 中的 FIPS 验证加密简介
    • GKE Autopilot 中的安全措施
    • 集群信任简介
  • 规划集群安全
    • 强化集群的安全
    • 安全修补
    • Kubernetes 的审核日志记录
    • Kubernetes Engine 的审核日志记录
    • Container Security API 的审核日志记录
    • 审核政策简介
    • 共担安全责任
    • 缓解安全事件
    • 机密 GKE 工作负载中的 vTPM
  • 身份验证和授权
    • 向 GKE API 进行身份验证
    • 从 GKE 向 Google Cloud API 进行身份验证
    • RBAC 和 IAM 简介
    • RBAC 的最佳实践
    • GKE 中的服务账号简介
    • 向 Kubernetes API 服务器进行身份验证
    • 使用外部身份提供方向 GKE 集群进行身份验证
    • 使用 GKE RBAC 授权在集群中执行操作
    • 通过 RBAC 使用 Google 群组管理群组的权限
    • 使用 IAM 政策授予对 Google Cloud 资源的访问权限
    • 不使用 SSH 密钥管理节点 SSH 访问权限
    • 按命名空间启用访问和查看集群资源
    • 使用自定义组织政策限制对 GKE 资源的操作
    • GKE 中的 seccomp 简介
    • GKE 中的访问权限范围
    • 访问具有私有 CA 证书的私有注册表
  • 隔离集群和工作负载
    • GKE Sandbox 简介
    • 使用 GKE Sandbox 隔离工作负载
    • 在专用节点池中隔离工作负载
    • 强制执行防火墙规则和政策
      • 有选择性地在 GKE 中强制执行防火墙政策
      • 使用网络标记将防火墙规则应用于节点
  • 强化工作负载和节点的安全
    • 使用 PodSecurity 以应用预定义的 Pod 级层安全政策
    • 使用 Gatekeeper 以应用自定义 Pod 级层安全政策
    • Workload Identity Federation for GKE 简介
    • 从 GKE 向 Google Cloud API 进行身份验证
    • 使用客户端库访问存储在 GKE 集群外部的 Secret
    • 停用不安全的 kubelet 只读端口
    • 在每个 GKE 节点上运行虚拟机代理
  • 加密敏感数据
    • 使用 GKE 机密节点加密使用中的数据
    • 使用用户管理的加密密钥在 GKE 中加密传输中的数据
    • 在应用层对 Secret 加密
  • 管理控制平面安全
    • 控制平面安全简介
    • 验证 GKE 控制平面虚拟机完整性
    • 集群信任简介
    • 控制平面授权简介
    • 在 GKE 中运行您自己的证书授权机构和密钥
    • 加密 etcd 和控制平面启动磁盘
    • 验证 Google 人员在 GKE 控制平面中建立的连接
    • 验证身份发放和使用情况
  • 管理凭据
    • 轮替集群的凭据
    • 轮替控制平面 IP 地址
  • 监控集群安全
    • 安全状况信息中心简介
    • Kubernetes 安全状况扫描简介
    • 扫描工作负载以查找配置问题
    • 关于工作负载漏洞扫描
    • 扫描容器以查找已知漏洞
    • 为舰队配置 GKE 安全状况功能
    • 在 Standard 集群中启用 Linux auditd 日志记录
  • 部署和管理工作负载
  • 规划工作负载部署
    • 规划 Autopilot 工作负载的资源请求
  • 迁移工作负载
    • 确定要迁移到 Autopilot 的 Standard 集群
    • 准备从 Standard 集群迁移到 Autopilot 集群
  • 部署具有专用计算要求的工作负载
    • GKE 中的自定义计算类简介
    • 使用自定义计算类控制自动扩缩的节点属性
    • Autopilot 集群中的内置计算类简介
    • 为 Autopilot Pod 选择预定义的计算类
    • 计算密集型工作负载的最低要求 CPU 平台
    • 在 GKE 中配置 Pod 爆发
    • 使用 PMU 分析 CPU 性能
  • 部署具有特殊安全要求的工作负载
    • GKE Autopilot 合作伙伴
    • 运行 GKE Autopilot 合作伙伴提供的特权工作负载
    • 在 GKE Autopilot 上运行特权开源工作负载
  • 部署需要专用设备的工作负载
    • GKE 中的动态资源分配 (DRA) 简介
    • 为 DRA 准备 GKE 基础设施
    • 部署 DRA 工作负载
  • 管理工作负载
    • 在 GKE 中配置工作负载隔离
    • 将 GKE Pod 放置在特定的可用区中
    • 模拟可用区故障
    • 使用 NCCL Fast Socket 提高工作负载效率
    • 容器映像摘要简介
    • 在 Kubernetes 清单中使用容器映像摘要
    • 提高工作负载初始化速度
      • 使用流式容器映像
      • 使用辅助启动磁盘预加载数据或容器映像
  • 持续集成和交付
    • 规划持续集成和交付
    • 使用 Azure Pipelines 创建 CI/CD 流水线
    • 使用 Cloud Build 实现 GitOps 形式的持续交付
    • 借助 GKE 实现现代 CI/CD
      • 软件交付框架
      • 构建 CI/CD 系统
      • 应用开发者工作流
  • 部署数据库、缓存和数据流式传输工作负载
  • GKE 上的数据
  • 在 GKE 上规划数据库部署
  • 代管式数据库
    • 使用 GKE Autopilot 和 Spanner 部署应用
    • 使用 Persistent Disk 和 Cloud SQL 在 GKE 上部署 WordPress
    • 使用 BigQuery、Cloud Run 和 Gemma 在 GKE 上分析数据
  • Kafka
    • 使用 Strimzi 将 Apache Kafka 部署到 GKE
    • 使用 Confluent 将 Apache Kafka 部署到 GKE
    • 在 GKE 上部署高可用性 Kafka 集群
  • Redis
    • 使用 Redis 和 PHP 创建多层 Web 应用
    • 在 GKE 上部署 Redis 集群
    • 使用 Spotahome 将 Redis 部署到 GKE
    • 使用 Redis Enterprise 将 Redis 部署到 GKE
  • MySQL
    • 部署有状态 MySQL 集群
  • PostgreSQL
    • 部署高可用性 PostgreSQL 数据库
    • 使用 Zalando 将 PostgreSQL 部署到 GKE
    • 使用 CloudNativePG 将 PostgreSQL 部署到 GKE
  • SQL Server
    • 在 GKE 上部署单实例 SQL Server 2017
  • Memcached
    • 在 GKE 上部署 Memcached
  • 向量数据库
    • 使用 GKE 和 Cloud Storage 构建 RAG 聊天机器人
    • 在 GKE 上部署 Qdrant 数据库
    • 在 GKE 上部署 Elasticsearch 数据库
    • 在 GKE 上部署 PostgreSQL 矢量数据库
    • 在 GKE 上部署 Weaviate 向量数据库
  • 部署 AI/机器学习工作负载
  • GKE 上的 AI/机器学习编排
  • 运行机器学习和 AI 工作负载
    • GPU
      • GKE 中的 GPU 简介
      • 在 GKE Autopilot 中部署 GPU 工作负载
      • 在 GKE Standard 中部署 GPU 工作负载
      • 加密使用中的 GPU 工作负载数据
      • 使用 NVIDIA GPU Operator 管理 GPU 栈
      • GPU 共享
        • GKE 中的 GPU 共享策略简介
        • 使用多实例 GPU
        • 使用 GPU 分时
        • 使用 NVIDIA MPS
      • 使用 GPU 自动扩缩 LLM 推理工作负载的最佳实践
      • 优化 GPU 上 LLM 推理性能的最佳实践
    • GKE 中的 TPU
      • GKE 中的 TPU 简介
      • 规划 GKE 中的 TPU
      • 申请 TPU
        • 在日历模式下请求带有未来预留的 TPU
        • 使用灵活启动预配模式为 TPU 运行小批量工作负载
      • 在 GKE Autopilot 中部署 TPU 工作负载
      • 在 GKE Standard 中部署 TPU 工作负载
      • 在 GKE 中部署 TPU 多片
      • 使用 JobSet 和 Kueue 编排 TPU 多切片工作负载
      • 自动扩缩使用 TPU 的 LLM 推理工作负载的最佳实践
    • 管理 GPU 和 TPU 的 GKE 节点中断
    • 基于 CPU 的工作负载
      • 通过选择机器系列优化 Autopilot Pod 性能
    • 优化 GPU 和 TPU 预配
      • 使用灵活启动预配 GPU 和 TPU 简介
      • 通过灵活启动(带已排队的预配)运行大规模工作负载
      • 以“灵活启动”预配模式运行小型批处理工作负载
  • 培训
    • 在 GKE Standard 模式下使用 GPU 训练模型
    • 在 GKE Autopilot 模式下使用 GPU 训练模型
    • 在 A3 Mega 虚拟机上使用 Megatron-LM 训练 Llama2
    • 使用多层级检查点机制训练大规模机器学习模型
  • 推理
    • GKE 上的 AI/机器学习模型推理简介
    • 使用 GKE Inference Quickstart recipe 运行最佳实践推理
    • 在 GPU 上试用推理示例
      • 使用单个 GPU 提供模型
      • 通过多个 GPU 提供 LLM
      • 提供 Deepseek-R1 671B 或 Llama 3.1 405B 等 LLM
      • 使用 Ray 在 L4 GPU 上提供 LLM
      • 使用 TorchServe 提供可伸缩 LLM
      • 使用 Hugging Face TGI 在 GPU 上提供 Gemma 服务
      • 使用 vLLM 在 GPU 上提供 Gemma 服务
      • 通过 vLLM 使用 GKE 上的 GPU 部署 Llama 模型
      • 使用 TensorRT-LLM 在 GPU 上提供 Gemma 服务
      • 使用 GKE 推理网关提供 LLM
      • 使用多个 GPU 微调 Gemma 开放模型
      • 通过经济高效且高可用性的 GPU 预配策略提供 LLM
    • 在 TPU 上试用推理示例
      • 通过 Optimum TPU 使用 TPU 提供开源模型
      • 通过 JetStream 在 TPU 上提供 Gemma
      • 通过 JetStream 和 PyTorch 在 TPU 上提供 LLM
      • 使用 JetStream 和 Pathways 在多主机 TPU 上提供 LLM
      • 通过 vLLM 在 TPU 上提供 LLM
      • 通过 KubeRay 使用 TPU 提供 LLM
      • 通过 MaxDiffusion 使用 GKE 上的 TPU 提供 SDXL
      • 使用 Pathways 执行多主机推理
  • 批量
    • 在 GKE 上运行批处理工作负载的最佳实践
    • 使用 Kueue 部署批处理系统
    • 使用动态工作负载调度器获取 GPU
      • 弹性启动的 GPU 可获取性简介
      • 通过灵活启动(带已排队的预配)运行大规模工作负载
      • 以“灵活启动”预配模式运行小型批处理工作负载
    • 使用命名空间配额共享实现 Job 排队系统
    • 使用 Kueue 针对混合训练和推理工作负载优化资源利用率
  • 在 GKE 上使用 Ray
  • 按应用类型部署工作负载
  • Web 服务器和应用
    • 网站托管规划
    • 部署有状态应用
    • 确保工作负载能够应对中断
    • 部署无状态应用
    • 允许通过 hostPort 直接连接到 Autopilot Pod
    • 运行 Django
    • 从 Cloud Marketplace 部署应用
    • 在 GKE 上大规模运行全栈工作负载
    • 部署容器化网络服务器应用
  • 游戏
    • 获取 Agones 问题支持
    • 隔离 GKE 集群中的 Agones 控制器
  • 部署 Arm 工作负载
    • 准备 Arm 工作负载以部署到 Standard 集群
    • 为 Arm 工作负载构建多架构映像
    • 在 Arm 架构上部署 Autopilot 工作负载
    • 使用 Arm 将 GKE 上的 x86 应用迁移到多架构
  • Microsoft Windows
    • 部署 Windows Server 应用
    • 构建 Windows Server 多架构映像
    • 在 GKE Windows 容器中使用 Windows 身份验证部署 ASP.NET 应用
  • 以更低的费用运行容错工作负载
    • 在 Autopilot 集群上使用 Spot Pod
    • 使用 Spot 虚拟机在 GKE Standard 集群上运行工作负载
    • 使用抢占式虚拟机运行工作负载
  • 管理和优化集群
  • 管理集群生命周期更改,以最大限度地减少中断
  • 利用分析洞见和建议优化 GKE 使用
  • 管理 GKE 集群
  • 升级到 GKE Enterprise
  • 为预演配置集群和工作负载
  • 升级集群和节点池
    • GKE 集群升级简介
    • 规划集群升级
    • 发布渠道简介
    • 使用发布渠道
    • Autopilot 集群升级简介
    • Standard 集群升级简介
    • 自动升级节点
    • 手动升级集群或节点池
    • 节点升级策略简介
    • 配置节点升级策略
    • 维护窗口和排除项简介
    • 配置维护窗口和排除项
    • 使用发布顺序的集群升级简介
    • 对集群升级的发布进行排序
  • 获取集群事件的通知
    • 集群通知简介
    • 通过 Pub/Sub 接收集群通知
    • 配置集群以接收电子邮件通知
    • 为第三方服务配置集群通知
    • 了解集群升级
  • 管理节点
    • 添加和管理节点池
    • 确保用于节点升级的资源
    • 通过添加或移除节点来调整集群大小
    • 为节点定义紧凑放置
    • 将节点迁移到其他机器类型
    • 从 Docker 迁移到 containerd 节点映像
    • 将节点迁移到 Linux cgroupv2
    • 自定义 containerd 配置
    • 自定义节点系统配置
    • 配置 Windows Server 节点以加入网域
    • 用于高性能计算的并发多线程 (SMT)
  • 删除集群
  • 将 Kubernetes Beta 版 API 与 GKE 集群搭配使用
  • 确保使用网络钩子时控制平面的稳定性
  • 使用 Backup for GKE
  • 排查应用层 Secret 问题
  • 排查 CA 软件包无效的 CRD 问题
  • 监控
  • GKE 的可观测性
  • 设置 Google Cloud Managed Service for Prometheus
  • 监控集群和工作负载
    • 配置指标收集
    • 为工作负载配置自动应用监控
    • 查看可观测性指标
    • 收集和查看可观测性指标
      • 收集和查看控制平面指标
      • 收集和查看 Kube 状态指标
      • 收集并查看 cAdvisor/Kubelet 指标
      • 收集和查看 DCGM 指标
      • 使用应用性能指标
    • 监控启动延迟时间指标
    • 使用 GKE 用量计量了解集群用量概况
    • 在 GKE 上使用 Prometheus 设置应用可观测性
    • 在 GKE 上设置 Elastic Stack
  • 查看和处理日志
    • GKE 日志简介