Google Cloud 上の Apache Spark

Google Cloud で Spark の可能性を最大限に引き出しましょう。高速処理、AI アシスタンス、シームレスなオープン レイクハウス接続を活用した、サーバーレスの使いやすさか、クラスタ制御を選択できます。

利点

デベロッパーの生産性を高め、より高速なデータ分析情報を実現

すべてのデータ ユーザー向けのシームレスな Spark

BigQueryVertex AI、IDE でサーバーレスまたはマネージド クラスタを使用して、簡単に Spark を実行できます。カスタム統合を排除し、ETL から ML へのワークフローを合理化し、Gemini でコードとオペレーションの生産性を向上させます。


サーバーレス Spark による運用の簡素化

Apache Spark 用 Google Cloud サーバーレスは、即時の自動スケーリングとほぼゼロの構成を実現します。Lightning Engine(プレビュー版)でクエリ パフォーマンスが 3.6 倍に向上*しました。Dataplex ユニバーサル カタログ はメタデータを統合し、オペレーションを簡素化します。

好みの方法で Spark を実行

画一的なアプローチは通用しません。Google Cloud では、Spark ワークロードにサーバーレス、マネージド クラスタ、コンピューティング クラスタの中から柔軟に選択できます。

主な機能

Google Cloud で Spark を実行する優れた方法

Apache Spark 向けの Google Cloud サーバーレス

Google Cloud Serverless for Apache Spark を使用して、Lightning Engine* と Gemini で生産性とパフォーマンスを向上させます。このエクスペリエンスは、BigQuery から直接 Apache Spark と SQL ワークロードを実行するための高度に統合された環境です。統合されたセキュリティ、BigLake metastore を使用したランタイム メタデータ、Dataplex ユニバーサル カタログによるガバナンスを提供します。統合された CI/CD、ノートブック内の Gemini で生産性を最大化し、Apache Spark クラスタ管理を排除します。

* クエリは TPC-DS 標準TPC-H 標準から派生したものであり、TPC-DS 標準TPC-H 標準の仕様のすべての要件に準拠していないため、公開されている TPC-DS 標準TPC-H 標準の結果と比較することはできません。

Dataproc によるマネージド Spark、Hadoop、OSS クラスタ

Dataproc は、Spark、Hadoopをはじめ、30 以上のオープンソース ツールの広大なエコシステムを専用にデプロイして運用するための、フルマネージドでスケーラビリティの高いサービスです。Google Compute Engine 上の Dataproc(プレミアム ティア)向け Lightning Engine など、幅広い Google Cloud プロダクトやサービスとの統合により、データレイクのモダナイゼーション、効率的な ETL パイプライン、クラスタ制御が不可欠な安全な大規模データ サイエンス イニシアチブに最適です。

Google Cloud 上の Apache Spark を使用したデータ サイエンス

Google Cloud Serverless for Apache Spark のゼロオペレーションのシンプルさや、マネージド Dataproc クラスタの制御を好むかどうかにかかわらず、ML ライフサイクル全体を加速できます。以下はメリットです。

  • シームレスな統合: データアクセスのための BigQuery と MLOps のための Vertex AI を簡単に接続し、エンドツーエンドのデータ サイエンス パイプラインを構築できます。
  • デベロッパーの生産性: Gemini を活用して、BigQuery StudioVertex AI Workbench などのノートブック環境でコーディングの分析情報と支援を利用できます。
  • AI/ML の準備: サーバーレス Spark クラスタと Dataproc クラスタの両方で利用可能な、事前パッケージ化された ML ライブラリと GPU アクセラレーションを、要求の厳しいトレーニングと推論のタスクに活用します。
  • イテレーションの高速化: どの方法を選択しても、開発とテストに集中できます。

Vertex AI を介した Spark

Vertex AI を使用して、データ サイエンス向けの Spark をシームレスに開発、運用できます。Vertex AI Workbench から Spark を使用して、組み込みのセキュリティと Gemini の支援によるインタラクティブな開発を行います。堅牢な MLOps のために、Spark 処理を Vertex AI Pipelines に統合します。

レイクハウスのオープンソースのテーブル形式のサポート

Google Cloud の Spark サービスは、Apache Iceberg、Delta Lake、Hudi などのオープンソースの形式との堅牢な互換性を備えています。BigLake Metastore または Dataproc Metastore を活用して、さまざまな形式のメタデータを統合的に管理し、任意の Spark エンジンでデータを処理できるオープンなレイクハウス アーキテクチャを実現します。


Apache は Apache Software Foundation の商標です。

次のステップ

問題点をお知らせください。Google Cloud のエキスパートが、最適なソリューションを見つけるお手伝いをいたします。

  • Google Cloud プロダクト
  • 100 種類を超えるプロダクトをご用意しています。新規のお客様には、ワークロードの実行、テスト、デプロイができる無料クレジット $300 分を差し上げます。また、すべてのお客様に 25 以上のプロダクトを無料でご利用いただけます(毎月の使用量上限があります)。
Google Cloud