Google Cloud は、他のクラウドベースの Apache Spark の代替ソリューションと比較して、18 ～ 60% の費用削減を実現できます。ESG レポートを取得する。

Google Cloud 上の Apache Spark

Google Cloud で Spark の可能性を最大限に引き出しましょう。高速処理、AI アシスタンス、シームレスなオープンレイクハウス接続を活用した、サーバーレスの使いやすさか、クラスタ制御を選択できます。

Dun & Bradstreet がデータワークフローを数分に短縮し、プロダクトの応答時間を 60% 短縮

2:46

利点

デベロッパーの生産性を高め、より高速なデータ分析情報を実現

すべてのデータユーザー向けのシームレスな Spark

BigQuery、Vertex AI、IDE でサーバーレスまたはマネージドクラスタを使用して、簡単に Spark を実行できます。カスタム統合を排除し、ETL から ML へのワークフローを合理化し、Gemini でコードとオペレーションの生産性を向上させます。

サーバーレス Spark による運用の簡素化

Apache Spark 用 Google Cloud サーバーレスは、即時の自動スケーリングとほぼゼロの構成を実現します。Lightning Engine（プレビュー版）でクエリパフォーマンスが 3.6 倍に向上*しました。Dataplex ユニバーサルカタログはメタデータを統合し、オペレーションを簡素化します。

好みの方法で Spark を実行

画一的なアプローチは通用しません。Google Cloud では、Spark ワークロードにサーバーレス、マネージドクラスタ、コンピューティングクラスタの中から柔軟に選択できます。

主な機能

Google Cloud で Spark を実行する優れた方法

Apache Spark 向けの Google Cloud サーバーレス

Google Cloud Serverless for Apache Spark を使用して、Lightning Engine* と Gemini で生産性とパフォーマンスを向上させます。このエクスペリエンスは、BigQuery から直接 Apache Spark と SQL ワークロードを実行するための高度に統合された環境です。統合されたセキュリティ、BigLake metastore を使用したランタイムメタデータ、Dataplex ユニバーサルカタログによるガバナンスを提供します。統合された CI/CD、ノートブック内の Gemini で生産性を最大化し、Apache Spark クラスタ管理を排除します。

* クエリは TPC-DS 標準と TPC-H 標準から派生したものであり、TPC-DS 標準と TPC-H 標準の仕様のすべての要件に準拠していないため、公開されている TPC-DS 標準と TPC-H 標準の結果と比較することはできません。

Dataproc によるマネージド Spark、Hadoop、OSS クラスタ

Dataproc は、Spark、Hadoopをはじめ、30 以上のオープンソースツールの広大なエコシステムを専用にデプロイして運用するための、フルマネージドでスケーラビリティの高いサービスです。Google Compute Engine 上の Dataproc（プレミアムティア）向け Lightning Engine など、幅広い Google Cloud プロダクトやサービスとの統合により、データレイクのモダナイゼーション、効率的な ETL パイプライン、クラスタ制御が不可欠な安全な大規模データサイエンスイニシアチブに最適です。

Google Cloud 上の Apache Spark を使用したデータサイエンス

Google Cloud Serverless for Apache Spark のゼロオペレーションのシンプルさや、マネージド Dataproc クラスタの制御を好むかどうかにかかわらず、ML ライフサイクル全体を加速できます。以下はメリットです。

シームレスな統合: データアクセスのための BigQuery と MLOps のための Vertex AI を簡単に接続し、エンドツーエンドのデータサイエンスパイプラインを構築できます。
デベロッパーの生産性: Gemini を活用して、BigQuery Studio や Vertex AI Workbench などのノートブック環境でコーディングの分析情報と支援を利用できます。
AI/ML の準備: サーバーレス Spark クラスタと Dataproc クラスタの両方で利用可能な、事前パッケージ化された ML ライブラリと GPU アクセラレーションを、要求の厳しいトレーニングと推論のタスクに活用します。
イテレーションの高速化: どの方法を選択しても、開発とテストに集中できます。

Vertex AI を介した Spark

Vertex AI を使用して、データサイエンス向けの Spark をシームレスに開発、運用できます。Vertex AI Workbench から Spark を使用して、組み込みのセキュリティと Gemini の支援によるインタラクティブな開発を行います。堅牢な MLOps のために、Spark 処理を Vertex AI Pipelines に統合します。

レイクハウスのオープンソースのテーブル形式のサポート

Google Cloud の Spark サービスは、Apache Iceberg、Delta Lake、Hudi などのオープンソースの形式との堅牢な互換性を備えています。BigLake Metastore または Dataproc Metastore を活用して、さまざまな形式のメタデータを統合的に管理し、任意の Spark エンジンでデータを処理できるオープンなレイクハウスアーキテクチャを実現します。

パートナー