Google Cloud で Spark の可能性を最大限に引き出しましょう。高速処理、AI アシスタンス、シームレスなオープン レイクハウス接続を活用した、サーバーレスの使いやすさか、クラスタ制御を選択できます。
利点
サーバーレス Spark による運用の簡素化
Apache Spark 用 Google Cloud サーバーレスは、即時の自動スケーリングとほぼゼロの構成を実現します。Lightning Engine(プレビュー版)でクエリ パフォーマンスが 3.6 倍に向上*しました。Dataplex ユニバーサル カタログ はメタデータを統合し、オペレーションを簡素化します。
好みの方法で Spark を実行
画一的なアプローチは通用しません。Google Cloud では、Spark ワークロードにサーバーレス、マネージド クラスタ、コンピューティング クラスタの中から柔軟に選択できます。
主な機能
Google Cloud Serverless for Apache Spark を使用して、Lightning Engine* と Gemini で生産性とパフォーマンスを向上させます。このエクスペリエンスは、BigQuery から直接 Apache Spark と SQL ワークロードを実行するための高度に統合された環境です。統合されたセキュリティ、BigLake metastore を使用したランタイム メタデータ、Dataplex ユニバーサル カタログによるガバナンスを提供します。統合された CI/CD、ノートブック内の Gemini で生産性を最大化し、Apache Spark クラスタ管理を排除します。
* クエリは TPC-DS 標準と TPC-H 標準から派生したものであり、TPC-DS 標準と TPC-H 標準の仕様のすべての要件に準拠していないため、公開されている TPC-DS 標準と TPC-H 標準の結果と比較することはできません。
Dataproc は、Spark、Hadoopをはじめ、30 以上のオープンソース ツールの広大なエコシステムを専用にデプロイして運用するための、フルマネージドでスケーラビリティの高いサービスです。Google Compute Engine 上の Dataproc(プレミアム ティア)向け Lightning Engine など、幅広い Google Cloud プロダクトやサービスとの統合により、データレイクのモダナイゼーション、効率的な ETL パイプライン、クラスタ制御が不可欠な安全な大規模データ サイエンス イニシアチブに最適です。
Google Cloud Serverless for Apache Spark のゼロオペレーションのシンプルさや、マネージド Dataproc クラスタの制御を好むかどうかにかかわらず、ML ライフサイクル全体を加速できます。以下はメリットです。
Vertex AI を使用して、データ サイエンス向けの Spark をシームレスに開発、運用できます。Vertex AI Workbench から Spark を使用して、組み込みのセキュリティと Gemini の支援によるインタラクティブな開発を行います。堅牢な MLOps のために、Spark 処理を Vertex AI Pipelines に統合します。
Google Cloud の Spark サービスは、Apache Iceberg、Delta Lake、Hudi などのオープンソースの形式との堅牢な互換性を備えています。BigLake Metastore または Dataproc Metastore を活用して、さまざまな形式のメタデータを統合的に管理し、任意の Spark エンジンでデータを処理できるオープンなレイクハウス アーキテクチャを実現します。
Apache は Apache Software Foundation の商標です。