Google Dataproc で Spark ML モデルを作成する

1. はじめに

Apache Spark のコア コンポーネントの一つに Spark ML があります。これは、Apache Spark エンジン上に構築された ML モデルやパイプラインを構築するためのライブラリです。この Web サイトには、次のようなツールが含まれています。

  • ML アルゴリズム: 分類、回帰、クラスタリング、協調フィルタリングなどの一般的な学習アルゴリズム
  • 特徴量化: 特徴量の抽出、変換、次元削減、選択
  • パイプライン: ML パイプラインを構築、評価、チューニングするためのツール
  • 永続性: アルゴリズム、モデル、パイプラインの保存と読み込み
  • ユーティリティ: 線形代数、統計、データ処理など

この Codelab では、ノートブックを使用して Spark ML モデルを作成する方法を学びます。

2. API を有効にする

この Codelab では、次の API を有効にする必要があります。

このリンクをクリックして、プロジェクトでこれらの API を有効にします。プロンプトが表示されたら、正しいプロジェクトで API を有効にすることを確認します。

3. Vertex AI Workbench インスタンスを作成して接続する

このセクションでは、Vertex AI Workbench インスタンスを作成します。その後、そのリポジトリに接続し、GitHub リポジトリのクローンを作成してノートブックを実行します。

Vertex AI Workbench インスタンスを作成するには、手順または以下の手順を行います。

  1. [マネージド ノートブック] コンソール ページに移動
  2. [新しいノートブック] をクリックします。
  3. 名前を指定し、リージョンus-central1(アイオワ)など)を選択します。必須ではありませんが、この Codelab で前に選択したリージョンと一致させるのが理想的です。
  4. [権限] で [シングル ユーザーのみ] を選択します。
  5. [詳細設定] プルダウンを開きます。
  6. [セキュリティ] で、[nbconvert を有効にする] と [ターミナルを有効にする] を選択します。
  7. [作成] をクリックします。

インスタンスは約 5 分以内にプロビジョニングされます。インスタンスの準備が整うと、[ノートブック名] の横に緑色のチェックマークが表示されます。

インスタンスの準備ができたら、[JUPYTERLAB を開く] をクリックします。認証を求められたら認証を行い、すべての権限を有効にします。

4. ノートブックから Spark ML を使用してモデルを構築する

JupyterLab インスタンスが読み込まれると、[Launcher] タブが表示されます。このタブの [その他] で、[ターミナル] をクリックして新しいターミナルを開きます。

ターミナルで、Vertex AI サンプル リポジトリのクローンを作成します。

git clone https://github.com/GoogleCloudPlatform/vertex-ai-samples.git

[ファイル ブラウザ] タブで、vertex-ai-samples/notebooks/canonical/workbench/spark に移動します。spark_ml.ipynb ノートブックをダブルクリックして開きます。カーネルを選択するように求められたら、[Python (local)] を選択します。

各セルを実行して、ノートブックの手順を進めてください。セル内の指示に沿って操作します。

5. リソースをクリーンアップする

この Codelab の完了後に GCP アカウントに不要な料金が発生しないようにするには:

  1. Workbench インスタンスを削除します。コンソールで、インスタンスの横にあるチェックボックスをオンにして、[削除] をクリックします。

この Codelab 専用のプロジェクトを作成した場合は、必要に応じてプロジェクトを削除することもできます。

  1. GCP Console でプロジェクト ページに移動します。
  2. プロジェクト リストで、削除するプロジェクトを選択し、[削除] をクリックします。
  3. ボックスにプロジェクト ID を入力し、[シャットダウン] をクリックしてプロジェクトを削除します。