Google Dataproc で Spark ML モデルを作成する

残り 31 分

この Codelab について

最終更新: 10月 12, 2022

作成者: Brad Miro

1. はじめに

Apache Spark のコアコンポーネントの一つに Spark ML があります。これは、Apache Spark エンジン上に構築された ML モデルやパイプラインを構築するためのライブラリです。この Web サイトには、次のようなツールが含まれています。

ML アルゴリズム: 分類、回帰、クラスタリング、協調フィルタリングなどの一般的な学習アルゴリズム
特徴量化: 特徴量の抽出、変換、次元削減、選択
パイプライン: ML パイプラインを構築、評価、チューニングするためのツール
永続性: アルゴリズム、モデル、パイプラインの保存と読み込み
ユーティリティ: 線形代数、統計、データ処理など

この Codelab では、ノートブックを使用して Spark ML モデルを作成する方法を学びます。

2. API を有効にする

この Codelab では、次の API を有効にする必要があります。

このリンクをクリックして、プロジェクトでこれらの API を有効にします。プロンプトが表示されたら、正しいプロジェクトで API を有効にすることを確認します。

3. Vertex AI Workbench インスタンスを作成して接続する

このセクションでは、Vertex AI Workbench インスタンスを作成します。その後、そのリポジトリに接続し、GitHub リポジトリのクローンを作成してノートブックを実行します。

Vertex AI Workbench インスタンスを作成するには、手順または以下の手順を行います。

[マネージドノートブック] コンソールページに移動
[新しいノートブック] をクリックします。
名前を指定し、リージョン（us-central1（アイオワ）など）を選択します。必須ではありませんが、この Codelab で前に選択したリージョンと一致させるのが理想的です。
[権限] で [シングルユーザーのみ] を選択します。
[詳細設定] プルダウンを開きます。
[セキュリティ] で、[nbconvert を有効にする] と [ターミナルを有効にする] を選択します。
[作成] をクリックします。

インスタンスは約 5 分以内にプロビジョニングされます。インスタンスの準備が整うと、[ノートブック名] の横に緑色のチェックマークが表示されます。

インスタンスの準備ができたら、[JUPYTERLAB を開く] をクリックします。認証を求められたら認証を行い、すべての権限を有効にします。

4. ノートブックから Spark ML を使用してモデルを構築する

JupyterLab インスタンスが読み込まれると、[Launcher] タブが表示されます。このタブの [その他] で、[ターミナル] をクリックして新しいターミナルを開きます。

ターミナルで、Vertex AI サンプルリポジトリのクローンを作成します。

git clone https://github.com/GoogleCloudPlatform/vertex-ai-samples.git

[ファイルブラウザ] タブで、vertex-ai-samples/notebooks/canonical/workbench/spark に移動します。spark_ml.ipynb ノートブックをダブルクリックして開きます。カーネルを選択するように求められたら、[Python (local)] を選択します。

各セルを実行して、ノートブックの手順を進めてください。セル内の指示に沿って操作します。

5. リソースのクリーンアップ

この Codelab の完了後に GCP アカウントに不要な料金が発生しないようにするには:

Workbench インスタンスを削除します。コンソールで、インスタンスの横にあるチェックボックスをオンにして、[削除] をクリックします。

この Codelab 専用のプロジェクトを作成した場合は、必要に応じてプロジェクトを削除することもできます。

GCP Console でプロジェクトページに移動します。
プロジェクトリストで、削除するプロジェクトを選択し、[削除] をクリックします。
ボックスにプロジェクト ID を入力し、[シャットダウン] をクリックしてプロジェクトを削除します。

誤りを報告