使用 Google Dataproc 建立 Spark 機器學習模型

1. 簡介

Apache Spark 的核心元件之一是 Spark ML,這是一種程式庫,可用於建構機器學習模型,並以 Apache Spark 引擎為基礎建構管道。其中包含下列工具:

  • 機器學習演算法:常見學習演算法,例如分類、迴歸、分群和協同過濾
  • 特徵化:擷取特徵、轉換、降低維度及選取
  • 管道:用於建構、評估和調整機器學習管道的工具
  • 持續性:儲存及載入演算法、模型和管道
  • 公用程式:線性代數、統計資料、資料處理等

在這個程式碼研究室中,您將瞭解如何使用筆記本建立 Spark 機器學習模型。

2. 啟用 API

在這個程式碼研究室中,您必須啟用下列 API:

按一下這個連結,即可在專案中啟用這些 API。系統顯示提示時,確認 API 會在正確的專案中啟用。

3. 建立並連結 Vertex AI Workbench 執行個體

在本節中,您將建立 Vertex AI Workbench 執行個體。然後進行連線、複製 GitHub 存放區並執行筆記本。

如要建立 Vertex AI Workbench 執行個體,請按照操作說明操作,或按照以下步驟操作。

  1. 前往「Managed Notebooks」(代管筆記本) 控制台頁面。
  2. 按一下「新增筆記本」
  3. 提供名稱並選擇區域,例如 us-central1 (愛荷華州)。理想情況下,這應與先前在程式碼研究室中選取的區域相符,但並非強制規定。
  4. 在「權限」下方選取「僅限單一使用者」
  5. 開啟「進階設定」下拉式選單。
  6. 在「安全性」下方,依序選取「啟用 nbconvert」和「啟用終端機」
  7. 按一下 [建立]

執行個體應該會在五分鐘內佈建完成。執行個體準備就緒之後,「筆記本名稱」旁會顯示綠色勾號。

執行個體準備就緒之後,按一下「開啟 JUPYTERLAB」。在系統提示時進行驗證,並啟用所有權限。

4. 從筆記本使用 Spark ML 建構模型

載入 JupyterLab 執行個體後,您位於「啟動器」分頁中。在這個分頁中,按一下「Other」(其他) 下方的「Terminal」(終端機),即可開啟新的終端機。

在終端機中,複製 Vertex AI 範例存放區。

git clone https://github.com/GoogleCloudPlatform/vertex-ai-samples.git

在「File Browser」(檔案瀏覽器) 分頁中,前往 vertex-ai-samples/notebooks/Official/workbench/spark。按兩下筆記本 spark_ml.ipynb 來開啟筆記本。系統提示您選取核心時,請選取「Python (local)」

一邊執行各個儲存格,一邊執行筆記本的各個步驟。請按照儲存格中的指示操作。

5. 清除資源

完成本程式碼研究室之後,如要避免系統向您的 GCP 帳戶收取不必要的費用,請按照下列步驟操作:

  1. 刪除 Workbench 執行個體。在控制台中,勾選執行個體旁邊的方塊,然後按一下「刪除」

如果您只針對本程式碼研究室建立專案,也可以選擇刪除專案:

  1. 在 GCP Console 中,前往「Projects」(專案) 頁面。
  2. 在專案清單中,選取要刪除的專案,然後按一下 [刪除]。
  3. 在方塊中輸入專案 ID,然後按一下「關閉」以刪除專案。