1. 簡介
Apache Spark 的核心元件之一是 Spark ML,這是一種程式庫,可用於建構機器學習模型,並以 Apache Spark 引擎為基礎建構管道。其中包含下列工具:
- 機器學習演算法:常見學習演算法,例如分類、迴歸、分群和協同過濾
- 特徵化:擷取特徵、轉換、降低維度及選取
- 管道:用於建構、評估和調整機器學習管道的工具
- 持續性:儲存及載入演算法、模型和管道
- 公用程式:線性代數、統計資料、資料處理等
在這個程式碼研究室中,您將瞭解如何使用筆記本建立 Spark 機器學習模型。
2. 啟用 API
在這個程式碼研究室中,您必須啟用下列 API:
按一下這個連結,即可在專案中啟用這些 API。系統顯示提示時,確認 API 會在正確的專案中啟用。
3. 建立並連結 Vertex AI Workbench 執行個體
在本節中,您將建立 Vertex AI Workbench 執行個體。然後進行連線、複製 GitHub 存放區並執行筆記本。
如要建立 Vertex AI Workbench 執行個體,請按照操作說明操作,或按照以下步驟操作。
- 前往「Managed Notebooks」(代管筆記本) 控制台頁面。
- 按一下「新增筆記本」。
- 提供名稱並選擇區域,例如 us-central1 (愛荷華州)。理想情況下,這應與先前在程式碼研究室中選取的區域相符,但並非強制規定。
- 在「權限」下方選取「僅限單一使用者」。
- 開啟「進階設定」下拉式選單。
- 在「安全性」下方,依序選取「啟用 nbconvert」和「啟用終端機」。
- 按一下 [建立]。
執行個體應該會在五分鐘內佈建完成。執行個體準備就緒之後,「筆記本名稱」旁會顯示綠色勾號。
執行個體準備就緒之後,按一下「開啟 JUPYTERLAB」。在系統提示時進行驗證,並啟用所有權限。
4. 從筆記本使用 Spark ML 建構模型
載入 JupyterLab 執行個體後,您位於「啟動器」分頁中。在這個分頁中,按一下「Other」(其他) 下方的「Terminal」(終端機),即可開啟新的終端機。
在終端機中,複製 Vertex AI 範例存放區。
git clone https://github.com/GoogleCloudPlatform/vertex-ai-samples.git
在「File Browser」(檔案瀏覽器) 分頁中,前往 vertex-ai-samples/notebooks/Official/workbench/spark。按兩下筆記本 spark_ml.ipynb 來開啟筆記本。系統提示您選取核心時,請選取「Python (local)」。
一邊執行各個儲存格,一邊執行筆記本的各個步驟。請按照儲存格中的指示操作。
5. 清除資源
完成本程式碼研究室之後,如要避免系統向您的 GCP 帳戶收取不必要的費用,請按照下列步驟操作:
- 刪除 Workbench 執行個體。在控制台中,勾選執行個體旁邊的方塊,然後按一下「刪除」。
如果您只針對本程式碼研究室建立專案,也可以選擇刪除專案: