使用 Google Dataproc 创建 Spark ML 模型

1. 简介

Apache Spark 的核心组件之一是 Spark ML,这是一个用于构建基于 Apache Spark 引擎构建的机器学习模型和流水线的库。该网站提供如下工具:

  • 机器学习算法:分类、回归、聚类和协同过滤等常见的学习算法
  • 特征化:特征提取、转换、降维和选择
  • 流水线:用于构建、评估和优化机器学习流水线的工具
  • 持久性:保存和加载算法、模型和流水线
  • 实用工具:线性代数、统计学、数据处理等

在此 Codelab 中,您将学习如何使用笔记本创建 Spark ML 模型。

2. 启用 API

对于此 Codelab,您必须启用以下 API:

点击此链接可在您的项目中启用这些 API。出现提示时,确认将在正确的项目中启用 API。

3. 创建并连接到 Vertex AI Workbench 实例

在本部分中,您将创建一个 Vertex AI Workbench 实例。然后,您将连接到该代码库、克隆 GitHub 代码库并运行笔记本。

如需创建 Vertex AI Workbench 实例,您可以按照相关说明操作,也可以按照以下说明操作。

  1. 转到代管式笔记本控制台页面。
  2. 点击新建笔记本
  3. 提供名称并选择区域,例如 us-central1(爱荷华)。理想情况下,此区域应与此 Codelab 前面选择的区域相匹配,但并非强制性要求。
  4. 权限下方,选择仅限单个用户
  5. 打开高级设置下拉菜单。
  6. 安全性下,选择启用 nbconvert,然后选择启用终端
  7. 点击创建

该实例应该会在大约五分钟内完成预配。实例准备就绪后,您会在笔记本名称旁边看到一个绿色对勾标记。

实例准备就绪后,点击打开 JUPYTERLAB。在系统提示您执行该操作时进行身份验证,并启用所有权限。

4. 在笔记本中使用 Spark ML 构建模型

JupyterLab 实例加载后,您将进入启动器标签页。在此标签页中,在 Other 下,点击 Terminal 以打开新终端。

在终端中,克隆 Vertex AI Samples 代码库。

git clone https://github.com/GoogleCloudPlatform/vertex-ai-samples.git

文件浏览器标签页中,前往 vertex-ai-samples/notebooks/official/workbench/spark。双击笔记本 spark_ml.ipynb 将其打开。当系统提示您选择内核时,请选择 Python (local)

请在操作过程中执行每个单元,了解笔记本的各个步骤。按照单元格中的说明进行操作。

5. 清理资源

为避免在完成此 Codelab 后向您的 GCP 账号产生不必要的费用,请执行以下操作:

  1. 删除您的 Workbench 实例。在控制台中,选中您的实例旁边的复选框,然后点击删除

如果您专门为此 Codelab 创建了一个项目,也可以选择删除该项目:

  1. 在 GCP Console 中,转到项目页面。
  2. 在项目列表中,选择要删除的项目,然后点击“删除”。
  3. 在框中输入项目 ID,然后点击“关停”以删除项目。