1. 简介
Apache Spark 的核心组件之一是 Spark ML,这是一个用于构建基于 Apache Spark 引擎构建的机器学习模型和流水线的库。该网站提供如下工具:
- 机器学习算法:分类、回归、聚类和协同过滤等常见的学习算法
- 特征化:特征提取、转换、降维和选择
- 流水线:用于构建、评估和优化机器学习流水线的工具
- 持久性:保存和加载算法、模型和流水线
- 实用工具:线性代数、统计学、数据处理等
在此 Codelab 中,您将学习如何使用笔记本创建 Spark ML 模型。
2. 启用 API
对于此 Codelab,您必须启用以下 API:
点击此链接可在您的项目中启用这些 API。出现提示时,确认将在正确的项目中启用 API。
3. 创建并连接到 Vertex AI Workbench 实例
在本部分中,您将创建一个 Vertex AI Workbench 实例。然后,您将连接到该代码库、克隆 GitHub 代码库并运行笔记本。
如需创建 Vertex AI Workbench 实例,您可以按照相关说明操作,也可以按照以下说明操作。
- 转到代管式笔记本控制台页面。
- 点击新建笔记本。
- 提供名称并选择区域,例如 us-central1(爱荷华)。理想情况下,此区域应与此 Codelab 前面选择的区域相匹配,但并非强制性要求。
- 在权限下方,选择仅限单个用户。
- 打开高级设置下拉菜单。
- 在安全性下,选择启用 nbconvert,然后选择启用终端。
- 点击创建。
该实例应该会在大约五分钟内完成预配。实例准备就绪后,您会在笔记本名称旁边看到一个绿色对勾标记。
实例准备就绪后,点击打开 JUPYTERLAB。在系统提示您执行该操作时进行身份验证,并启用所有权限。
4. 在笔记本中使用 Spark ML 构建模型
JupyterLab 实例加载后,您将进入启动器标签页。在此标签页中,在 Other 下,点击 Terminal 以打开新终端。
在终端中,克隆 Vertex AI Samples 代码库。
git clone https://github.com/GoogleCloudPlatform/vertex-ai-samples.git
在文件浏览器标签页中,前往 vertex-ai-samples/notebooks/official/workbench/spark。双击笔记本 spark_ml.ipynb 将其打开。当系统提示您选择内核时,请选择 Python (local)。
请在操作过程中执行每个单元,了解笔记本的各个步骤。按照单元格中的说明进行操作。
5. 清理资源
为避免在完成此 Codelab 后向您的 GCP 账号产生不必要的费用,请执行以下操作:
- 删除您的 Workbench 实例。在控制台中,选中您的实例旁边的复选框,然后点击删除。
如果您专门为此 Codelab 创建了一个项目,也可以选择删除该项目:
- 在 GCP Console 中,转到项目页面。
- 在项目列表中,选择要删除的项目,然后点击“删除”。
- 在框中输入项目 ID,然后点击“关停”以删除项目。