1. Introducción
Uno de los componentes principales de Apache Spark es Spark ML, una biblioteca para compilar modelos y canalizaciones de aprendizaje automático compilados sobre el motor de Apache Spark. Del sitio web, contiene herramientas como las siguientes:
- Algoritmos de AA: algoritmos comunes de aprendizaje, como clasificación, regresión, agrupamiento en clústeres y filtrado colaborativo
- Transformación de atributos: extracción de atributos, transformación, reducción de la dimensionalidad y selección
- Canalizaciones: herramientas para crear, evaluar y ajustar las canalizaciones de AA
- Persistencia: Guarda y carga algoritmos, modelos y canalizaciones
- Utilidades: álgebra lineal, estadística, manejo de datos, etc.
En este codelab, aprenderás a crear un modelo de AA de Spark con un notebook.
2. Habilita las APIs
Para este codelab, debes habilitar las siguientes APIs:
Haz clic en este vínculo para habilitar estas APIs en tu proyecto. Cuando se te solicite, confirma que las APIs se habilitarán en el proyecto correcto.
3. Crea una instancia de Vertex AI Workbench y conéctate a ella
En esta sección, crearás una instancia de Vertex AI Workbench. Luego, te conectarás a él, clonarás un repositorio de GitHub y ejecutarás un notebook.
Para crear la instancia de Vertex AI Workbench, puedes seguir las instrucciones o seguir las instrucciones que se indican a continuación.
- Ve a la página de la consola de Notebooks administrados.
- Haz clic en NUEVO NOTEBOOK (NEW NOTEBOOK).
- Proporciona un nombre y elige una región, como us-central1 (Iowa). Lo ideal es que coincida con la región seleccionada antes en el codelab, aunque no es obligatorio.
- En Permiso, selecciona Solo usuario único.
- Abre el menú desplegable Configuración avanzada.
- En Seguridad (Security), selecciona Habilitar nbconvert (Enable nbconvert) y Habilitar terminal.
- Haga clic en CREAR.
La instancia debería aprovisionarse en unos cinco minutos. Cuando la instancia esté lista, verás una marca de verificación verde junto al nombre del notebook.
Cuando la instancia esté lista, haz clic en ABRIR JUPYTERLAB. Autentica cuando se te solicite hacerlo y habilita todos los permisos.
4. Crea modelos con Spark ML desde un notebook
Después de que se cargue la instancia de JupyterLab, estarás en la pestaña Selector. En esta pestaña, en Otro, haz clic en Terminal para abrir una terminal nueva.
En la terminal, clona el repositorio de muestras de Vertex AI.
git clone https://github.com/GoogleCloudPlatform/vertex-ai-samples.git
En la pestaña del navegador de archivos, navega a vertex-ai-samples/notebooks/Official/workbench/spark. Haz doble clic en el notebook spark_ml.ipynb para abrirlo. Cuando se te solicite que selecciones un kernel, elige Python (local).
Ejecuta cada celda a medida que avanzas y repasa los pasos del notebook. Sigue las instrucciones que se indican en las celdas.
5. Limpia los recursos
Para evitar que se generen cargos innecesarios en tu cuenta de GCP después de completar este codelab, haz lo siguiente:
- Borra tu instancia de Workbench. En la consola, marca la casilla junto a tu instancia y haz clic en BORRAR.
Si creaste un proyecto solo para este codelab, también puedes borrarlo de manera opcional:
- En GCP Console, ve a la página Proyectos.
- En la lista de proyectos, selecciona el que quieres borrar y haz clic en Borrar.
- En el cuadro, escribe el ID del proyecto y, luego, haz clic en Cerrar para borrarlo.