Spark-ML-Modelle mit Google Dataproc erstellen

Restzeit 31 Min.

Informationen zu diesem Codelab

Zuletzt aktualisiert: Okt. 12, 2022

Verfasst von Brad Miro

1. Einführung

Eine der Kernkomponenten von Apache Spark ist Spark ML, eine Bibliothek zum Erstellen von Modellen für maschinelles Lernen und Pipelines, die auf der Apache Spark Engine basieren. Auf der Website finden Sie u. a. folgende Tools:

ML-Algorithmen: Gängige Lernalgorithmen wie Klassifizierung, Regression, Clustering und kollaboratives Filtern
Funktionen: Extraktion, Transformation, Dimensionalitätsreduzierung und Auswahl
Pipelines: Tools zum Erstellen, Auswerten und Optimieren von ML-Pipelines
Persistenz: Algorithmen, Modelle und Pipelines speichern und laden
Dienstprogramme: lineare Algebra, Statistik, Datenverarbeitung usw.

In diesem Codelab erfahren Sie, wie Sie ein Spark-ML-Modell mit einem Notebook erstellen.

2. APIs aktivieren

Für dieses Codelab müssen Sie die folgenden APIs aktivieren:

Klicken Sie auf diesen Link, um die APIs in Ihrem Projekt zu aktivieren. Wenn Sie dazu aufgefordert werden, bestätigen Sie, dass die APIs im richtigen Projekt aktiviert werden.

3. Vertex AI Workbench-Instanz erstellen und eine Verbindung dazu herstellen

In diesem Abschnitt erstellen Sie eine Vertex AI Workbench-Instanz. Sie stellen dann eine Verbindung zu diesem her, klonen ein GitHub-Repository und führen ein Notebook aus.

Zum Erstellen der Vertex AI Workbench-Instanz können Sie entweder der Anleitung oder den folgenden Schritten folgen.

Rufen Sie in der Konsole die Seite Verwaltete Notebooks auf.
Klicken Sie auf NEUES NOTEBOOK.
Geben Sie einen Namen an und wählen Sie eine Region wie us-central1 (Iowa) aus. Sie sollte idealerweise mit der Region übereinstimmen, die zuvor im Codelab ausgewählt wurde, auch wenn sie nicht obligatorisch ist.
Wählen Sie unter Berechtigung die Option Einzelner Nutzer aus.
Öffnen Sie das Drop-down-Menü Erweiterte Einstellungen.
Wählen Sie unter Sicherheit die Option nbconvert aktivieren und Terminal aktivieren aus.
Klicken Sie auf ERSTELLEN.

Die Instanz sollte innerhalb von etwa fünf Minuten bereitgestellt werden. Wenn die Instanz bereit ist, sehen Sie neben dem Notebook-Namen ein grünes Häkchen.

Wenn die Instanz bereit ist, klicken Sie auf JUPYTERLAB ÖFFNEN. Authentifizieren Sie sich, wenn Sie dazu aufgefordert werden, und aktivieren Sie alle Berechtigungen.

4. Modelle mit Spark ML auf einem Notebook erstellen

Nachdem die JupyterLab-Instanz geladen wurde, wird der Tab Launcher angezeigt. Klicken Sie auf diesem Tab unter Sonstiges auf Terminal, um ein neues Terminal zu öffnen.

Klonen Sie im Terminal das Repository von Vertex AI Samples.

git clone https://github.com/GoogleCloudPlatform/vertex-ai-samples.git

Gehen Sie im Tab Dateibrowser zu vertex-ai-samples/notebooks/official/workbench/spark. Öffnen Sie das Notebook spark_ml.ipynb durch Doppelklick. Wenn Sie zur Auswahl eines Kernels aufgefordert werden, wählen Sie Python (local) aus.

Gehen Sie die Schritte des Notebooks durch, indem Sie jede Zelle im laufenden Betrieb ausführen. Folgen Sie den Anweisungen in den Zellen.

5. Ressourcen bereinigen

So vermeiden Sie, dass Ihrem Google Cloud-Konto nach Abschluss dieses Codelabs unnötige Gebühren berechnet werden:

Löschen Sie Ihre Workbench-Instanz. Klicken Sie in der Konsole auf das Kästchen neben Ihrer Instanz und dann auf LÖSCHEN.

Wenn Sie ein Projekt nur für dieses Codelab erstellt haben, können Sie es auch löschen:

Rufen Sie in der GCP Console die Seite Projekte auf.
Wählen Sie in der Projektliste das Projekt aus, das Sie löschen möchten, und klicken Sie auf „Löschen“.
Geben Sie die Projekt-ID in das Feld ein und klicken Sie auf „Beenden“, um das Projekt zu löschen.

Fehler melden