1. Wprowadzenie
Jednym z podstawowych komponentów Apache Spark jest Spark ML – biblioteka do tworzenia modeli systemów uczących się i potoków opartych na silniku Apache Spark. Zawiera ona takie narzędzia jak:
- Algorytmy ML: popularne algorytmy uczenia się takie jak klasyfikacja, regresja, grupowanie i filtrowanie oparte na współpracy
- Featuryzacja: wyodrębnianie cech, przekształcanie, redukcja wymiarów i wybór.
- Potoki: narzędzia do tworzenia, oceniania i dostrajania ML Pipelines
- Trwałość: zapisywanie i wczytywanie algorytmów, modeli oraz potoków
- Narzędzia: algebra liniowa, statystyki, obsługa danych itp.
Z tego ćwiczenia w Codelabs dowiesz się, jak utworzyć model Spark ML za pomocą notatnika.
2. Włącz interfejsy API
W ramach tego ćwiczenia w Codelabs musisz włączyć te interfejsy API:
Kliknij ten link, aby włączyć te interfejsy API w swoim projekcie. Gdy pojawi się prośba, sprawdź, czy interfejsy API zostaną włączone w odpowiednim projekcie.
3. Tworzenie instancji Vertex AI Workbench i łączenie się z nią
W tej sekcji utworzysz instancję Vertex AI Workbench. Następnie połączysz się z nim, sklonujesz repozytorium GitHub i uruchomisz notatnik.
Aby utworzyć instancję Vertex AI Workbench, możesz wykonać instrukcje lub opisane poniżej.
- Otwórz stronę konsoli zarządzanych notatników.
- Kliknij NOWY NOTATNIK.
- Podaj nazwę i wybierz region, np. us-central1 (Iowa). Powinny one pasować do regionu wybranego wcześniej w ćwiczeniach z programowania, ale nie jest to obowiązkowe.
- W sekcji Uprawnienia wybierz Tylko pojedynczy użytkownik.
- Otwórz menu Ustawienia zaawansowane.
- W sekcji Zabezpieczenia wybierz Włącz nbconvert i Włącz terminal.
- Kliknij UTWÓRZ.
Instancja powinna zostać udostępniona w ciągu około 5 minut. Gdy instancja będzie gotowa, obok nazwy notatnika pojawi się zielony znacznik wyboru.
Gdy instancja będzie gotowa, kliknij OTWÓRZ JUPYTERLAB. Uwierzytelnij się, gdy pojawi się prośba o wykonanie i włączenie wszystkich uprawnień.
4. Tworzenie modeli za pomocą Spark ML z poziomu notatnika
Po wczytaniu instancji JupyterLab przejdziesz na kartę Menu z aplikacjami. Na tej karcie w sekcji Inne kliknij Terminal, aby otworzyć nowy terminal.
W terminalu skopiuj repozytorium Vertex AI Samples.
git clone https://github.com/GoogleCloudPlatform/vertex-ai-samples.git
Na karcie Przeglądarka plików otwórz vertex-ai-samples/notebooks/Official/workbench/spark. Otwórz notatnik spark_ml.ipynb, klikając go dwukrotnie. Gdy pojawi się prośba o wybranie jądra, wybierz Python (lokalny).
Przejdź przez kolejne etapy notatnika, wykonując poszczególne komórki. Postępuj zgodnie z instrukcjami w komórkach.
5. Czyszczenie zasobów
Aby po ukończeniu tego ćwiczenia z programowania uniknąć niepotrzebnych opłat na koncie GCP:
- usunąć instancję Workbench. W konsoli zaznacz pole obok swojej instancji i kliknij USUŃ.
Jeśli Twój projekt został utworzony tylko na potrzeby tego ćwiczenia z programowania, możesz go też opcjonalnie usunąć:
- W konsoli GCP otwórz stronę Projekty.
- Na liście projektów wybierz projekt do usunięcia, a następnie kliknij Usuń.
- W polu wpisz identyfikator projektu i kliknij Wyłącz, aby usunąć projekt.