Google Dataproc ile Spark ML modelleri oluşturma

1. Giriş

Apache Spark'ın temel bileşenlerinden biri, Apache Spark motorunun üzerinde derlenen makine öğrenimi modelleri ve ardışık düzenler oluşturmaya yönelik bir kitaplık olan Spark ML'dir. Web sitesinde aşağıdaki gibi araçları içerir:

  • ML Algoritmaları: Sınıflandırma, regresyon, kümeleme ve ortak çalışmaya dayalı filtreleme gibi yaygın öğrenme algoritmaları
  • Özellik çıkarma: özellik çıkarma, dönüştürme, boyutluluk azaltma ve seçme
  • Ardışık düzenler: ML Ardışık Düzenlerini oluşturmaya, değerlendirmeye ve ayarlamaya yönelik araçlar
  • Kalıcılık: algoritmaları, modelleri ve Ardışık Düzenleri kaydetme ve yükleme
  • Yardımcı programlar: doğrusal cebir, istatistik, veri işleme vb.

Bu codelab'de, not defteri kullanarak Spark ML modeli oluşturmayı öğreneceksiniz.

2. API'leri etkinleştir

Bu codelab için aşağıdaki API'leri etkinleştirmeniz gerekir:

Projenizde bu API'leri etkinleştirmek için bu bağlantıyı tıklayın. İstendiğinde API'lerin doğru projede etkinleştirileceğini onaylayın.

3. Vertex AI Workbench örneği oluşturma ve örneğe bağlanma

Bu bölümde Vertex AI Workbench örneği oluşturacaksınız. Ardından bu depoya bağlanacak, bir GitHub deposunu klonlayacak ve bir not defteri çalıştıracaksınız.

Vertex AI Workbench örneğini oluşturmak için talimatları veya aşağıdaki talimatları uygulayabilirsiniz.

  1. Yönetilen Not defterleri konsol sayfasına gidin.
  2. YENİ NOT DEFTER'i tıklayın.
  3. Bir ad girip us-central1 (Iowa) gibi bir bölge seçin. Bu, zorunlu olmasa da ideal olarak codelab'de daha önce seçilen bölgeyle eşleşmelidir.
  4. İzin bölümünde Yalnızca tek kullanıcı'yı seçin.
  5. Gelişmiş Ayarlar açılır listesini açın.
  6. Güvenlik altında, nbconvert'i etkinleştir ve Terminali etkinleştir'i seçin.
  7. OLUŞTUR'u tıklayın.

Örneğin yaklaşık beş dakika içinde sağlanır. Örnek hazır olduğunda Not defteri adı alanının yanında yeşil bir onay işareti görürsünüz.

Örnek hazır olduğunda JUPYTERLAB'I AÇ'ı tıklayın. İstendiğinde kimlik doğrulaması yapın ve tüm izinleri etkinleştirin.

4. Not defterinden Spark ML ile model derleme

JupyterLab örneği yüklendikten sonra Launcher (Başlatıcı) sekmesindesiniz. Bu sekmede, Diğer'in altında Terminal'i tıklayarak yeni bir Terminal açın.

Terminalde Vertex AI Samples deposunu klonlayın.

git clone https://github.com/GoogleCloudPlatform/vertex-ai-samples.git

Dosya Tarayıcısı sekmesinde vertex-ai-samples/notebook/Official/workbench/spark'a gidin. spark_ml.ipynb not defterini çift tıklayarak açın. Çekirdek seçmeniz istendiğinde Python (local) seçeneğini belirleyin.

İlerlerken her hücreyi yürüterek not defterindeki adımları tek tek uygulayın. Hücrelerdeki talimatları uygulayın.

5. Kaynakları temizleyin

Bu codelab tamamlandıktan sonra GCP hesabınızdan gereksiz ücretler alınmasını önlemek için:

  1. Workbench örneğinizi silin. Konsolda, örneğinizin yanındaki kutuyu işaretleyin ve SİL'i tıklayın.

Sadece bu codelab için proje oluşturduysanız dilerseniz projeyi silebilirsiniz:

  1. GCP Console'da Projeler sayfasına gidin.
  2. Proje listesinde, silmek istediğiniz projeyi seçin ve Sil'i tıklayın.
  3. Kutuya proje kimliğini yazın ve projeyi silmek için Kapat'ı tıklayın.