1. परिचय
Apache Spark के मुख्य कॉम्पोनेंट में से एक Spark ML है. यह Apache Spark इंजन पर बने मशीन लर्निंग मॉडल और पाइपलाइन बनाने के लिए, एक लाइब्रेरी है. वेबसाइट पर, इसमें ये टूल शामिल हैं:
- एमएल एल्गोरिदम: लर्निंग के सामान्य एल्गोरिदम, जैसे कि क्लासिफ़िकेशन, रिग्रेशन, क्लस्टरिंग, और कोलैबरेटिव फ़िल्टरिंग
- फ़ैचुरेशन: सुविधा एक्सट्रैक्शन, ट्रांसफ़ॉर्मेशन, डाइमेंशनलिटी रिडक्शन, और चुनना
- पाइपलाइन: एमएल पाइपलाइन बनाने, उसका आकलन करने, और उसे ट्यून करने में इस्तेमाल होने वाले टूल
- स्थिरता: एल्गोरिदम, मॉडल, और पाइपलाइन को सेव और लोड करना
- उपयोगिताएं: लीनियर अलजेब्रा, आंकड़े, डेटा मैनेज करना वगैरह.
इस कोडलैब में, नोटबुक का इस्तेमाल करके Spark ML मॉडल बनाने का तरीका बताया गया है.
2. एपीआई चालू करें
इस कोडलैब के लिए, आपको नीचे दिए गए एपीआई चालू करने होंगे:
अपने प्रोजेक्ट में इन एपीआई को चालू करने के लिए, इस लिंक पर क्लिक करें. जब कहा जाए, तब पुष्टि करें कि एपीआई सही प्रोजेक्ट में चालू किए जाएंगे.
3. Vertex AI Workbench इंस्टेंस बनाएं और उससे कनेक्ट करें
इस सेक्शन में, Vertex AI Workbench इंस्टेंस बनाया जाएगा. इसके बाद, इससे कनेक्ट करें, GitHub रिपॉज़िटरी का क्लोन बनाएं, और नोटबुक चलाएं.
Vertex AI Workbench इंस्टेंस बनाने के लिए, निर्देशों या यहां दिए गए निर्देशों का पालन करें.
- मैनेज किए जा रहे नोटबुक कंसोल पेज पर जाएं.
- नई नोटबुक पर क्लिक करें.
- कोई नाम दें और कोई क्षेत्र चुनें, जैसे कि us-central1 (आयोवा). आम तौर पर, यह कोडलैब में पहले चुने गए इलाके से मेल खाना चाहिए. हालांकि, यह ज़रूरी नहीं है.
- अनुमति में जाकर, सिर्फ़ एक उपयोगकर्ता के लिए चुनें.
- बेहतर सेटिंग ड्रॉपडाउन खोलें.
- सुरक्षा में जाकर, nbconvert चालू करें और टर्मिनल चालू करें चुनें.
- बनाएं पर क्लिक करें.
इस इंस्टेंस को करीब पांच मिनट के अंदर प्रावधान कर दिया जाना चाहिए. इंस्टेंस तैयार होने पर, आपको नोटबुक के नाम के बगल में हरे रंग का सही का निशान दिखेगा.
इंस्टेंस तैयार होने पर, JUPYTERLAB खोलें पर क्लिक करें. जब आपसे कहा जाए, तब सभी अनुमतियों की पुष्टि करें और उन्हें चालू करें.
4. नोटबुक से स्पार्क एमएल की मदद से मॉडल बनाएं
JupyterLab इंस्टेंस लोड होने के बाद, आप लॉन्चर टैब पर पहुंच जाते हैं. इस टैब में, अन्य के अंतर्गत एक नया टर्मिनल खोलने के लिए Terminal पर क्लिक करें.
टर्मिनल में, Vertex AI samples डेटा स्टोर करने की जगह का क्लोन बनाएं.
git clone https://github.com/GoogleCloudPlatform/vertex-ai-samples.git
फ़ाइल ब्राउज़र टैब में, version-ai-सैंपल/notebooks/आधिकारिक/workbench/spark पर जाएं. नोटबुक spark_ml.ipynb पर दो बार क्लिक करके उसे खोलें. कर्नेल चुनने के लिए जब कहा जाए, तब Python (local) चुनें.
इसका इस्तेमाल करके, notebook के चरणों को पूरा करने के लिए, हर सेल को एक्ज़ीक्यूट करें. सेल में दिए गए निर्देशों का पालन करें.
5. संसाधनों का इस्तेमाल करना
कोडलैब का यह मॉड्यूल पूरा होने के बाद, आपके GCP खाते पर बेवजह शुल्क न लगे. इसके लिए:
- अपना Workbench इंस्टेंस मिटाएं. कंसोल में जाकर, अपने इंस्टेंस के बगल में मौजूद बॉक्स को चुनें. इसके बाद, मिटाएं पर क्लिक करें.
अगर आपने सिर्फ़ इस कोडलैब के लिए कोई प्रोजेक्ट बनाया है, तो आपके पास उसे मिटाने का विकल्प भी होता है:
- GCP कंसोल में, प्रोजेक्ट पेज पर जाएं.
- प्रोजेक्ट की सूची में, वह प्रोजेक्ट चुनें जिसे आपको मिटाना है. इसके बाद, 'मिटाएं' पर क्लिक करें.
- बॉक्स में, प्रोजेक्ट आईडी लिखें और फिर प्रोजेक्ट मिटाने के लिए शट डाउन करें पर क्लिक करें.