1. परिचय
BigQuery, बिना सर्वर वाला, काफ़ी हद तक बढ़ाया जा सकने वाला, और किफायती डेटा वेयरहाउस है. बस अपना डेटा BigQuery में ट्रांसफ़र करें. इसके बाद, हम आपके लिए मुश्किल काम करेंगे, ताकि आप अपने कारोबार पर ध्यान दे सकें. आपके पास अपने कारोबार की ज़रूरतों के हिसाब से, प्रोजेक्ट और अपने डेटा के ऐक्सेस को कंट्रोल करने का विकल्प होता है. जैसे, दूसरों को अपना डेटा देखने या उससे जुड़े सवाल पूछने की अनुमति देना.
इस लैब में, आपको BigQuery की विश्लेषण से जुड़ी सुविधाओं के बारे में पता चलेगा. आपको Google Cloud Storage बकेट से डेटासेट इंपोर्ट करने का तरीका बताया जाएगा. साथ ही, रीटेल बैंकिंग डेटासेट का इस्तेमाल करके, BigQuery के यूज़र इंटरफ़ेस (यूआई) के बारे में जानकारी दी जाएगी. इसके अलावा, इस लैब में आपको BigQuery की उन मुख्य सुविधाओं के बारे में भी बताया जाएगा जिनकी मदद से, रोज़ाना के विश्लेषण को ज़्यादा आसानी से किया जा सकता है. जैसे, क्वेरी के नतीजों को स्प्रेडशीट में एक्सपोर्ट करना, क्वेरी के इतिहास से क्वेरी देखना और उन्हें चलाना, क्वेरी की परफ़ॉर्मेंस देखना, और अन्य टीमों और विभागों के इस्तेमाल के लिए टेबल व्यू बनाना.
आपको क्या सीखने को मिलेगा
इस लैब में, आपको ये टास्क करने का तरीका बताया जाएगा:
- BigQuery में नया डेटा लोड करना
- BigQuery के यूज़र इंटरफ़ेस (यूआई) के बारे में जानकारी
- BigQuery में क्वेरी चलाना
- क्वेरी परफ़ॉर्मेंस देखना
- BigQuery में व्यू बनाना
- डेटासेट को दूसरों के साथ सुरक्षित तरीके से शेयर करना
2. परिचय: BigQuery यूज़र इंटरफ़ेस (यूआई) के बारे में जानकारी
इस सेक्शन में, आपको BigQuery यूज़र इंटरफ़ेस (यूआई) को नेविगेट करने, उपलब्ध डेटासेट देखने, और सामान्य क्वेरी चलाने का तरीका बताया जाएगा.
BQ यूज़र इंटरफ़ेस (यूआई) लोड हो रहा है
- Google Cloud Platform Console में सबसे ऊपर मौजूद "BigQuery" टाइप करें.
- विकल्पों की सूची से BigQuery चुनें. BigQuery के लोगो और मैग्निफ़ाइंग ग्लास वाला विकल्प चुनें.
डेटासेट देखना और क्वेरी चलाना

- संसाधन सेक्शन में मौजूद बाएं पैनल में, अपने BigQuery प्रोजेक्ट पर क्लिक करें.
- उस डेटासेट में मौजूद टेबल देखने के लिए,
bq_demoपर क्लिक करें - खोजने के लिए लिखें बॉक्स में, "कार्ड" टाइप करें. इससे आपको उन टेबल और डेटासेट की सूची दिखेगी जिनके नाम में "कार्ड" शामिल है.
- खोज के नतीजों की सूची से, "card_transactions" टेबल चुनें

- इस टेबल का मेटाडेटा देखने के लिए,
card_transactionsपैनल में मौजूद जानकारी टैब पर क्लिक करें. - टेबल की झलक देखने के लिए, 'झलक देखें' टैब पर क्लिक करें
[Competitive Talking Point]: Google Data Catalog के साथ इंटिग्रेशन का मतलब है कि BigQuery के मेटाडेटा को अन्य डेटा सोर्स के साथ मैनेज किया जा सकता है. जैसे, डेटा लेक या ऑपरेशनल डेटा सोर्स. यह एक उदाहरण है, जिससे पता चलता है कि Google Cloud सिर्फ़ एक रिलेशनल डेटा वेयरहाउस नहीं है, बल्कि यह एक पूरा ऐनलिटिकल डेटा प्लैटफ़ॉर्म है.
- "card_transactions" टेबल के बारे में क्वेरी करने के लिए, मैग्नीफ़ाइंग ग्लास आइकॉन पर क्लिक करें. अपने-आप जनरेट हुआ टेक्स्ट, BigQuery क्वेरी एडिटर में भर जाएगा.
- Card_Transactions टेबल से अलग-अलग कारोबारियों या कंपनियों को दिखाने के लिए, यहां दिया गया कोड डालें
SELECT distinct (merchant) FROM bq_demo.card_transactions LIMIT 1000
- क्वेरी चलाने के लिए, 'चलाएं' बटन पर क्लिक करें.

3. डेटासेट बनाना और व्यू शेयर करना
डेटा शेयर करना और उसे मैनेज करना ज़रूरी है. इसे BQ के यूज़र इंटरफ़ेस (यूआई) में आसानी से किया जा सकता है. इस सेक्शन में, आपको नया डेटासेट बनाने, उसे व्यू से भरने, और उस डेटासेट को शेयर करने का तरीका बताया जाएगा.
क्वेरी का इतिहास देखना
- GCP Console के बाएं पैनल में मौजूद "क्वेरी का इतिहास" पर क्लिक करें
- क्वेरी के इतिहास वाले पैनल में, रीफ़्रेश करें पर क्लिक करें
- क्वेरी के नतीजे देखने के लिए, क्वेरी के सबसे दाईं ओर मौजूद, इमेज/ऐरो डाउनलोड करें पर क्लिक करें.

नया डेटासेट बनाना
- BigQuery के यूज़र इंटरफ़ेस (यूआई) के संसाधन पैनल में, [आपके प्रोजेक्ट का नाम] चुनें.
- प्रोजेक्ट की जानकारी वाले पैनल में जाकर, "नया डेटासेट बनाएं" चुनें
- डेटासेट आईडी के लिए:
bq_demo_shared
- अन्य सभी फ़ील्ड को डिफ़ॉल्ट के तौर पर छोड़ दें
- "डेटासेट बनाएं" पर क्लिक करें

व्यू बनाना
[प्रतिस्पर्धी के बारे में जानकारी]: BigQuery, पूरी तरह से एएनएसआई एसक्यूएल के साथ काम करता है. साथ ही, यह एक से ज़्यादा टेबल को आसानी से और मुश्किल तरीके से जोड़ने के साथ-साथ, बेहतर तरीके से विश्लेषण करने वाले फ़ंक्शन के साथ भी काम करता है. हमने माइग्रेशन की प्रोसेस को आसान बनाने के लिए, पारंपरिक डेटा वेयरहाउस में इस्तेमाल होने वाले सामान्य एसक्यूएल डेटा टाइप और फ़ंक्शन के लिए, बेहतर सहायता उपलब्ध कराई है.
- क्वेरी एडिटर पैनल में सबसे ऊपर मौजूद, "नई क्वेरी लिखें" को चुनें.
- क्वेरी एडिटर में यह कोड डालें
WITH revenue_by_month AS (
SELECT
card.type AS card_type,
FORMAT_DATE('%Y-%m', trans_date) as revenue_date,
SUM(amount) as revenue
FROM bq_demo.card_transactions
JOIN bq_demo.card ON card_transactions.cc_number = card.card_number
WHERE trans_date DATE_ADD(CURRENT_DATE, INTERVAL -1 YEAR)
GROUP BY card_type, revenue_date
)
SELECT
card_type,
revenue_date,
revenue as monthly_rev,
revenue - LAG(revenue) OVER (ORDER BY card_type, revenue_date ASC) as rev_change
FROM revenue_by_month
ORDER BY card_type, revenue_date ASC;
- "व्यू सेव करें" पर क्लिक करें
- प्रोजेक्ट के नाम के लिए, अपना मौजूदा प्रोजेक्ट चुनें
- नया डेटासेट चुनें:
bq_demo_shared
- टेबल के नाम के लिए:
rev_change_by_card_type
- 'सेव करें' पर क्लिक करें.

व्यू और डेटासेट शेयर करना
- BigQuery के यूज़र इंटरफ़ेस (यूआई) में, बाईं ओर मौजूद संसाधन वाले पैनल से "bq_demo_shared" डेटासेट चुनें.
- डेटासेट की जानकारी वाले पैनल में जाकर, "डेटासेट शेयर करें" पर क्लिक करें
- ईमेल पता डालें
- भूमिका वाले ड्रॉपडाउन मेन्यू से, "BigQuery डेटा व्यूअर" चुनें
- "जोड़ें" पर क्लिक करें
- 'हो गया' पर क्लिक करें

Sheets में डेटा एक्सप्लोर करना
[तुलनात्मक जानकारी]: BigQuery का एक और फ़ायदा यह है कि इसमें बीआई इंजन की सुविधा मिलती है. यह सुविधा, इसके प्रतिस्पर्धियों के पास नहीं है. बीआई इंजन का इस्तेमाल करके, बीआई टाइप की खास जानकारी वाली क्वेरी के नतीजे एक सेकंड से भी कम समय में पाए जा सकते हैं. इसके लिए, इन-मेमोरी कैशिंग इंजन का इस्तेमाल किया जाता है. फ़िलहाल, यह सुविधा Google Data Studio के साथ काम करती है. हालांकि, जल्द ही यह BigQuery में सभी क्वेरी को तेज़ी से प्रोसेस करने के लिए उपलब्ध होगी.
उदाहरण के लिए:
Snowflake, डैशबोर्ड और डेटा विज़ुअलाइज़ेशन के लिए तीसरे पक्ष के बीआई टूल का इस्तेमाल करता है. वहीं, GCP में इंटिग्रेट किए गए कई बीआई टूल उपलब्ध हैं. इनमें कनेक्टेड शीट, Data Studio, और Looker शामिल हैं.
- BigQuery के यूज़र इंटरफ़ेस (यूआई) में, बाईं ओर मौजूद संसाधन पैनल से "rev_change_by_card_type" व्यू चुनें.
- व्यू से जुड़ी क्वेरी करने के लिए, मैग्नीफ़ाइंग ग्लास पर क्लिक करें

- प्रकार:
SELECT *
FROM bq_demo_shared.rev_change_by_card_type
- 'चलाएं' पर क्लिक करें
- नतीजे वाले पैनल में मौजूद "एक्सपोर्ट करें" आइकॉन पर क्लिक करें
- "Sheets की मदद से डेटा एक्सप्लोर करें" को चुनें

- "विश्लेषण शुरू करें" पर क्लिक करें
- "पिवट टेबल" चुनें
- "नई शीट" चुनें
- "बनाएं" पर क्लिक करें
- Sheets विंडो की दाईं ओर मौजूद पिवट टेबल एडिटर के पंक्ति सेक्शन में "revenue_date" जोड़ें
- पिवट टेबल एडिटर के कॉलम सेक्शन में "card_type" जोड़ें
- पिवट टेबल एडिटर के कॉलम सेक्शन में "monthly_rev" जोड़ें
- लागू करें पर क्लिक करें

- Sheets के यूज़र इंटरफ़ेस (यूआई) में सबसे ऊपर मौजूद रिबन पर जाएं और चार्ट डालें चुनें
4. सेटअप: डेटा इंटिग्रेशन
इस सेक्शन में, आपको नई टेबल बनाने और Google Cloud पर उपलब्ध कई सार्वजनिक डेटासेट में से किसी एक पर JOIN करने का तरीका बताया जाएगा.
[Competitive Talking Point]:
BigQuery, कई सालों से शेयर किए गए डेटा सेट का इस्तेमाल करने की सुविधा देता है. किसी भी प्रोजेक्ट में मौजूद ग्राहक, सार्वजनिक डेटा सेट और अन्य प्रोजेक्ट में मौजूद उन डेटा सेट के बारे में क्वेरी कर सकते हैं जिन्हें उनके साथ शेयर किया गया है.
BigQuery, बाहरी टेबल का इस्तेमाल करके GCS में डेटा लेक को सपोर्ट कर सकता है. BigQuery में एक साथ कई फ़ाइलें लोड करने के साथ-साथ, डेटा को डेटाबेस में स्ट्रीम करने की सुविधा भी मिलती है. इसके लिए, हर सेकंड में सैकड़ों एमबी से ज़्यादा की दर का इस्तेमाल किया जाता है. Snowflake में स्ट्रीमिंग डेटा की सुविधा उपलब्ध नहीं है.
नई टेबल में डेटा इंपोर्ट करना
- संसाधन पैनल में, bq_demo डेटासेट चुनें
- डेटासेट की जानकारी वाले पैनल में, "टेबल बनाएं" को चुनें
- सोर्स के लिए Google Cloud Storage को चुनें
- फ़ाइल पाथ के टेक्स्ट बॉक्स में:
gs://retail-banking-looker/district
- फ़ाइल फ़ॉर्मैट के लिए CSV चुनें
- टेबल के नाम के लिए "district" डालें
- 'स्कीमा का अपने-आप पता लगाएं' के लिए चेकबॉक्स चुनें
- 'टेबल बनाएं' पर क्लिक करें
सार्वजनिक डेटासेट को क्वेरी करना
- क्वेरी एडिटर में, यह क्वेरी डालें:
SELECT
CAST(geo_id as STRING) AS zip_code,
total_pop,
median_age,
households,
income_per_capita,
housing_units,
vacant_housing_units_for_sale,
ROUND(SAFE_DIVIDE(employed_pop, pop_16_over),4) AS rate_employment,
ROUND(SAFE_DIVIDE(bachelors_degree_or_higher_25_64, pop_25_64),4) AS rate_bachelors_degree_or_higher_25_64
FROM
`bigquery-public-data.census_bureau_acs.zip_codes_2017_5yr`;
- 'चलाएं' पर क्लिक करें
- नतीजे देखना

- अब हम इस सार्वजनिक डेटा को किसी दूसरी क्वेरी के साथ जोड़ेंगे. क्वेरी एडिटर में, यह एसक्यूएल कोड डालें:
WITH customer_counts AS (
select regexp_extract(address, "[0-9][0-9][0-9][0-9][0-9]") as zip_code,
count(*) as num_clients
FROM bq_demo.client
GROUP BY zip_code
)
SELECT
CAST(geo_id as STRING) AS zip_code,
total_pop,
median_age,
households,
income_per_capita,
ROUND(SAFE_DIVIDE(employed_pop, pop_16_over),4) AS rate_employment,
num_clients
FROM
`bigquery-public-data.census_bureau_acs.zip_codes_2017_5yr`
JOIN customer_counts on zip_code = geo_id
ORDER BY num_clients DESC
- 'चलाएं' पर क्लिक करें
- नतीजे देखना

5. क्षमता मैनेजमेंट
स्लॉट और बुकिंग के साथ काम करना
BQ आपकी ज़रूरतों के हिसाब से, कीमत तय करने के कई मॉडल उपलब्ध कराता है. ज़्यादातर बड़े ग्राहक, फ़्लैट रेट का इस्तेमाल करते हैं. इससे उन्हें पहले से तय कीमत पर, आरक्षित क्षमता मिलती है. बेसलाइन क्षमता से ज़्यादा डेटा प्रोसेस करने के लिए, BQ फ़्लेक्स स्लॉट उपलब्ध कराता है. इनकी मदद से, ज़रूरत के हिसाब से क्षमता को बढ़ाया जा सकता है. इसके बाद, क्षमता अपने-आप कम हो जाती है. इससे क्वेरी पर कोई असर नहीं पड़ता. BQ में बाइट स्कैन मॉडल भी होता है. इसकी मदद से, सिर्फ़ उन क्वेरी के लिए पेमेंट किया जा सकता है जिन्हें आपने चलाया है.
[प्रतिस्पर्धा से जुड़ी अहम जानकारी: कुछ प्रतिस्पर्धी कंपनियां, सिर्फ़ फ़िक्स्ड कैपेसिटी मॉडल पर काम करती हैं. इसमें ग्राहकों को अपने संगठन के हर वर्कलोड के लिए, वर्चुअल वेयरहाउस असाइन करना होता है. BigQuery का इस्तेमाल शुरू करना आसान है, क्योंकि इसमें क्वेरी के हिसाब से कम लागत वाला मॉडल उपलब्ध है. इसके अलावा, हम क्षमता के हिसाब से तय की गई कीमत वाला मॉडल भी उपलब्ध कराते हैं. इसमें इस्तेमाल न की गई क्षमता को वर्कलोड के सेट के साथ शेयर किया जा सकता है.]
- 'बुकिंग' टैब पर जाएं.

- "स्लॉट खरीदें" पर क्लिक करें

- अवधि के तौर पर "फ़्लेक्सिबल" चुनें.
- 500 स्लॉट चुनें.
- खरीदारी की पुष्टि करें.

- 'स्लॉट की उपलब्धता देखें' पर क्लिक करें.
- "आरक्षण करें" पर क्लिक करें
- उपयोगकर्ता "demo" को बुकिंग के नाम के तौर पर इस्तेमाल करना
- जगह के तौर पर अमेरिका चुनें
- स्लॉट के लिए 500 टाइप करें (सभी उपलब्ध हैं)
- Assignments पर क्लिक करें
- संगठन के प्रोजेक्ट के लिए मौजूदा प्रोजेक्ट चुनें
- बुकिंग आईडी के लिए "डेमो" चुनें
- बनाएं पर क्लिक करें."