BigQuery यूज़र इंटरफ़ेस (यूआई) नेविगेशन और डेटा एक्सप्लोरेशन कोडलैब (कोड बनाना सीखना)

1. परिचय

BigQuery, बिना सर्वर वाला, काफ़ी हद तक बढ़ाया जा सकने वाला, और किफायती डेटा वेयरहाउस है. बस अपना डेटा BigQuery में ट्रांसफ़र करें. इसके बाद, हम आपके लिए मुश्किल काम करेंगे, ताकि आप अपने कारोबार पर ध्यान दे सकें. आपके पास अपने कारोबार की ज़रूरतों के हिसाब से, प्रोजेक्ट और अपने डेटा के ऐक्सेस को कंट्रोल करने का विकल्प होता है. जैसे, दूसरों को अपना डेटा देखने या उससे जुड़े सवाल पूछने की अनुमति देना.

इस लैब में, आपको BigQuery की विश्लेषण से जुड़ी सुविधाओं के बारे में पता चलेगा. आपको Google Cloud Storage बकेट से डेटासेट इंपोर्ट करने का तरीका बताया जाएगा. साथ ही, रीटेल बैंकिंग डेटासेट का इस्तेमाल करके, BigQuery के यूज़र इंटरफ़ेस (यूआई) के बारे में जानकारी दी जाएगी. इसके अलावा, इस लैब में आपको BigQuery की उन मुख्य सुविधाओं के बारे में भी बताया जाएगा जिनकी मदद से, रोज़ाना के विश्लेषण को ज़्यादा आसानी से किया जा सकता है. जैसे, क्वेरी के नतीजों को स्प्रेडशीट में एक्सपोर्ट करना, क्वेरी के इतिहास से क्वेरी देखना और उन्हें चलाना, क्वेरी की परफ़ॉर्मेंस देखना, और अन्य टीमों और विभागों के इस्तेमाल के लिए टेबल व्यू बनाना.

आपको क्या सीखने को मिलेगा

इस लैब में, आपको ये टास्क करने का तरीका बताया जाएगा:

  • BigQuery में नया डेटा लोड करना
  • BigQuery के यूज़र इंटरफ़ेस (यूआई) के बारे में जानकारी
  • BigQuery में क्वेरी चलाना
  • क्वेरी परफ़ॉर्मेंस देखना
  • BigQuery में व्यू बनाना
  • डेटासेट को दूसरों के साथ सुरक्षित तरीके से शेयर करना

2. परिचय: BigQuery यूज़र इंटरफ़ेस (यूआई) के बारे में जानकारी

इस सेक्शन में, आपको BigQuery यूज़र इंटरफ़ेस (यूआई) को नेविगेट करने, उपलब्ध डेटासेट देखने, और सामान्य क्वेरी चलाने का तरीका बताया जाएगा.

BQ यूज़र इंटरफ़ेस (यूआई) लोड हो रहा है

  1. Google Cloud Platform Console में सबसे ऊपर मौजूद "BigQuery" टाइप करें.
  2. विकल्पों की सूची से BigQuery चुनें. BigQuery के लोगो और मैग्निफ़ाइंग ग्लास वाला विकल्प चुनें.

डेटासेट देखना और क्वेरी चलाना

ee95ce13969ee1ad.png

  1. संसाधन सेक्शन में मौजूद बाएं पैनल में, अपने BigQuery प्रोजेक्ट पर क्लिक करें.
  2. उस डेटासेट में मौजूद टेबल देखने के लिए, bq_demo पर क्लिक करें
  3. खोजने के लिए लिखें बॉक्स में, "कार्ड" टाइप करें. इससे आपको उन टेबल और डेटासेट की सूची दिखेगी जिनके नाम में "कार्ड" शामिल है.
  4. खोज के नतीजों की सूची से, "card_transactions" टेबल चुनें

beb6ff6ca2930125.png

  1. इस टेबल का मेटाडेटा देखने के लिए, card_transactions पैनल में मौजूद जानकारी टैब पर क्लिक करें.
  2. टेबल की झलक देखने के लिए, 'झलक देखें' टैब पर क्लिक करें

[Competitive Talking Point]: Google Data Catalog के साथ इंटिग्रेशन का मतलब है कि BigQuery के मेटाडेटा को अन्य डेटा सोर्स के साथ मैनेज किया जा सकता है. जैसे, डेटा लेक या ऑपरेशनल डेटा सोर्स. यह एक उदाहरण है, जिससे पता चलता है कि Google Cloud सिर्फ़ एक रिलेशनल डेटा वेयरहाउस नहीं है, बल्कि यह एक पूरा ऐनलिटिकल डेटा प्लैटफ़ॉर्म है.

  1. "card_transactions" टेबल के बारे में क्वेरी करने के लिए, मैग्नीफ़ाइंग ग्लास आइकॉन पर क्लिक करें. अपने-आप जनरेट हुआ टेक्स्ट, BigQuery क्वेरी एडिटर में भर जाएगा.
  2. Card_Transactions टेबल से अलग-अलग कारोबारियों या कंपनियों को दिखाने के लिए, यहां दिया गया कोड डालें
SELECT distinct (merchant) FROM bq_demo.card_transactions LIMIT 1000
  1. क्वेरी चलाने के लिए, 'चलाएं' बटन पर क्लिक करें.

35113542e7ec6fa6.png

3. डेटासेट बनाना और व्यू शेयर करना

डेटा शेयर करना और उसे मैनेज करना ज़रूरी है. इसे BQ के यूज़र इंटरफ़ेस (यूआई) में आसानी से किया जा सकता है. इस सेक्शन में, आपको नया डेटासेट बनाने, उसे व्यू से भरने, और उस डेटासेट को शेयर करने का तरीका बताया जाएगा.

क्वेरी का इतिहास देखना

  1. GCP Console के बाएं पैनल में मौजूद "क्वेरी का इतिहास" पर क्लिक करें
  2. क्वेरी के इतिहास वाले पैनल में, रीफ़्रेश करें पर क्लिक करें
  3. क्वेरी के नतीजे देखने के लिए, क्वेरी के सबसे दाईं ओर मौजूद, इमेज/ऐरो डाउनलोड करें पर क्लिक करें.

6e3232ed96f647b8.png

नया डेटासेट बनाना

  1. BigQuery के यूज़र इंटरफ़ेस (यूआई) के संसाधन पैनल में, [आपके प्रोजेक्ट का नाम] चुनें.
  2. प्रोजेक्ट की जानकारी वाले पैनल में जाकर, "नया डेटासेट बनाएं" चुनें
  3. डेटासेट आईडी के लिए:

bq_demo_shared

  1. अन्य सभी फ़ील्ड को डिफ़ॉल्ट के तौर पर छोड़ दें
  2. "डेटासेट बनाएं" पर क्लिक करें

b433eba38f55124f.png dd774aca416e7fbc.png

व्यू बनाना

[प्रतिस्पर्धी के बारे में जानकारी]: BigQuery, पूरी तरह से एएनएसआई एसक्यूएल के साथ काम करता है. साथ ही, यह एक से ज़्यादा टेबल को आसानी से और मुश्किल तरीके से जोड़ने के साथ-साथ, बेहतर तरीके से विश्लेषण करने वाले फ़ंक्शन के साथ भी काम करता है. हमने माइग्रेशन की प्रोसेस को आसान बनाने के लिए, पारंपरिक डेटा वेयरहाउस में इस्तेमाल होने वाले सामान्य एसक्यूएल डेटा टाइप और फ़ंक्शन के लिए, बेहतर सहायता उपलब्ध कराई है.

  1. क्वेरी एडिटर पैनल में सबसे ऊपर मौजूद, "नई क्वेरी लिखें" को चुनें.
  2. क्वेरी एडिटर में यह कोड डालें
WITH revenue_by_month AS (
SELECT
    card.type AS card_type,
    FORMAT_DATE('%Y-%m', trans_date) as revenue_date,
    SUM(amount) as revenue
FROM bq_demo.card_transactions
JOIN bq_demo.card ON card_transactions.cc_number = card.card_number
WHERE trans_date  DATE_ADD(CURRENT_DATE, INTERVAL -1 YEAR)
GROUP BY card_type, revenue_date
)
SELECT
    card_type,
    revenue_date,
    revenue as monthly_rev,
    revenue -  LAG(revenue) OVER (ORDER BY card_type, revenue_date ASC) as rev_change
FROM revenue_by_month
ORDER BY card_type, revenue_date ASC;
  1. "व्यू सेव करें" पर क्लिक करें
  2. प्रोजेक्ट के नाम के लिए, अपना मौजूदा प्रोजेक्ट चुनें
  3. नया डेटासेट चुनें:

bq_demo_shared

  1. टेबल के नाम के लिए:

rev_change_by_card_type

  1. 'सेव करें' पर क्लिक करें.

4b111056b544c27d.png

व्यू और डेटासेट शेयर करना

  1. BigQuery के यूज़र इंटरफ़ेस (यूआई) में, बाईं ओर मौजूद संसाधन वाले पैनल से "bq_demo_shared" डेटासेट चुनें.
  2. डेटासेट की जानकारी वाले पैनल में जाकर, "डेटासेट शेयर करें" पर क्लिक करें
  3. ईमेल पता डालें
  4. भूमिका वाले ड्रॉपडाउन मेन्यू से, "BigQuery डेटा व्यूअर" चुनें
  5. "जोड़ें" पर क्लिक करें
  6. 'हो गया' पर क्लिक करें

1c04b6b5ebc191dc.png

Sheets में डेटा एक्सप्लोर करना

[तुलनात्मक जानकारी]: BigQuery का एक और फ़ायदा यह है कि इसमें बीआई इंजन की सुविधा मिलती है. यह सुविधा, इसके प्रतिस्पर्धियों के पास नहीं है. बीआई इंजन का इस्तेमाल करके, बीआई टाइप की खास जानकारी वाली क्वेरी के नतीजे एक सेकंड से भी कम समय में पाए जा सकते हैं. इसके लिए, इन-मेमोरी कैशिंग इंजन का इस्तेमाल किया जाता है. फ़िलहाल, यह सुविधा Google Data Studio के साथ काम करती है. हालांकि, जल्द ही यह BigQuery में सभी क्वेरी को तेज़ी से प्रोसेस करने के लिए उपलब्ध होगी.

उदाहरण के लिए:

Snowflake, डैशबोर्ड और डेटा विज़ुअलाइज़ेशन के लिए तीसरे पक्ष के बीआई टूल का इस्तेमाल करता है. वहीं, GCP में इंटिग्रेट किए गए कई बीआई टूल उपलब्ध हैं. इनमें कनेक्टेड शीट, Data Studio, और Looker शामिल हैं.

  1. BigQuery के यूज़र इंटरफ़ेस (यूआई) में, बाईं ओर मौजूद संसाधन पैनल से "rev_change_by_card_type" व्यू चुनें.
  2. व्यू से जुड़ी क्वेरी करने के लिए, मैग्नीफ़ाइंग ग्लास पर क्लिक करें 255be22b0eaf339.png
  3. प्रकार:

SELECT *

FROM bq_demo_shared.rev_change_by_card_type

  1. 'चलाएं' पर क्लिक करें
  2. नतीजे वाले पैनल में मौजूद "एक्सपोर्ट करें" आइकॉन पर क्लिक करें
  3. "Sheets की मदद से डेटा एक्सप्लोर करें" को चुनें

9617b522025fd337.png

  1. "विश्लेषण शुरू करें" पर क्लिक करें
  2. "पिवट टेबल" चुनें
  3. "नई शीट" चुनें
  4. "बनाएं" पर क्लिक करें
  5. Sheets विंडो की दाईं ओर मौजूद पिवट टेबल एडिटर के पंक्ति सेक्शन में "revenue_date" जोड़ें
  6. पिवट टेबल एडिटर के कॉलम सेक्शन में "card_type" जोड़ें
  7. पिवट टेबल एडिटर के कॉलम सेक्शन में "monthly_rev" जोड़ें
  8. लागू करें पर क्लिक करें

48e67c2e04965796.png

  1. Sheets के यूज़र इंटरफ़ेस (यूआई) में सबसे ऊपर मौजूद रिबन पर जाएं और चार्ट डालें चुनें

4. सेटअप: डेटा इंटिग्रेशन

इस सेक्शन में, आपको नई टेबल बनाने और Google Cloud पर उपलब्ध कई सार्वजनिक डेटासेट में से किसी एक पर JOIN करने का तरीका बताया जाएगा.

[Competitive Talking Point]:

BigQuery, कई सालों से शेयर किए गए डेटा सेट का इस्तेमाल करने की सुविधा देता है. किसी भी प्रोजेक्ट में मौजूद ग्राहक, सार्वजनिक डेटा सेट और अन्य प्रोजेक्ट में मौजूद उन डेटा सेट के बारे में क्वेरी कर सकते हैं जिन्हें उनके साथ शेयर किया गया है.

BigQuery, बाहरी टेबल का इस्तेमाल करके GCS में डेटा लेक को सपोर्ट कर सकता है. BigQuery में एक साथ कई फ़ाइलें लोड करने के साथ-साथ, डेटा को डेटाबेस में स्ट्रीम करने की सुविधा भी मिलती है. इसके लिए, हर सेकंड में सैकड़ों एमबी से ज़्यादा की दर का इस्तेमाल किया जाता है. Snowflake में स्ट्रीमिंग डेटा की सुविधा उपलब्ध नहीं है.

नई टेबल में डेटा इंपोर्ट करना

  1. संसाधन पैनल में, bq_demo डेटासेट चुनें
  2. डेटासेट की जानकारी वाले पैनल में, "टेबल बनाएं" को चुनें
  3. सोर्स के लिए Google Cloud Storage को चुनें
  4. फ़ाइल पाथ के टेक्स्ट बॉक्स में:

gs://retail-banking-looker/district

  1. फ़ाइल फ़ॉर्मैट के लिए CSV चुनें
  2. टेबल के नाम के लिए "district" डालें
  3. 'स्कीमा का अपने-आप पता लगाएं' के लिए चेकबॉक्स चुनें
  4. 'टेबल बनाएं' पर क्लिक करें

सार्वजनिक डेटासेट को क्वेरी करना

  1. क्वेरी एडिटर में, यह क्वेरी डालें:
SELECT
    CAST(geo_id as STRING) AS zip_code,
    total_pop,
    median_age,
    households,
    income_per_capita,
    housing_units,
    vacant_housing_units_for_sale,
    ROUND(SAFE_DIVIDE(employed_pop, pop_16_over),4) AS rate_employment,
    ROUND(SAFE_DIVIDE(bachelors_degree_or_higher_25_64, pop_25_64),4) AS rate_bachelors_degree_or_higher_25_64
  FROM
    `bigquery-public-data.census_bureau_acs.zip_codes_2017_5yr`;
  1. 'चलाएं' पर क्लिक करें
  2. नतीजे देखना

dff40709db70d75.png

  1. अब हम इस सार्वजनिक डेटा को किसी दूसरी क्वेरी के साथ जोड़ेंगे. क्वेरी एडिटर में, यह एसक्यूएल कोड डालें:
WITH customer_counts AS (
    select regexp_extract(address, "[0-9][0-9][0-9][0-9][0-9]") as zip_code, 
    count(*) as num_clients
    FROM bq_demo.client
    GROUP BY zip_code
    )
SELECT 
    CAST(geo_id as STRING) AS zip_code,
    total_pop,
    median_age,
    households,
    income_per_capita,
    ROUND(SAFE_DIVIDE(employed_pop, pop_16_over),4) AS rate_employment,
    num_clients
FROM
    `bigquery-public-data.census_bureau_acs.zip_codes_2017_5yr`
JOIN customer_counts on zip_code = geo_id
ORDER BY num_clients DESC
  1. 'चलाएं' पर क्लिक करें
  2. नतीजे देखना

b853ad571e7a3038.png

5. क्षमता मैनेजमेंट

स्लॉट और बुकिंग के साथ काम करना

BQ आपकी ज़रूरतों के हिसाब से, कीमत तय करने के कई मॉडल उपलब्ध कराता है. ज़्यादातर बड़े ग्राहक, फ़्लैट रेट का इस्तेमाल करते हैं. इससे उन्हें पहले से तय कीमत पर, आरक्षित क्षमता मिलती है. बेसलाइन क्षमता से ज़्यादा डेटा प्रोसेस करने के लिए, BQ फ़्लेक्स स्लॉट उपलब्ध कराता है. इनकी मदद से, ज़रूरत के हिसाब से क्षमता को बढ़ाया जा सकता है. इसके बाद, क्षमता अपने-आप कम हो जाती है. इससे क्वेरी पर कोई असर नहीं पड़ता. BQ में बाइट स्कैन मॉडल भी होता है. इसकी मदद से, सिर्फ़ उन क्वेरी के लिए पेमेंट किया जा सकता है जिन्हें आपने चलाया है.

[प्रतिस्पर्धा से जुड़ी अहम जानकारी: कुछ प्रतिस्पर्धी कंपनियां, सिर्फ़ फ़िक्स्ड कैपेसिटी मॉडल पर काम करती हैं. इसमें ग्राहकों को अपने संगठन के हर वर्कलोड के लिए, वर्चुअल वेयरहाउस असाइन करना होता है. BigQuery का इस्तेमाल शुरू करना आसान है, क्योंकि इसमें क्वेरी के हिसाब से कम लागत वाला मॉडल उपलब्ध है. इसके अलावा, हम क्षमता के हिसाब से तय की गई कीमत वाला मॉडल भी उपलब्ध कराते हैं. इसमें इस्तेमाल न की गई क्षमता को वर्कलोड के सेट के साथ शेयर किया जा सकता है.]

  1. 'बुकिंग' टैब पर जाएं.

964f4ab78d35d067.png

  1. "स्लॉट खरीदें" पर क्लिक करें

c8cb5ee61bbea814.png

  1. अवधि के तौर पर "फ़्लेक्सिबल" चुनें.
  2. 500 स्लॉट चुनें.
  3. खरीदारी की पुष्टि करें.

d615f5908dffc1ee.png

  1. 'स्लॉट की उपलब्धता देखें' पर क्लिक करें.
  2. "आरक्षण करें" पर क्लिक करें
  3. उपयोगकर्ता "demo" को बुकिंग के नाम के तौर पर इस्तेमाल करना
  4. जगह के तौर पर अमेरिका चुनें
  5. स्लॉट के लिए 500 टाइप करें (सभी उपलब्ध हैं)
  6. Assignments पर क्लिक करें
  7. संगठन के प्रोजेक्ट के लिए मौजूदा प्रोजेक्ट चुनें
  8. बुकिंग आईडी के लिए "डेमो" चुनें
  9. बनाएं पर क्लिक करें."