১. ভূমিকা
বিগকোয়েরি হলো গুগলের সম্পূর্ণভাবে পরিচালিত, স্বল্প খরচের অ্যানালিটিক্স ডেটাবেস। বিগকোয়েরির সাহায্যে, আপনি কোনো ডেটাবেস অ্যাডমিনিস্ট্রেটর বা ব্যবস্থাপনার জন্য কোনো পরিকাঠামো ছাড়াই টেরাবাইট পরিমাণ ডেটা কোয়েরি করতে পারেন। বিগকোয়েরি পরিচিত SQL এবং 'শুধুমাত্র ব্যবহারের জন্য অর্থ প্রদান' চার্জিং মডেল ব্যবহার করে। বিগকোয়েরি আপনাকে অর্থপূর্ণ অন্তর্দৃষ্টি খুঁজে বের করার জন্য ডেটা বিশ্লেষণে মনোযোগ দিতে সাহায্য করে।
এই কোডল্যাবে আপনি দেখবেন কীভাবে গিটহাব পাবলিক ডেটাসেট কোয়েরি করতে হয়, যা বিগকোয়েরিতে উপলব্ধ অনেকগুলো পাবলিক ডেটাসেটের মধ্যে অন্যতম।
আপনি যা শিখবেন
- BigQuery কীভাবে ব্যবহার করবেন
- একটি বৃহৎ ডেটাসেট থেকে অন্তর্দৃষ্টি লাভের জন্য কীভাবে কোয়েরি লিখতে হয়
আপনার যা যা লাগবে
- একটি গুগল ক্লাউড প্রকল্প
- একটি ব্রাউজার, যেমন ক্রোম বা ফায়ারফক্স
২. প্রস্তুত হন
BigQuery সক্রিয় করুন
আপনার যদি আগে থেকে কোনো গুগল অ্যাকাউন্ট (জিমেইল বা গুগল অ্যাপস) না থাকে, তবে আপনাকে অবশ্যই একটি তৈরি করতে হবে।
- Google Cloud Platform কনসোলে ( console.cloud.google.com ) সাইন-ইন করুন এবং BigQuery-তে যান। এছাড়াও, আপনি আপনার ব্রাউজারে নিম্নলিখিত URL-টি লিখে সরাসরি BigQuery ওয়েব UI খুলতে পারেন।
https://console.cloud.google.com/bigquery
- পরিষেবার শর্তাবলী গ্রহণ করুন।
- BigQuery ব্যবহার করার আগে, আপনাকে অবশ্যই একটি প্রজেক্ট তৈরি করতে হবে। আপনার নতুন প্রজেক্টটি তৈরি করার জন্য নির্দেশাবলী অনুসরণ করুন।
একটি প্রকল্পের নাম নির্বাচন করুন এবং প্রকল্প আইডিটি লিখে রাখুন।
প্রজেক্ট আইডি হলো সমস্ত গুগল ক্লাউড প্রজেক্ট জুড়ে একটি অনন্য নাম। এই কোডল্যাবে পরবর্তীতে এটিকে PROJECT_ID হিসাবে উল্লেখ করা হবে।
এই কোডল্যাবটি BigQuery স্যান্ডবক্সের সীমার মধ্যে BigQuery রিসোর্স ব্যবহার করে। এর জন্য কোনো বিলিং অ্যাকাউন্টের প্রয়োজন নেই। আপনি যদি পরবর্তীতে স্যান্ডবক্সের সীমা তুলে দিতে চান, তাহলে Google Cloud Platform-এর ফ্রি ট্রায়ালের জন্য সাইন আপ করে একটি বিলিং অ্যাকাউন্ট যোগ করতে পারেন।
৩. গিটহাব ডেটার প্রিভিউ দেখুন
BigQuery ওয়েব UI-তে GitHub ডেটাসেটটি খুলুন।
https://console.cloud.google.com/bigquery?p=bigquery-public-data&d=github_repos&t=commits&page=table
ডেটা দেখতে কেমন তার একটি দ্রুত পূর্বরূপ দেখুন।

৪. গিটহাব ডেটা কোয়েরি করুন
কোয়েরি এডিটরটি খুলুন।

গিটহাব পাবলিক ডেটাসেটে সবচেয়ে সাধারণ কমিট বার্তাগুলি খুঁজে পেতে নিম্নলিখিত কোয়েরিটি লিখুন:
SELECT subject AS subject,
COUNT(*) AS num_duplicates
FROM `bigquery-public-data.github_repos.sample_commits`
GROUP BY subject
ORDER BY num_duplicates DESC
LIMIT 100
যেহেতু গিটহাব ডেটাসেটটি বড়, তাই পরীক্ষা-নিরীক্ষার সময় খরচ বাঁচাতে একটি ছোট নমুনা ডেটাসেট ব্যবহার করা সহায়ক। কোয়েরির খরচ অনুমান করতে এডিটরের নিচে প্রক্রিয়াকৃত বাইটগুলো ব্যবহার করুন।

রান বাটনটিতে ক্লিক করুন।
কয়েক সেকেন্ডের মধ্যে ফলাফলটি নীচে তালিকাভুক্ত হবে এবং এতে বলা থাকবে কী পরিমাণ ডেটা প্রক্রিয়াজাত করা হয়েছে এবং এতে কত সময় লেগেছে।

যদিও sample_commits টেবিলটির আকার ২.৪৯ জিবি, কোয়েরিটি মাত্র ৩৫.৮ এমবি ডেটা প্রসেস করেছে। BigQuery শুধুমাত্র কোয়েরিতে ব্যবহৃত কলামগুলোর বাইট প্রসেস করে, তাই প্রসেস করা মোট ডেটার পরিমাণ টেবিলের আকারের চেয়ে উল্লেখযোগ্যভাবে কম হতে পারে। ক্লাস্টারিং এবং পার্টিশনিং- এর মাধ্যমে প্রসেস করা ডেটার পরিমাণ আরও কমানো যেতে পারে।
৫. আরও জনতথ্য
এখন অন্য কোনো ডেটাসেটে কোয়েরি করার চেষ্টা করুন, যেমন অন্য কোনো পাবলিক ডেটাসেট ।
উদাহরণস্বরূপ, নিম্নলিখিত কোয়েরিটি Libraries.io পাবলিক ডেটাসেটে থাকা জনপ্রিয় ডেপ্রিকেটেড বা রক্ষণাবেক্ষণহীন প্রজেক্টগুলো খুঁজে বের করে, যেগুলো এখনও অন্যান্য প্রজেক্টে ডিপেন্ডেন্সি হিসেবে ব্যবহৃত হয়:
SELECT
name,
dependent_projects_count,
language,
status
FROM
`bigquery-public-data.libraries_io.projects_with_repository_fields`
WHERE status IN ('Deprecated', 'Unmaintained')
ORDER BY dependent_projects_count DESC
LIMIT 100
অন্যান্য সংস্থাগুলোও BigQuery-তে তাদের ডেটা সর্বজনীনভাবে উপলব্ধ করেছে। উদাহরণস্বরূপ, GitHub-এর GH Archive ডেটাসেটটি পুল রিকোয়েস্ট, রিপোজিটরি স্টার এবং খোলা ইস্যুর মতো পাবলিক ইভেন্টগুলো বিশ্লেষণ করতে ব্যবহার করা যেতে পারে। Python Software Foundation-এর PyPI ডেটাসেটটি পাইথন প্যাকেজের ডাউনলোড রিকোয়েস্ট বিশ্লেষণ করতে ব্যবহার করা যায়।
৬. অভিনন্দন!
আপনি গিটহাবের পাবলিক ডেটাসেট কোয়েরি করার জন্য BigQuery এবং SQL ব্যবহার করেছেন। আপনার পেটাবাইট-স্কেল ডেটাসেট কোয়েরি করার ক্ষমতা আছে!
আপনি যা কভার করেছেন
- গিটহাব কমিট রেকর্ড কোয়েরি করতে SQL সিনট্যাক্স ব্যবহার করা
- একটি বৃহৎ ডেটাসেট সম্পর্কে ধারণা লাভের জন্য কোয়েরি লেখা।
আরও জানুন
- Kaggle-এর Intro to SQL-এর মাধ্যমে SQL শিখুন।
- BigQuery ডকুমেন্টেশন অন্বেষণ করুন।
- এই ব্লগ পোস্টে দেখুন অন্যরা কীভাবে গিটহাব ডেটাসেট ব্যবহার করে।
- BigQuery ব্যবহার করে TIL- এ আবহাওয়ার ডেটা, অপরাধের ডেটা এবং আরও অনেক কিছু অন্বেষণ করুন।
- BigQuery কমান্ড-লাইন টুল ব্যবহার করে BigQuery-তে ডেটা লোড করার পদ্ধতি শিখুন।
- বর্তমানে অন্যরা কীভাবে BigQuery ব্যবহার করে তা জানতে BigQuery সাবরেডিটটি দেখুন।