১. ভূমিকা


ওয়ার্কফ্লো হলো একটি সম্পূর্ণভাবে পরিচালিত অর্কেস্ট্রেশন পরিষেবা, যা আপনার নির্ধারিত ক্রমানুসারে গুগল ক্লাউড বা বাহ্যিক পরিষেবাগুলো সম্পাদন করে।
BigQuery হলো একটি সম্পূর্ণভাবে পরিচালিত এন্টারপ্রাইজ ডেটা ওয়্যারহাউস যা মেশিন লার্নিং, জিওস্পেশিয়াল অ্যানালাইসিস এবং বিজনেস ইন্টেলিজেন্সের মতো বিল্ট-ইন ফিচারের সাহায্যে আপনাকে টেরাবাইট পরিমাণ ডেটা পরিচালনা ও বিশ্লেষণ করতে সহায়তা করে।
এই কোডল্যাবে, আপনি পাবলিক উইকিপিডিয়া ডেটাসেটের উপর কিছু BigQuery কোয়েরি চালাবেন। এরপর আপনি দেখবেন কিভাবে একটি Workflows অর্কেস্ট্রেশনের অংশ হিসেবে, একাধিক BigQuery কোয়েরি ক্রমানুসারে একের পর এক চালানো যায়। সবশেষে, আপনি Workflows-এর প্যারালাল ইটারেশন ফিচার ব্যবহার করে কোয়েরিগুলোকে প্যারালাইজ করবেন, যার ফলে গতি ৫ গুণ পর্যন্ত বৃদ্ধি পাবে।
আপনি যা শিখবেন
- উইকিপিডিয়া ডেটাসেটের বিরুদ্ধে কীভাবে BigQuery কোয়েরি চালানো যায়।
- ওয়ার্কফ্লো অর্কেস্ট্রেশনের অংশ হিসেবে একাধিক কোয়েরি ধারাবাহিকভাবে কীভাবে চালানো যায়।
- ওয়ার্কফ্লো-এর প্যারালাল ইটারেশন ব্যবহার করে কীভাবে কোয়েরিগুলোকে প্যারালাল করা যায়, যার ফলে গতি ৫ গুণ পর্যন্ত বৃদ্ধি পায়।
২. সেটআপ এবং প্রয়োজনীয়তা
স্ব-গতিতে পরিবেশ সেটআপ
- Google Cloud Console- এ সাইন-ইন করুন এবং একটি নতুন প্রজেক্ট তৈরি করুন অথবা বিদ্যমান কোনো প্রজেক্ট পুনরায় ব্যবহার করুন। যদি আপনার আগে থেকে Gmail বা Google Workspace অ্যাকাউন্ট না থাকে, তবে আপনাকে অবশ্যই একটি তৈরি করতে হবে।



- প্রজেক্টের নামটি হলো এই প্রজেক্টের অংশগ্রহণকারীদের প্রদর্শিত নাম। এটি একটি ক্যারেক্টার স্ট্রিং যা গুগল এপিআই ব্যবহার করে না। আপনি যেকোনো সময় এটি আপডেট করতে পারেন।
- সমস্ত গুগল ক্লাউড প্রজেক্ট জুড়ে প্রজেক্ট আইডি অবশ্যই অনন্য হতে হবে এবং এটি অপরিবর্তনীয় (একবার সেট করার পর পরিবর্তন করা যাবে না)। ক্লাউড কনসোল স্বয়ংক্রিয়ভাবে একটি অনন্য স্ট্রিং তৈরি করে; সাধারণত এটি কী তা নিয়ে আপনার মাথা ঘামানোর দরকার নেই। বেশিরভাগ কোডল্যাবে, আপনাকে প্রজেক্ট আইডি উল্লেখ করতে হবে (এটি সাধারণত
PROJECT_IDহিসাবে চিহ্নিত করা হয়)। তৈরি করা আইডিটি আপনার পছন্দ না হলে, আপনি এলোমেলোভাবে আরেকটি তৈরি করতে পারেন। বিকল্পভাবে, আপনি নিজের আইডি দিয়ে চেষ্টা করে দেখতে পারেন যে সেটি উপলব্ধ আছে কিনা। এই ধাপের পরে এটি পরিবর্তন করা যাবে না এবং প্রজেক্টের পুরো সময়কাল জুড়ে এটি অপরিবর্তিত থাকবে। - আপনার অবগতির জন্য জানাচ্ছি যে, তৃতীয় একটি ভ্যালু রয়েছে, যা হলো প্রজেক্ট নাম্বার এবং কিছু এপিআই এটি ব্যবহার করে। ডকুমেন্টেশনে এই তিনটি ভ্যালু সম্পর্কে আরও বিস্তারিত জানুন।
- এরপর, ক্লাউড রিসোর্স/এপিআই ব্যবহার করার জন্য আপনাকে ক্লাউড কনসোলে বিলিং চালু করতে হবে। এই কোডল্যাবটি সম্পন্ন করতে খুব বেশি খরচ হওয়ার কথা নয়, এমনকি আদৌ কোনো খরচ নাও হতে পারে। এই টিউটোরিয়ালের পর যাতে কোনো বিলিং না হয়, সেজন্য রিসোর্সগুলো বন্ধ করতে আপনি আপনার তৈরি করা রিসোর্সগুলো অথবা পুরো প্রজেক্টটিই ডিলিট করে দিতে পারেন। গুগল ক্লাউডের নতুন ব্যবহারকারীরা ৩০০ মার্কিন ডলারের ফ্রি ট্রায়াল প্রোগ্রামের জন্য যোগ্য।
ক্লাউড শেল শুরু করুন
যদিও গুগল ক্লাউড আপনার ল্যাপটপ থেকে দূরবর্তীভাবে পরিচালনা করা যায়, এই কোডল্যাবে আপনি গুগল ক্লাউড শেল ব্যবহার করবেন, যা ক্লাউডে চালিত একটি কমান্ড লাইন পরিবেশ।
গুগল ক্লাউড কনসোল থেকে, উপরের ডানদিকের টুলবারে থাকা ক্লাউড শেল আইকনটিতে ক্লিক করুন:

পরিবেশটি প্রস্তুত করতে এবং এর সাথে সংযোগ স্থাপন করতে মাত্র কয়েক মুহূর্ত সময় লাগবে। এটি শেষ হলে, আপনি এইরকম কিছু দেখতে পাবেন:

এই ভার্চুয়াল মেশিনটিতে আপনার প্রয়োজনীয় সমস্ত ডেভেলপমেন্ট টুলস লোড করা আছে। এটি একটি স্থায়ী ৫ জিবি হোম ডিরেক্টরি প্রদান করে এবং গুগল ক্লাউডে চলে, যা নেটওয়ার্ক পারফরম্যান্স ও অথেনটিকেশনকে ব্যাপকভাবে উন্নত করে। এই কোডল্যাবে আপনার সমস্ত কাজ একটি ব্রাউজারের মধ্যেই করা যাবে। আপনাকে কিছুই ইনস্টল করতে হবে না।
৩. উইকিপিডিয়া ডেটাসেট অন্বেষণ করুন
প্রথমে, BigQuery-তে উইকিপিডিয়া ডেটাসেটটি অন্বেষণ করুন।
গুগল ক্লাউড কনসোলের BigQuery বিভাগে যান:

bigquery-samples অধীনে আপনি বিভিন্ন পাবলিক ডেটাসেট দেখতে পাবেন, যার মধ্যে উইকিপিডিয়া সম্পর্কিত কিছু ডেটাসেটও রয়েছে:

wikipedia_pageviews ডেটাসেটের অধীনে, আপনি বিভিন্ন বছরের পেজ ভিউ সংক্রান্ত নানা সারণি দেখতে পাবেন:

আপনি টেবিলগুলোর মধ্যে যেকোনো একটি (যেমন, 201207 ) নির্বাচন করে ডেটা প্রিভিউ করতে পারেন:

আপনি টেবিলটির বিরুদ্ধে কোয়েরিও চালাতে পারেন। উদাহরণস্বরূপ, এই কোয়েরিটি সর্বাধিক ভিউ পাওয়া শীর্ষ ১০০টি টাইটেল নির্বাচন করে:
SELECT TITLE, SUM(views) FROM bigquery-samples.wikipedia_pageviews.201207h GROUP BY TITLE ORDER BY SUM(VIEWS) DESC LIMIT 100
কোয়েরিটি চালানোর পর ডেটা লোড হতে প্রায় ২০ সেকেন্ড সময় লাগে।

৪. একাধিক কোয়েরি চালানোর জন্য একটি ওয়ার্কফ্লো নির্ধারণ করুন।
একটিমাত্র টেবিলের উপর কোয়েরি চালানো সহজ। তবে, একাধিক টেবিলের উপর একাধিক কোয়েরি চালানো এবং ফলাফল একত্রিত করা বেশ ক্লান্তিকর হয়ে উঠতে পারে। এই কাজে সাহায্য করার জন্য, ওয়ার্কফ্লো তার ইটারেশন সিনট্যাক্সের মাধ্যমে সহায়তা করতে পারে!
ক্লাউড শেলের ভিতরে, একাধিক টেবিলের উপর একাধিক কোয়েরি চালানোর জন্য একটি ওয়ার্কফ্লো তৈরি করতে workflow-serial.yaml ফাইলটি তৈরি করুন:
touch workflow-serial.yaml
এরপর আপনি ক্লাউড শেল-এর এডিটর দিয়ে ফাইলটি সম্পাদনা করতে পারবেন:

workflow-serial.yaml ফাইলের প্রথম init ধাপে, টেবিলের নাম দিয়ে কী (key) ব্যবহার করে প্রতিটি ইটারেশনের হিসাব রাখার জন্য একটি results ম্যাপ তৈরি করুন। এছাড়াও, যে টেবিলগুলোর ওপর আপনি কোয়েরি চালাতে চান, সেগুলোর তালিকা দিয়ে একটি tables অ্যারে সংজ্ঞায়িত করুন। এক্ষেত্রে, আমরা ৫টি টেবিল বেছে নিচ্ছি:
main:
steps:
- init:
assign:
- results : {}
- tables:
- 201201h
- 201202h
- 201203h
- 201204h
- 201205h
এরপরে, একটি runQueries স্টেপ সংজ্ঞায়িত করুন। এই স্টেপটি প্রতিটি টেবিলের উপর পুনরাবৃত্তি করে এবং Workflows-এর BigQuery কানেক্টর ব্যবহার করে প্রতিটি টেবিলের সর্বাধিক পেজ ভিউ সহ শীর্ষ ১০০টি টাইটেল খুঁজে বের করার জন্য একটি কোয়েরি চালায়। তারপর এটি প্রতিটি টেবিল থেকে শীর্ষ টাইটেল এবং ভিউগুলো results ম্যাপে সংরক্ষণ করে:
- runQueries:
for:
value: table
in: ${tables}
steps:
- runQuery:
call: googleapis.bigquery.v2.jobs.query
args:
projectId: ${sys.get_env("GOOGLE_CLOUD_PROJECT_ID")}
body:
useLegacySql: false
useQueryCache: false
timeoutMs: 30000
# Find the top 100 titles with most views on Wikipedia
query: ${
"SELECT TITLE, SUM(views)
FROM `bigquery-samples.wikipedia_pageviews." + table + "`
WHERE LENGTH(TITLE) > 10
GROUP BY TITLE
ORDER BY SUM(VIEWS) DESC
LIMIT 100"
}
result: queryResult
- returnResult:
assign:
# Return the top title from each table
- results[table]: {}
- results[table].title: ${queryResult.rows[0].f[0].v}
- results[table].views: ${queryResult.rows[0].f[1].v}
চূড়ান্ত ধাপে, results ম্যাপটি ফেরত দিন:
- returnResults:
return: ${results}
৫. ওয়ার্কফ্লো ব্যবহার করে একাধিক কোয়েরি চালান
ওয়ার্কফ্লোটি ডেপ্লয় এবং রান করার আগে, আপনাকে নিশ্চিত করতে হবে যে ওয়ার্কফ্লোস এপিআই (Workflows API) সক্রিয় করা আছে। আপনি এটি গুগল ক্লাউড কনসোল (Google Cloud Console) থেকে অথবা ক্লাউড শেল (Cloud Shell)-এ gcloud ব্যবহার করে সক্রিয় করতে পারেন:
gcloud services enable workflows.googleapis.com
ওয়ার্কফ্লো-এর জন্য একটি সার্ভিস অ্যাকাউন্ট তৈরি করুন:
SERVICE_ACCOUNT=workflows-bigquery-sa gcloud iam service-accounts create $SERVICE_ACCOUNT \ --display-name="Workflows BigQuery service account"
নিশ্চিত করুন যে সার্ভিস অ্যাকাউন্টের BigQuery জব লগ করার এবং চালানোর জন্য প্রয়োজনীয় ভূমিকা (role) রয়েছে:
PROJECT_ID=your-project-id gcloud projects add-iam-policy-binding $PROJECT_ID \ --role roles/logging.logWriter \ --role roles/bigquery.jobUser \ --member serviceAccount:$SERVICE_ACCOUNT@$PROJECT_ID.iam.gserviceaccount.com
সার্ভিস অ্যাকাউন্ট দিয়ে ওয়ার্কফ্লোটি ডিপ্লয় করুন:
gcloud workflows deploy bigquery-serial \
--source=workflow-serial.yaml \
--service-account=$SERVICE_ACCOUNT@$PROJECT_ID.iam.gserviceaccount.com
অবশেষে, আপনি ওয়ার্কফ্লোটি চালানোর জন্য প্রস্তুত।
ক্লাউড কনসোলের Workflows সেকশনের অধীনে bigquery-serial ওয়ার্কফ্লোটি খুঁজুন এবং Execute বাটনে ক্লিক করুন:

বিকল্পভাবে, আপনি ক্লাউড শেলে gcloud ব্যবহার করে ওয়ার্কফ্লোটি চালাতে পারেন:
gcloud workflows run bigquery-serial
ওয়ার্কফ্লোটি সম্পন্ন হতে প্রায় ১ মিনিট সময় লাগবে (৫টি টেবিলের প্রতিটির জন্য ২০ সেকেন্ড)।
শেষে, আপনি প্রতিটি টেবিলের শীর্ষ শিরোনাম এবং ভিউ সহ আউটপুট দেখতে পাবেন:


৬. সমান্তরাল ধাপ ব্যবহার করে একাধিক কোয়েরিকে সমান্তরাল করুন।
পূর্ববর্তী ধাপের ওয়ার্কফ্লোটি সম্পন্ন হতে প্রায় ১ মিনিট সময় লেগেছিল, কারণ এটি ৫টি কোয়েরি চালিয়েছিল, যেগুলোর প্রতিটিতে ২০ সেকেন্ড করে সময় লেগেছিল। যেহেতু এগুলো স্বাধীন কোয়েরি, তাই আপনি ওয়ার্কফ্লো-এর প্যারালাল ইটারেশন ফিচারটি ব্যবহার করে এগুলোকে সমান্তরালভাবে চালাতে পারেন।
workflow-serial.yaml ফাইলটি কপি করে একটি নতুন workflow-parallel.yaml ফাইল তৈরি করুন। নতুন ফাইলটিতে, সিরিয়াল স্টেপগুলোকে প্যারালাল স্টেপে পরিণত করার জন্য আপনাকে কয়েকটি পরিবর্তন করতে হবে।
workflow-parallel.yaml ফাইলে, runQueries স্টেপটি পরিবর্তন করুন। প্রথমে, ` parallel কীওয়ার্ডটি যোগ করুন। এটি for লুপের প্রতিটি পুনরাবৃত্তিকে সমান্তরালভাবে চলতে সাহায্য করে। দ্বিতীয়ত, ` results ভেরিয়েবলটিকে একটি shared ভেরিয়েবল হিসেবে ঘোষণা করুন। এর ফলে একটি ব্রাঞ্চ এই ভেরিয়েবলটিতে লিখতে পারবে। আমরা প্রতিটি ফলাফল এই ভেরিয়েবলে যুক্ত করব।
- runQueries:
parallel:
shared: [results]
for:
value: table
in: ${tables}
সমান্তরাল কর্মপ্রবাহ স্থাপন করুন:
gcloud workflows deploy bigquery-parallel \
--source=workflow-parallel.yaml \
--service-account=$SERVICE_ACCOUNT@$PROJECT_ID.iam.gserviceaccount.com
ওয়ার্কফ্লোটি চালান:
gcloud workflows run bigquery-parallel
আপনি দেখবেন ওয়ার্কফ্লোটি সম্পন্ন হতে প্রায় ২০ সেকেন্ড সময় লাগছে। এর কারণ হলো, ৫টি কোয়েরিই সমান্তরালভাবে চলছে। মাত্র কয়েক লাইন কোড পরিবর্তনেই গতি ৫ গুণ পর্যন্ত বৃদ্ধি!
অবশেষে, আপনি প্রতিটি টেবিল থেকে শীর্ষ শিরোনাম এবং ভিউ সহ একই আউটপুট দেখতে পাবেন, কিন্তু এক্সিকিউশন টাইম অনেক কম হবে:

৭. অভিনন্দন
অভিনন্দন, আপনি কোডল্যাবটি সম্পন্ন করেছেন! আরও জানতে, প্যারালাল স্টেপস সম্পর্কিত ওয়ার্কফ্লো ডকুমেন্টেশন দেখুন।
আমরা যা আলোচনা করেছি
- উইকিপিডিয়া ডেটাসেটের বিরুদ্ধে কীভাবে BigQuery কোয়েরি চালানো যায়।
- ওয়ার্কফ্লো অর্কেস্ট্রেশনের অংশ হিসেবে একাধিক কোয়েরি ধারাবাহিকভাবে কীভাবে চালানো যায়।
- ওয়ার্কফ্লো-এর প্যারালাল ইটারেশন ব্যবহার করে কীভাবে কোয়েরিগুলোকে প্যারালাল করা যায়, যার ফলে গতি ৫ গুণ পর্যন্ত বৃদ্ধি পায়।