1. ওভারভিউ
এই ল্যাবে, আপনি পাইথন ব্যবহার করে ডেটা থেকে অন্তর্দৃষ্টি পেতে BigQuery স্টুডিওতে একটি পাইথন নোটবুক থেকে BigQuery ডেটাফ্রেম ব্যবহার করবেন। অসংগঠিত পাঠ্য ডেটা বিশ্লেষণ এবং কল্পনা করতে Google এর জেনারেটিভ এআই ব্যবহার করুন।
আপনি একটি পাবলিক গ্রাহক অভিযোগ ডাটাবেস শ্রেণীবদ্ধ এবং সংক্ষিপ্ত করার জন্য একটি পাইথন নোটবুক তৈরি করবেন। এটি কোনো অসংগঠিত পাঠ্য ডেটাতে কাজ করার জন্য অভিযোজিত হতে পারে।
উদ্দেশ্য
এই ল্যাবে, আপনি কীভাবে নিম্নলিখিত কাজগুলি সম্পাদন করবেন তা শিখবেন:
- BigQuery স্টুডিওতে পাইথন নোটবুক সক্রিয় করুন এবং ব্যবহার করুন
- BigQuery ডেটাফ্রেম প্যাকেজ ব্যবহার করে BigQuery-এ সংযোগ করুন
- BigQuery ML ব্যবহার করে আনস্ট্রাকচার্ড টেক্সট ডেটা থেকে এম্বেডিং তৈরি করুন এবং Vertex AI-তে একটি টেক্সট এম্বেডিং এন্ডপয়েন্টের সাথে সংযোগ করুন
- BigQuery ML ব্যবহার করে ক্লাস্টার এম্বেডিং
- BigQuery ML এর মাধ্যমে LLM সহ ক্লাস্টারগুলিকে সংক্ষিপ্ত করুন৷
2. প্রয়োজনীয়তা
- একটি ব্রাউজার, যেমন ক্রোম বা ফায়ারফক্স
- বিলিং সক্ষম সহ একটি Google ক্লাউড প্রকল্প৷
আপনি শুরু করার আগে
এই কোডল্যাবের নির্দেশাবলী অনুসরণ করতে, আপনার BigQuery স্টুডিও সক্ষম সহ একটি Google ক্লাউড প্রকল্প এবং একটি সংযুক্ত বিলিং অ্যাকাউন্টের প্রয়োজন হবে৷
- Google ক্লাউড কনসোলে , প্রকল্প নির্বাচক পৃষ্ঠায়, একটি Google ক্লাউড প্রকল্প নির্বাচন করুন বা তৈরি করুন৷
- আপনার Google ক্লাউড প্রকল্পের জন্য বিলিং সক্ষম করা আছে তা নিশ্চিত করুন৷ একটি প্রকল্পে বিলিং সক্ষম কিনা তা পরীক্ষা করতে শিখুন
- সম্পদ ব্যবস্থাপনার জন্য BigQuery স্টুডিও সক্ষম করতে নির্দেশাবলী অনুসরণ করুন।
BigQuery স্টুডিও প্রস্তুত করুন
একটি খালি নোটবুক তৈরি করুন এবং এটি একটি রানটাইমের সাথে সংযুক্ত করুন।
- Google ক্লাউড কনসোলে BigQuery স্টুডিওতে যান।
- + বোতামের পাশে ▼ ক্লিক করুন।
- পাইথন নোটবুক নির্বাচন করুন।
- টেমপ্লেট নির্বাচক বন্ধ করুন।
- একটি নতুন কোড সেল তৈরি করতে + কোড নির্বাচন করুন।
- কোড সেল থেকে BigQuery DataFrames প্যাকেজের সর্বশেষ সংস্করণটি ইনস্টল করুন৷ নিম্নলিখিত কমান্ডটি টাইপ করুন৷
কোড সেল চালাতে 🞂 বোতামে ক্লিক করুন বা Shift + Enter চাপুন।%pip install --upgrade bigframes --quiet
3. একটি পাবলিক ডেটাসেট পড়ুন
একটি নতুন কোড সেলে নিম্নলিখিতগুলি চালিয়ে BigQuery ডেটাফ্রেম প্যাকেজটি শুরু করুন:
import bigframes.pandas as bpd
bpd.options.bigquery.ordering_mode = "partial"
দ্রষ্টব্য: এই টিউটোরিয়ালে, আমরা পরীক্ষামূলক "আংশিক অর্ডারিং মোড" ব্যবহার করি, যা পান্ডা-সদৃশ ফিল্টারিংয়ের সাথে ব্যবহার করার সময় আরও দক্ষ প্রশ্নের জন্য অনুমতি দেয়। কিছু পান্ডা বৈশিষ্ট্য যার জন্য কঠোর অর্ডার বা সূচী প্রয়োজন তা কাজ নাও করতে পারে।
ভোক্তা অভিযোগ ডাটাবেস
Google ক্লাউডের পাবলিক ডেটাসেট প্রোগ্রামের মাধ্যমে BigQuery-এ ভোক্তা অভিযোগের ডেটাবেস প্রদান করা হয়। এটি ভোক্তা আর্থিক পণ্য এবং পরিষেবা সম্পর্কে অভিযোগের একটি সংগ্রহ এবং ডেটা মার্কিন যুক্তরাষ্ট্রের ভোক্তা আর্থিক সুরক্ষা ব্যুরো দ্বারা সংগ্রহ করা হয়।
BigQuery-এ, bigquery-public-data.cfbp_complaints.complaint_database টেবিলে প্রশ্ন করুন। ভোক্তা অভিযোগ ডেটাবেস বিশ্লেষণ করতে। একটি ক্যোয়ারী স্ট্রিং বা টেবিল আইডি থেকে একটি ডেটাফ্রেম তৈরি করতে bigframes.pandas.read_gbq()
পদ্ধতি ব্যবহার করুন।
"ফিডব্যাক" নামে একটি ডেটাফ্রেম তৈরি করতে একটি নতুন কোড সেলে নিম্নলিখিতটি চালান:
feedback = bpd.read_gbq(
"bigquery-public-data.cfpb_complaints.complaint_database"
)
একটি ডেটাফ্রেম সম্পর্কে প্রাথমিক তথ্য আবিষ্কার করুন
ডেটার একটি ছোট নমুনা ডাউনলোড করতে DataFrame.peek()
পদ্ধতি ব্যবহার করুন।
এই সেল চালান:
feedback.peek()
প্রত্যাশিত আউটপুট:
date_received product ... timely_response consumer_disputed complaint_id
0 2014-03-05 Bank account or service ... True False 743665
1 2014-01-21 Bank account or service ... True False 678608
2 2020-12-31 Debt collection ... True <NA> 4041190
3 2014-02-12 Debt collection ... True False 714350
4 2015-02-23 Debt collection ... True False 1251358
দ্রষ্টব্য: head()
অর্ডার করার প্রয়োজন হয় এবং আপনি যদি ডেটার একটি নমুনা কল্পনা করতে চান তবে peek()
এর চেয়ে কম দক্ষ।
পান্ডাগুলির মতোই, সমস্ত উপলব্ধ কলাম এবং তাদের সংশ্লিষ্ট ডেটা প্রকারগুলি দেখতে DataFrame.dtypes
বৈশিষ্ট্য ব্যবহার করুন৷ এগুলি পান্ডা-সামঞ্জস্যপূর্ণ উপায়ে প্রকাশ করা হয়।
এই সেল চালান:
feedback.dtypes
প্রত্যাশিত আউটপুট:
date_received date32[day][pyarrow]
product string[pyarrow]
subproduct string[pyarrow]
issue string[pyarrow]
subissue string[pyarrow]
consumer_complaint_narrative string[pyarrow]
company_public_response string[pyarrow]
company_name string[pyarrow]
state string[pyarrow]
zip_code string[pyarrow]
tags string[pyarrow]
consumer_consent_provided string[pyarrow]
submitted_via string[pyarrow]
date_sent_to_company date32[day][pyarrow]
company_response_to_consumer string[pyarrow]
timely_response boolean
consumer_disputed boolean
complaint_id string[pyarrow]
dtype: object
DataFrame.describe()
পদ্ধতিটি DataFrame থেকে কিছু মৌলিক পরিসংখ্যান জিজ্ঞাসা করে। যেহেতু এই ডেটাফ্রেমে কোনো সাংখ্যিক কলাম নেই, তাই এটি নন-নাল মান গণনা এবং স্বতন্ত্র মানের সংখ্যার সারসংক্ষেপ দেখায়।
এই সেল চালান:
# Exclude some of the larger columns to make the query more efficient.
feedback.drop(columns=[
"consumer_complaint_narrative",
"company_public_response",
"company_response_to_consumer",
]).describe()
প্রত্যাশিত আউটপুট:
product subproduct issue subissue company_name state ... timely_response consumer_disputed complaint_id
count 3458906 3223615 3458906 2759004 3458906 3417792 ... 3458906 768399 3458906
nunique 18 76 165 221 6694 63 ... 2 2 3458906
4. তথ্য অন্বেষণ
প্রকৃত অভিযোগগুলি দেখার জন্য ডাইভিং করার আগে, ডেটা ভিজ্যুয়ালাইজ করতে ডেটাফ্রেমে পান্ডা-সদৃশ পদ্ধতিগুলি ব্যবহার করুন৷
ডেটাফ্রেমটি কল্পনা করুন
DataFrame.plot.hist() এর মতো বেশ কয়েকটি অন্তর্নির্মিত ভিজ্যুয়ালাইজেশন পদ্ধতি রয়েছে। যেহেতু এই ডেটাফ্রেমে বেশিরভাগই স্ট্রিং এবং বুলিয়ান ডেটা থাকে, তাই আমরা প্রথমে বিভিন্ন কলাম সম্পর্কে আরও জানতে কিছু একত্রিত করতে পারি।
প্রতিটি রাজ্য থেকে কত অভিযোগ প্রাপ্ত হয়েছে তা গণনা করুন।
complaints_by_state = (
feedback.groupby(
"state", as_index=False,
).size()
.rename(columns={"size": "total_complaints"})
.sort_values(by="total_complaints", ascending=False)
)
DataFrame.to_pandas()
পদ্ধতি ব্যবহার করে এটিকে একটি পান্ডাস ডেটাফ্রেমে রূপান্তর করুন।
complaints_pd = complaints_by_state.head(10).to_pandas()
এই ডাউনলোড করা ডেটাফ্রেমে পান্ডা ভিজ্যুয়ালাইজেশন পদ্ধতি ব্যবহার করুন।
complaints_pd.plot.bar(x="state", y="total_complaints")
অন্যান্য ডেটাসেটের সাথে যোগ দিন
আগে, আপনি প্রতি রাজ্যে অভিযোগগুলি দেখেছিলেন, কিন্তু এটি গুরুত্বপূর্ণ প্রসঙ্গ হারায়। কিছু রাজ্যে অন্যদের তুলনায় বৃহত্তর জনসংখ্যা আছে। ইউএস সেন্সাস ব্যুরোর আমেরিকান কমিউনিটি সার্ভে এবং bigquery-public-data.geo_us_boundaries.states
টেবিলের মতো একটি জনসংখ্যা ডেটাসেটের সাথে যোগ দিন।
us_states = bpd.read_gbq("bigquery-public-data.geo_us_boundaries.states")
us_survey = bpd.read_gbq("bigquery-public-data.census_bureau_acs.state_2020_5yr")
# Ensure there are leading 0s on GEOIDs for consistency across tables.
us_states = us_states.assign(
geo_id=us_states["geo_id"].str.pad(2, fillchar="0")
)
us_survey = us_survey.assign(
geo_id=us_survey["geo_id"].str.pad(2, fillchar="0")
)
আমেরিকান কমিউনিটি সার্ভে জিওআইডি দ্বারা রাজ্যগুলিকে চিহ্নিত করে৷ দুই অক্ষরের রাজ্য কোড দ্বারা জনসংখ্যা পেতে রাজ্য টেবিলের সাথে যোগ দিন।
pops = us_states.set_index("geo_id")[["state"]].join(
us_survey.set_index("geo_id")[["total_pop"]]
)
এখন, অভিযোগের সংখ্যার সাথে জনসংখ্যার তুলনা করতে অভিযোগ ডাটাবেসে যোগ দিন।
complaints_and_pops = complaints_by_state.set_index("state").join(
pops.set_index("state")
)
অভিযোগের সংখ্যার সাথে রাজ্যের জনসংখ্যার তুলনা করার জন্য একটি বিক্ষিপ্ত প্লট তৈরি করুন।
(
complaints_and_pops
.to_pandas()
.plot.scatter(x="total_pop", y="total_complaints")
)
অভিযোগের সংখ্যার সাথে জনসংখ্যার তুলনা করার সময় কয়েকটি রাজ্যকে বাইরের বলে মনে হয়। এইগুলি সনাক্ত করার জন্য পয়েন্ট লেবেল সহ প্লট করার জন্য পাঠকের জন্য এটি একটি অনুশীলন হিসাবে রেখে দেওয়া হয়েছে। একইভাবে, কেন এমন হতে পারে তার জন্য কিছু অনুমান নিয়ে আসুন (যেমন বিভিন্ন জনসংখ্যা, বিভিন্ন আর্থিক পরিষেবা সংস্থার সংখ্যা ইত্যাদি) এবং সেগুলি পরীক্ষা করুন।
5. এম্বেডিং গণনা করুন
প্রায়শই, গুরুত্বপূর্ণ তথ্যগুলি অসংগঠিত ডেটাতে লুকিয়ে থাকে, যেমন পাঠ্য, অডিও বা চিত্র৷ এই উদাহরণে, অভিযোগের ডাটাবেসের অনেক দরকারী তথ্য অভিযোগের পাঠ্য বিষয়বস্তুতে রয়েছে।
AI এবং ঐতিহ্যগত কৌশল, যেমন অনুভূতি বিশ্লেষণ, "শব্দের ব্যাগ", এবং word2vec, কিছু পরিমাণগত তথ্য আনস্ট্রাকচার্ড ডেটা বের করতে পারে। অতি সম্প্রতি, "ভেক্টর এমবেডিং" মডেলগুলি, যা LLM-এর সাথে ঘনিষ্ঠভাবে সম্পর্কিত, টেক্সটের শব্দার্থিক তথ্যের প্রতিনিধিত্বকারী ফ্লোটিং পয়েন্ট সংখ্যাগুলির একটি ক্রম তৈরি করতে পারে।
ডাটাবেসের একটি উপসেট নির্বাচন করুন
একটি ভেক্টর এমবেডিং মডেল চালানো অন্যান্য ক্রিয়াকলাপের তুলনায় বেশি সম্পদ ব্যবহার করে। খরচ এবং কোটার সমস্যা কমাতে, এই টিউটোরিয়ালের বাকি অংশের জন্য ডেটার একটি উপসেট নির্বাচন করুন।
import bigframes.pandas as bpd
bpd.options.bigquery.ordering_mode = "partial"
feedback = bpd.read_gbq(
"bigquery-public-data.cfpb_complaints.complaint_database"
)
# Note: if not using ordering_mode = "partial", you must specify these in read_gbq
# for these to affect query efficiency.
# feedback = bpd.read_gbq(
# "bigquery-public-data.cfpb_complaints.complaint_database",
# columns=["consumer_complaint_narrative"],
# filters= [
# ("consumer_complaint_narrative", "!=", ""),
# ("date_received", "==", "2022-12-01")])
feedback.shape
মোট ডাটাবেসের প্রায় 3.5 মিলিয়ন সারিগুলির তুলনায় 2022-12-01 তারিখে প্রায় 1,000টি অভিযোগ জমা পড়েছে ( feedback.shape
দিয়ে চেক করুন)।
2022-12-01-এর জন্য শুধুমাত্র ডেটা এবং শুধুমাত্র consumer_complaint_narrative
কলাম নির্বাচন করুন।
import datetime
feedback = feedback[
# Filter rows by passing in a boolean Series.
(feedback["date_received"] == datetime.date(2022, 12, 1))
& ~(feedback["date_received"].isnull())
& ~(feedback["consumer_complaint_narrative"].isnull())
& (feedback["consumer_complaint_narrative"] != "")
& (feedback["state"] == "CA")
# Uncomment the following if using free credits for a workshop.
# Billing accounts with free credits have limited Vertex AI quota.
# & (feedback["product"] == "Mortgage")
][
# Filter columns by passing in a list of strings.
["consumer_complaint_narrative"]
]
feedback.shape
পান্ডা থেকে drop_duplicates
পদ্ধতির জন্য সারিগুলির মোট ক্রম প্রয়োজন কারণ এটি প্রথম বা শেষ ম্যাচিং সারিটি নির্বাচন করার চেষ্টা করে এবং এর সাথে যুক্ত সূচকটি সংরক্ষণ করে।
পরিবর্তে, সারিগুলি ডি-ডুপ্লিকেট করার জন্য groupby
পদ্ধতিতে কল দিয়ে একত্রিত করুন।
feedback = (
feedback.groupby("consumer_complaint_narrative", as_index=False)
.size()
)[["consumer_complaint_narrative"]]
feedback.shape
এম্বেডিং তৈরি করুন
BigQuery DataFrames TextEmbeddingGenerator ক্লাসের মাধ্যমে এম্বেডিং ভেক্টর তৈরি করে। এটি ML.GENERATE_EMBEDDING
পদ্ধতির উপর ভিত্তি করে, BigQuery ML-এ যা Vertex AI দ্বারা প্রদত্ত টেক্সট এমবেডিং মডেলগুলিকে কল করে৷
from bigframes.ml.llm import TextEmbeddingGenerator
embedding_model = TextEmbeddingGenerator(
model_name="text-embedding-004"
)
feedback_embeddings = embedding_model.predict(feedback)
এম্বেডিং দেখতে কেমন তা একবার দেখুন। এই ভেক্টরগুলি পাঠ্যের শব্দার্থিক অর্থকে উপস্থাপন করে কারণ এটি পাঠ্য এমবেডিং মডেল দ্বারা বোঝা যায়।
feedback_embeddings.peek()
প্রত্যাশিত আউটপুট:
ml_generate_embedding_result \
0 [ 7.36380890e-02 2.11779331e-03 2.54309829e-...
1 [-1.10935252e-02 -5.53950183e-02 2.01338865e-...
2 [-7.85628427e-03 -5.39347418e-02 4.51385677e-...
3 [ 0.02013054 -0.0224789 -0.00164843 0.011354...
4 [-1.51684484e-03 -5.02693094e-03 1.72322839e-...
এই ভেক্টর অনেক মাত্রা আছে. একটি একক এম্বেডিং ভেক্টর দেখুন:
feedback_embeddings["ml_generate_embedding_result"].peek().iloc[0]
এমবেডিং জেনারেশন একটি "আংশিক সাফল্য" চুক্তির অধীনে কাজ করে। এর মানে কিছু সারিতে ত্রুটি থাকতে পারে এবং একটি এম্বেডিং তৈরি করতে পারে না। ত্রুটি বার্তাগুলি 'ml_generate_embedding_status'
কলাম দ্বারা প্রকাশ করা হয়। খালি মানে কোনো ত্রুটি নেই।
এম্বেডিংগুলিকে শুধুমাত্র সারিগুলি অন্তর্ভুক্ত করতে ফিল্টার করুন যেখানে কোনও ত্রুটি ঘটেনি৷
mask = feedback_embeddings["ml_generate_embedding_status"] == ""
valid_embeddings = feedback_embeddings[mask]
valid_embeddings.shape
6. টেক্সট এম্বেডিং ব্যবহার করে ক্লাস্টার
এখন, k-মান ব্যবহার করে এমবেডিং গুচ্ছ করুন। এই ডেমোর জন্য, একটি নির্বিচারে সংখ্যক গোষ্ঠী (ওরফে সেন্ট্রোয়েড) ব্যবহার করুন। একটি উৎপাদন মানের সমাধান একটি কৌশল যেমন সিলুয়েট পদ্ধতি ব্যবহার করে সেন্ট্রোয়েডের সংখ্যা টিউন করা উচিত।
from bigframes.ml.cluster import KMeans
num_clusters = 5
cluster_model = KMeans(n_clusters=num_clusters)
cluster_model.fit(valid_embeddings["ml_generate_embedding_result"])
clusters = cluster_model.predict(valid_embeddings)
clusters.peek()
কোনো এমবেডিং ব্যর্থতা সরান.
mask = clusters["ml_generate_embedding_status"] == ""
clusters = clusters[mask]
উঁকি দিন এবং সেন্ট্রয়েড প্রতি মন্তব্যের বিতরণ দেখুন।
clusters.groupby("CENTROID_ID").size()
7. ক্লাস্টারগুলিকে সংক্ষিপ্ত করুন
প্রতিটি সেন্ট্রয়েডের সাথে যুক্ত কিছু মন্তব্য ফিড করুন এবং অভিযোগের সংক্ষিপ্ত বিবরণ দিতে মিথুনকে বলুন। প্রম্পট ইঞ্জিনিয়ারিং একটি উদীয়মান ক্ষেত্র, তবে ইন্টারনেটে ভাল উদাহরণ রয়েছে, যেমন https://www.promptingguide.ai/।
from bigframes.ml.llm import GeminiTextGenerator
preamble = "What is the main concern in this list of user complaints:"
suffix = "Write the main issue using a formal tone."
# Now let's sample the raw comments and get the LLM to summarize them.
prompts = []
for centroid_id in range(1, num_clusters + 1):
cluster = clusters[clusters["CENTROID_ID"] == centroid_id]
comments = "\n".join(["- {0}".format(x) for x in cluster.content.peek(40)])
prompts.append("{}:\n{}\n{}".format(preamble, comments, suffix))
prompt_df = bpd.DataFrame(prompts)
gemini = GeminiTextGenerator(model_name="gemini-1.5-flash-001")
issues = gemini.predict(X=prompt_df, temperature=0.0)
issues.peek()
সারাংশ থেকে একটি প্রতিবেদন লিখতে মিথুন ব্যবহার করুন।
from IPython.display import display, Markdown
prompt = "Turn this list of issues into a short, concise report:"
for value in issues["ml_generate_text_llm_result"]:
prompt += "- {}".format(value)
prompt += "Using a formal tone, write a markdown text format report."
summary_df = bpd.DataFrame(([prompt]))
summary = gemini.predict(X=summary_df, temperature=0.0)
report = (summary["ml_generate_text_llm_result"].values[0])
display(Markdown(report))
8. পরিষ্কার করুন
আপনি যদি এই টিউটোরিয়ালের জন্য একটি নতুন Google ক্লাউড প্রকল্প তৈরি করে থাকেন, তাহলে টেবিল বা অন্যান্য সংস্থানগুলির জন্য অতিরিক্ত চার্জ প্রতিরোধ করতে আপনি এটি মুছে ফেলতে পারেন।
9. অভিনন্দন!
আপনি BigQuery ডেটাফ্রেম ব্যবহার করে স্ট্রাকচার্ড এবং আনস্ট্রাকচার্ড ডেটা বিশ্লেষণ করেছেন। পথ ধরে আপনি Google ক্লাউডের পাবলিক ডেটাসেট, BigQuery স্টুডিওতে পাইথন নোটবুক, BigQuery ML, Vertex AI, এবং BigQuery স্টুডিওর পাইথন বৈশিষ্ট্যের প্রাকৃতিক ভাষা অন্বেষণ করেছেন। চমত্কার কাজ!
পরবর্তী পদক্ষেপ
- আপনার নোটবুকে পাইথন কোড তৈরি করার চেষ্টা করুন। BigQuery স্টুডিওতে পাইথন নোটবুকগুলি Colab এন্টারপ্রাইজ দ্বারা চালিত। ইঙ্গিত: আমি পরীক্ষার ডেটা তৈরি করতে সাহায্যের জন্য জিজ্ঞাসা করছি তা বেশ কার্যকর।
- GitHub-এ BigQuery DataFrames-এর নমুনা নোটবুকগুলি অন্বেষণ করুন।
- BigQuery স্টুডিওতে একটি নোটবুক চালানোর জন্য একটি সময়সূচী তৈরি করুন।
- BigQuery-এর সাথে তৃতীয় পক্ষের পাইথন প্যাকেজগুলিকে একীভূত করতে BigQuery ডেটাফ্রেমের সাথে একটি রিমোট ফাংশন স্থাপন করুন।