ডকুমেন্ট AI ওয়ারহাউস ব্যবহার করে ডকুমেন্ট ইনজেস্ট, প্রসেস এবং সার্চ করা

১. সংক্ষিপ্ত বিবরণ

ডকুমেন্ট এআই ওয়্যারহাউস কী?

ডকুমেন্ট এআই ওয়্যারহাউস হলো ডকুমেন্ট এবং সেগুলোর স্ট্রাকচার্ড মেটাডেটা সংরক্ষণ, অনুসন্ধান, সংগঠিত এবং বিশ্লেষণ করার একটি প্ল্যাটফর্ম। ডকুমেন্টের মধ্যে ফর্ম ও ইনভয়েসের মতো স্ট্রাকচার্ড ডেটার পাশাপাশি চুক্তিপত্র ও গবেষণা পত্রের মতো আনস্ট্রাকচার্ড ডেটাও অন্তর্ভুক্ত থাকতে পারে। ডকুমেন্ট এআই-এর প্রসেসর ব্যবহার করে ডকুমেন্টের মেটাডেটা স্বয়ংক্রিয়ভাবে নিষ্কাশন করা যায় অথবা ফিল্ড ও ট্যাগ ব্যবহার করে ম্যানুয়ালি ইনপুট করা যায়।

এই কোডল্যাবে, আপনি ডকুমেন্ট এআই ওয়্যারহাউস ইউজার ইন্টারফেস ব্যবহার করে কীভাবে ডকুমেন্ট ইনজেস্ট, প্রসেস এবং সার্চ করতে হয় তা শিখবেন। এই কোডল্যাবের জন্য নমুনা পিডিএফ ডকুমেন্ট সরবরাহ করা হয়েছে, যার মধ্যে একটি লাইসেন্স চুক্তি, লোন ফর্ম এবং অর্ডার ইনভয়েস অন্তর্ভুক্ত রয়েছে।

পূর্বশর্ত

এই কোডল্যাবটি ডকুমেন্ট এআই-এর অন্যান্য কোডল্যাবে উপস্থাপিত বিষয়বস্তুর উপর ভিত্তি করে তৈরি করা হয়েছে। কাজ শুরু করার আগে নিম্নলিখিত ডকুমেন্টেশন এবং কোডল্যাবগুলো পড়ে নেওয়ার পরামর্শ দেওয়া হচ্ছে:

আপনি যা শিখবেন

  • ডকুমেন্ট এআই ওয়্যারহাউস এপিআই কীভাবে সক্রিয় করবেন
  • ডকুমেন্ট এআই ওয়্যারহাউসে ডকুমেন্ট প্রসেসরগুলি কীভাবে কনফিগার করবেন
  • বিভিন্ন ধরণের পিডিএফ ডকুমেন্টে কীভাবে টেক্সট আপলোড এবং পার্স করতে হয়
  • ডকুমেন্ট এআই ওয়্যারহাউসে কীভাবে ডকুমেন্ট এবং তাদের মেটাডেটা অনুসন্ধান করবেন

আপনার যা যা লাগবে

২. নমুনা নথি ডাউনলোড করুন

এই কোডল্যাবের জন্য নমুনা পিডিএফ ডকুমেন্ট সরবরাহ করা হয়েছে, যার মধ্যে রয়েছে লাইসেন্স চুক্তি, লোন ফর্ম এবং অর্ডার ইনভয়েস। এই কোডল্যাবে ব্যবহারের জন্য আপনি নিম্নলিখিত নমুনা ডকুমেন্টগুলো ডাউনলোড করতে পারেন।

বিকল্পভাবে, আপনি gsutil ব্যবহার করে আমাদের পাবলিক গুগল ক্লাউড স্টোরেজ বাকেট থেকে নমুনা ডকুমেন্টগুলো ডাউনলোড করতে পারেন।

gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/license-agreement.pdf .
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/loan-form.pdf .
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/order-invoice.pdf .

পরবর্তী ধাপে, আপনি এই নমুনা নথিগুলো আপলোড করবেন, বিভিন্ন ডকুমেন্ট প্রসেসর দিয়ে সেগুলোকে পার্স করবেন এবং প্রাপ্ত নথি ও মেটাডেটা ডকুমেন্ট এআই ওয়্যারহাউসে সংরক্ষণ করবেন।

৩. ডকুমেন্ট এআই ওয়্যারহাউস এপিআই সক্রিয় করুন

ডকুমেন্ট এআই ওয়্যারহাউস ব্যবহার শুরু করার আগে, আপনাকে অবশ্যই এপিআই (API) সক্রিয় করতে হবে।

ক্লাউড কনসোল ব্যবহার করে

  1. আপনার ব্রাউজারে গুগল ক্লাউড কনসোলটি খুলুন।
  2. গুগল ক্লাউড কনসোলে, এপিআই লাইব্রেরিতে গিয়ে সক্রিয় করা যায় এমন এপিআই এবং পরিষেবাগুলো ব্রাউজ করুন।
  3. এপিআই লাইব্রেরি পেজের উপরের সার্চ বার ব্যবহার করে Document AI Warehouse লিখে সার্চ করুন, তারপর প্রাপ্ত সার্ভিসটিতে ক্লিক করুন।
  4. আপনার গুগল ক্লাউড প্রজেক্টে ডকুমেন্ট এআই ওয়্যারহাউস এপিআই (Document AI Warehouse API) সক্রিয় করতে এনাবল (Enable) বোতামটি ক্লিক করুন। ডকুমেন্ট এআই ওয়্যারহাউস এপিআই

বিকল্প: gcloud CLI ব্যবহার করে

বিকল্পভাবে, নিম্নলিখিত gcloud কমান্ড ব্যবহার করে API সক্রিয় করা যেতে পারে:

gcloud services enable contentwarehouse.googleapis.com

যদি এপিআই সফলভাবে সক্রিয় করা হয়, তাহলে আপনি নিম্নলিখিতের মতো একটি বার্তা দেখতে পাবেন:

Operation "operations/..." finished successfully.

এখন, আপনি ডকুমেন্ট এআই ওয়্যারহাউস ব্যবহার করার জন্য প্রস্তুত!

৪. ডকুমেন্ট এআই ওয়্যারহাউস কনসোলটি দেখুন

আপনার ব্রাউজারে, https://documentwarehouse.cloud.google.com- এ অবস্থিত ডকুমেন্ট এআই ওয়্যারহাউস কনসোলে যান (যা গুগল ক্লাউড কনসোলের বাইরে অবস্থিত)। এই কোডল্যাবের বাকি ধাপগুলো সম্পন্ন করতে, অর্থাৎ ডকুমেন্ট আপলোড, প্রসেস এবং সার্চ করার জন্য, আপনি আপনার গুগল ক্লাউড প্রজেক্টের সাথে ডকুমেন্ট এআই ওয়্যারহাউস কনসোলটি ব্যবহার করবেন।

ডকুমেন্ট এআই ওয়্যারহাউস ড্যাশবোর্ড

আপনি যদি প্রথমবারের মতো ডকুমেন্ট এআই ওয়্যারহাউস ব্যবহার করে থাকেন, তাহলে আপনার প্রয়োজন অনুযায়ী প্রজেক্ট ও সেটিংস কনফিগার করার বিষয়ে আরও তথ্যের জন্য ডকুমেন্ট এআই ওয়্যারহাউস ডকুমেন্টেশন দেখুন।

৫. একটি ডকুমেন্ট স্কিমা তৈরি করুন

ডকুমেন্ট স্কিমা, ডকুমেন্ট এআই ওয়্যারহাউসে আপনার সংরক্ষিত ডকুমেন্টগুলোর ধরন এবং ফিল্ড নির্ধারণ করে। যেকোনো নতুন ডকুমেন্ট আপলোড করার আগে আপনাকে একটি স্কিমা তৈরি করতে হবে।

  1. ডকুমেন্ট এআই ওয়্যারহাউস কনসোল থেকে, পেজের উপরের ডান কোণায় থাকা অ্যাডমিন বাটনে ক্লিক করুন।
  2. বাম নেভিগেশন বারে থাকা স্কিমা আইটেমটিতে ক্লিক করুন, তারপর + নতুন যোগ করুন বোতামটিতে ক্লিক করুন।
  3. আপনার স্কিমার জন্য একটি নাম লিখুন, যেমন Documents and Forms , এবং নিশ্চিত করুন যে স্কিমা টাইপ (Schema Type) হিসেবে ডকুমেন্ট (Document) নির্বাচন করা আছে। তারপর, চালিয়ে যাওয়ার জন্য নেক্সট (Next) বোতামে ক্লিক করুন।
  4. আপনি ডিফল্ট JSON স্কিমা সংজ্ঞাটি অপরিবর্তিত রাখতে পারেন, যা দেখতে নিম্নলিখিতের মতো হবে:
    {
      "display_name": "Documents and Forms",
      "property_definitions": [],
      "document_is_folder": false,
      "description": ""
    }
    
  5. এরপর ডকুমেন্ট স্কিমা তৈরি সম্পন্ন করতে Done বাটনে ক্লিক করুন।

এই ধাপগুলো সফলভাবে সম্পন্ন হলে, আপনি একটি বার্তা দেখতে পাবেন যে আপনার ডকুমেন্ট স্কিমা তৈরি হয়ে গেছে। আপনি 'View Document Schema' বোতামে ক্লিক করে, তারপর JSON ট্যাবে গিয়ে স্কিমাটি নিশ্চিত করতে পারেন, যা দেখতে নিচের মতো হবে:

ডকুমেন্ট স্কিমা

৬. ডকুমেন্ট প্রসেসর তৈরি করুন

এই ধাপে, আপনি ডকুমেন্ট প্রসেসর তৈরি করবেন যা ব্যবহার করে ডকুমেন্ট এআই ওয়্যারহাউসে বিভিন্ন ধরণের ডকুমেন্টে পূর্ণ-পাঠ্য অনুসন্ধান (full-text search) করা যায়।

  1. গুগল ক্লাউড কনসোলে, ডকুমেন্ট এআই প্ল্যাটফর্ম ওভারভিউ পৃষ্ঠায় যান।
  2. 'Explore Processors'-এ ক্লিক করুন, এরপর তৈরি করার জন্য প্রসেসরের ধরন হিসেবে 'Document OCR' নির্বাচন করুন।
  3. আপনার ডকুমেন্ট প্রসেসরের জন্য একটি নাম (যেমন ocr এবং আপনার পছন্দের অঞ্চল নির্দিষ্ট করুন, তারপর আপনার প্রসেসরটি তৈরি করতে 'Create' বাটনে ক্লিক করুন।
  4. প্রসেসর ডিটেইলস পেজ থেকে প্রসেসর আইডি-টি কপি করুন, যা আমরা পরবর্তীতে ডকুমেন্ট এআই ওয়্যারহাউসে একটি প্রসেসর কনফিগার করতে ব্যবহার করব।

এই ধাপগুলো পুনরাবৃত্তি করুন এবং ডকুমেন্ট তৈরি করার জন্য প্রসেসরের ধরন হিসেবে ফর্ম পার্সার নির্বাচন করুন ও প্রসেসরের নাম হিসেবে form নির্দিষ্ট করুন।

এই ধাপগুলো পুনরাবৃত্তি করুন এবং ডকুমেন্ট প্রসেসরের ধরন হিসেবে ইনভয়েস পার্সার নির্বাচন করুন ও প্রসেসরের নাম হিসেবে invoice নির্দিষ্ট করুন।

এই ধাপগুলো সফলভাবে সম্পন্ন করার পর, আপনি ডকুমেন্ট প্রসেসরদের একটি তালিকা দেখতে পাবেন যা নিচের তালিকার অনুরূপ হবে:

ডকুমেন্ট প্রসেসর

৭. ডকুমেন্ট প্রসেসর কনফিগার করুন

এই ধাপে, আপনি পূর্ববর্তী ধাপে তৈরি করা প্রসেসরগুলোকে রেফারেন্স হিসেবে ব্যবহার করে ডকুমেন্ট এআই ওয়্যারহাউসে ডকুমেন্ট প্রসেসরগুলো কনফিগার করবেন।

  1. ডকুমেন্ট এআই ওয়্যারহাউস কনসোল থেকে, উপরের টুলবারে থাকা অ্যাডমিন বাটনে ক্লিক করুন।
  2. বাম দিকের নেভিগেশন বারে থাকা Doc AI Processors আইটেমটিতে ক্লিক করুন, তারপর + Add new বোতামটিতে ক্লিক করুন।
  3. + Add New Processor বোতামটিতে ক্লিক করুন, তারপর একটি নাম এবং পূর্ববর্তী ধাপ থেকে প্রাপ্ত প্রসেসর আইডিটি নির্দিষ্ট করুন।
  4. আপনার পরিবর্তনগুলো সংরক্ষণ করতে সেভ বাটনে ক্লিক করুন।

ফর্ম পার্সার এবং ইনভয়েস পার্সার সহ, ‘+ Add New Processor’ বোতামটি ব্যবহার করে বাকি দুটি প্রসেসরকে ডকুমেন্ট এআই ওয়্যারহাউস কনফিগারেশনে যোগ করতে এই ধাপগুলো পুনরাবৃত্তি করুন। নিশ্চিত করুন যে আপনি ‘+ Add New’ বোতাম ব্যবহার করে একটি অতিরিক্ত স্কিমা যোগ না করে, ‘+ Add New Processor ’ বোতামটি ব্যবহার করে একই ডকুমেন্ট স্কিমা আইডির অধীনে দুটি অতিরিক্ত প্রসেসর যোগ করছেন।

এই ধাপগুলো সফলভাবে সম্পন্ন করার পর, আপনি কনফিগার করা ডকুমেন্ট প্রসেসরগুলোর একটি তালিকা দেখতে পাবেন যা নিচেরটির মতো হবে:

ডকুমেন্ট এআই ওয়্যারহাউসে ডকুমেন্ট প্রসেসর

৮. নমুনা নথি আপলোড এবং প্রক্রিয়াকরণ করুন

এখন যেহেতু আপনি আপনার ডকুমেন্টগুলোর জন্য একটি স্কিমা নির্ধারণ এবং প্রসেসর কনফিগার করেছেন, আপনি ডকুমেন্ট এআই ওয়্যারহাউসে ডকুমেন্ট আপলোড করতে পারেন।

  1. ডকুমেন্ট এআই ওয়্যারহাউস কনসোলে ফিরে যান এবং বাম দিকের নেভিগেশন বারে থাকা +নতুন যোগ করুন (+Add new) বোতামে ক্লিক করুন, তারপর একটি নতুন ডকুমেন্ট আপলোড করার বিকল্পটি নির্বাচন করুন।
  2. আপনার মেশিন থেকে license-agreement.pdf ডকুমেন্টটি আপলোড উইজেটে ড্র্যাগ করুন, অথবা আপনার ডাউনলোড করা নমুনা ডকুমেন্টগুলো থেকে ব্রাউজ করে একটি বেছে নিন। তারপর, চালিয়ে যাওয়ার জন্য Next বাটনে ক্লিক করুন।
  3. ডকুমেন্ট স্কিমা-এর জন্য, আপনার পূর্বে তৈরি করা স্কিমাটির নাম নির্বাচন করুন, যেমন ডকুমেন্টস অ্যান্ড ফর্মসডক এআই প্রসেসর আইডি- এর জন্য, পূর্ববর্তী ধাপে আপনার কনফিগার করা ওসিআর ডকুমেন্ট প্রসেসরটি নির্বাচন করুন।
  4. ডিসপ্লে নেমের জন্য, আপনি ডিফল্ট নামটি (অর্থাৎ, ফাইলের নাম) অথবা আপনার নিজস্ব কাস্টম ডকুমেন্ট নাম ব্যবহার করতে পারেন।
  5. আপনার নথিটি আপলোড ও প্রক্রিয়া করতে তৈরি করুন (Create ) বোতামটি ক্লিক করুন।

ডকুমেন্ট এআই ওয়্যারহাউস কনসোলে ফিরে যান এবং loan-form.pdf নমুনা ডকুমেন্টটি দিয়ে এই ধাপগুলো পুনরাবৃত্তি করুন। পূর্বে কনফিগার করা form ডকুমেন্ট প্রসেসরটি নির্বাচন করুন।

ডকুমেন্ট এআই ওয়্যারহাউস কনসোলে ফিরে যান এবং invoice-sample.pdf নমুনা ডকুমেন্টটি দিয়ে এই ধাপগুলো পুনরাবৃত্তি করুন। পূর্বে কনফিগার করা invoice ডকুমেন্ট প্রসেসরটি নির্বাচন করুন।

এই ধাপগুলো সফলভাবে সম্পন্ন করার পর, আপনি যদি ডকুমেন্ট এআই ওয়্যারহাউস কনসোলে ফিরে যান, তাহলে আপনি প্রক্রিয়াকৃত ডকুমেন্টগুলোর একটি তালিকা দেখতে পাবেন যা দেখতে নিম্নলিখিতটির মতো হবে:

ডকুমেন্ট এআই ওয়্যারহাউসে প্রক্রিয়াকৃত নথি

৯. নথি অনুসন্ধান ও অন্বেষণ করুন

এখন যেহেতু আপনি ডকুমেন্ট এআই ওয়্যারহাউসে একটি ডকুমেন্ট আপলোড ও প্রসেস করেছেন, আপনি ডকুমেন্টগুলোর উপর ফুল-টেক্সট সার্চ করতে পারবেন।

ডকুমেন্ট এআই ওয়্যারহাউস কনসোল থেকে, নমুনা নথিগুলিতে থাকা কোনো সার্চ টার্ম, যেমন agreement , লিখে এন্টার কী চাপুন। আপনার আপলোড করা বিভিন্ন নমুনা নথির ফলাফল দেখতে আপনি mortgage এবং monitor এর মতো অন্যান্য সার্চ কোয়েরিও চেষ্টা করতে পারেন।

ফলাফলে, আপনি সেই সার্চ টার্মটি ধারণকারী সমস্ত ডকুমেন্ট দেখতে পাবেন, সাথে ডকুমেন্টের টেক্সটের একটি সারাংশও থাকবে যেখানে সার্চ টার্মটি হাইলাইট করা থাকবে:

ডকুমেন্ট এআই ওয়্যারহাউসে অনুসন্ধানের ফলাফল

কোনো নথি দেখার জন্য সেটির নামের উপর ক্লিক করুন।

শনাক্তকৃত ফিল্ড এবং তাদের সংশ্লিষ্ট ডেটা সহ ডকুমেন্টটি দেখতে এআই ভিউ টগলটিতে ক্লিক করুন:

ডকুমেন্ট এআই ওয়্যারহাউসে বিস্তারিত দৃশ্য

১০. অভিনন্দন

আপনি ডকুমেন্ট এআই ওয়্যারহাউস এবং ডকুমেন্ট এআই-এর প্রসেসরগুলো ব্যবহার করে সফলভাবে ডকুমেন্ট আপলোড, প্রসেস এবং ফুল-টেক্সট সার্চ সম্পন্ন করেছেন। আমরা আপনাকে অন্যান্য ডকুমেন্ট নিয়ে পরীক্ষা করতে এবং প্ল্যাটফর্মে উপলব্ধ অন্যান্য প্রসেসরগুলো অন্বেষণ করতে উৎসাহিত করছি।

পরিষ্কার করা

এই টিউটোরিয়ালে ব্যবহৃত রিসোর্সগুলোর জন্য আপনার গুগল ক্লাউড অ্যাকাউন্টে চার্জ হওয়া এড়াতে, আপনি নিম্নলিখিত পরিষ্করণটি সম্পাদন করতে পারেন:

  • ডকুমেন্ট ওয়্যারহাউস কনসোল পৃষ্ঠায় যান এবং আপনার আপলোড করা সমস্ত নমুনা নথি মুছে ফেলুন।
  • Google Cloud কনসোলে, Document AI প্রসেসর পৃষ্ঠায় যান এবং আপনার তৈরি করা নমুনা প্রসেসরগুলো মুছে ফেলুন।
  • Google Cloud কনসোলে, APIs and Services পৃষ্ঠায় যান এবং Document AI Warehouse API-টি নিষ্ক্রিয় করুন।

আরও জানুন

এই অন্যান্য কোডল্যাবগুলোর মাধ্যমে ডকুমেন্ট এআই সম্পর্কে আরও জানুন।

সম্পদ

লাইসেন্স

এই কাজটি ক্রিয়েটিভ কমন্স অ্যাট্রিবিউশন ২.০ জেনেরিক লাইসেন্সের অধীনে রয়েছে।