使用 Procurement Document AI,透過 AI 平台筆記本剖析月結單

1. 總覽

c65b9ae04aa1853.png

什麼是 Procurement Document AI?

企業每年都會管理大型採購管道,包括數千份應付憑據、收據和其他相關文件。使用 Procurement DocAI 智慧處理「暗資料」例如 PDF、圖片和手寫表單,減少採購生命週期的人工負擔。將應付憑據和收據等非結構化文件轉換成結構化資料,藉此大規模自動擷取採購資料,進而提升作業效率、改善客戶體驗並做出適當決策。

在本程式碼研究室中,我們將逐步說明如何設定 Document AI 平台、處理應付憑據範例、擷取 AI 平台筆記本中的實體,並以視覺化方式呈現。

課程內容

  • 如何開始使用 Document AI 平台
  • 透過 Procurement DocAI 解決方案擷取結構定義化實體
  • 建立及自訂 AI 平台 Notebooks 執行個體

軟硬體需求

  • Google Cloud 專案
  • 瀏覽器,例如 ChromeFirefox
  • 對 Python 3 的瞭解

問卷調查

您會如何使用這個教學課程?

僅供閱讀 閱讀並完成練習

您對 Python 的使用體驗有何評價?

新手 中級 還算容易

針對使用 Google Cloud 服務的經驗,您會給予什麼評價?

新手 中級 還算容易

2. 設定和需求

自修環境設定

  1. 登入 Cloud 控制台建立新專案,或是重複使用現有專案。(如果您還沒有 Gmail 或 G Suite 帳戶,請先建立帳戶)。

請記住專案 ID,這是所有 Google Cloud 專案中的專屬名稱。(很抱歉,上方名稱已經有人使用,很抱歉讓您沒用!)。您之後必須於 PROJECT_ID 提供這個 ID。

  1. 接下來,您必須在 Cloud 控制台中啟用計費功能,才能使用 Google Cloud 資源。

請務必依照「清除所用資源」一節指示專區。本節將說明如何關閉資源,這樣您才不會產生本教學課程結束後產生的費用。Google Cloud 的新使用者符合 $300 美元免費試用計畫的資格。

3. 啟用 Cloud Document AI API

您必須先啟用 API,才能開始使用 Document AI。在瀏覽器中開啟 Cloud 控制台

  1. 依序點選「導覽選單」圖示 ⋮ >API 與服務 >媒體庫Search API
  2. 搜尋「Document AI API」。接著按一下「啟用」,即可在 Google Cloud 專案中使用 API

4. 建立及測試處理器

您必須先建立表單剖析器處理器的執行個體,才能在該教學課程中使用 Document AI 平台。

  1. 在控制台中,前往 Document AI Platform Overview (Document AI 平台總覽)
  2. 按一下「Create Processor」,然後選取「Invoice Parser」處理器
  3. 指定處理器名稱,然後從清單中選取您的區域。
  4. 點選「建立」來建立處理器
  5. 複製處理器 ID。您稍後必須在程式碼中使用此 ID。

(選用) 您可以在控制台中上傳文件,測試處理器。按一下「上傳文件」,然後選取要剖析的表單。如果沒有可用的範例表單,可以下載並使用此範例表單。

應付憑據

輸出內容應如下所示:剖析的應付憑據

5. 建立 AI 平台筆記本

前往 Cloud 控制台的 AI 平台筆記本專區,然後按一下「新增執行個體」。接著,選取最新的 Python 執行個體類型:

a81c82876c6c16f9.png

使用預設選項,然後點選「建立」。執行個體建立完成後,請選取「Open JupyterLab」

6. 取得程式碼範例

直接從 Document AI 筆記本 GitHub 存放區匯入程式碼範例。在筆記本中,前往「Git」>在頂端選單中複製存放區,或按一下 Git 圖示:Git

貼上下列存放區網址:

https://github.com/GoogleCloudPlatform/documentai-notebooks.git

複製存放區後,按一下 documentai-notebooks/specialized/ 目錄並開啟 specialized_form_parser.ipynb 筆記本。找出已宣告 GCP 專案和 Document AI 處理器 ID 的儲存格。

變數

貼上步驟 4 的 GCP 專案 ID 和處理器 ID。儲存筆記本。

7. 擷取實體並以視覺化方式呈現

現在您可以從應付憑據中擷取已結構定義化的實體,以及相應的可信度分數。Document 回應物件包含實體清單。如要進一步瞭解結構定義化實體,請參閱應付憑據剖析器快速入門導覽課程

執行筆記本中的所有儲存格,然後向下捲動至表格輸出內容。程式碼會反覆疊代每個實體,並建立含有結果的 Pandas DataFrame。資料表

現在捲動至下方圖表元件。Document 物件回應包含文件中每一頁的空間版面配置資訊。以下是每個表單欄位的版面配置資訊,可用來在圖片上繪製定界框。這項資料可用於將 Document AI 整合至前端應用程式。

多邊形

8. 恭喜

恭喜!您已成功使用 Procurment Document AI 解決方案從應付憑據擷取資料。建議您嘗試使用其他表單類型。

清除

如要避免系統向您的 Google Cloud 帳戶收取本教學課程所用資源的費用,您可以關閉筆記本或刪除 GCP 專案。

關閉 AI Platform Notebooks 執行個體

按照操作說明關閉 AI 平台筆記本執行個體

刪除專案

如要避免付費,最簡單的方法就是刪除您針對教學課程建立的專案。

如要刪除專案,請進行以下操作:

  1. 在 GCP Console 中,前往「Projects」(專案) 頁面。專案頁面
  2. 在專案清單中選取您要刪除的專案,並按一下 [Delete] (刪除)
  3. 在對話方塊中輸入專案 ID,然後按一下「Shut down」(關閉) 即可刪除專案。

瞭解詳情

授權

這項內容採用的是創用 CC 姓名標示 2.0 通用授權。