使用 Procurement Document AI,透過 AI 平台筆記本剖析月結單

1. 總覽

c65b9ae04aa1853.png

什麼是採購文件專用 Document AI?

企業每年都會管理龐大的採購管道,包括成千上萬的應付憑據、收據和其他相關文件。使用採購文件 DocAI 智慧處理「黑盒資料」,例如 PDF、圖片和手寫表單,以減少採購週期中的手動額外負擔。將應付憑據和收據等非結構化文件轉換成結構化資料,藉此大規模自動擷取採購資料,進而提升作業效率、改善客戶體驗並做出適當決策。

在本程式碼研究室中,我們將介紹如何設定 Document AI 平台、處理帳單範例、在 AI Platform Notebook 中擷取及呈現實體。

課程內容

  • 如何開始使用 Document AI 平台
  • 使用採購 DocAI 解決方案擷取結構化實體
  • 建立及自訂 AI 平台筆記本執行個體

軟硬體需求

  • Google Cloud 專案
  • ChromeFirefox 瀏覽器
  • 熟悉 Python 3

問卷調查

您要如何使用這個教學課程?

只閱讀 閱讀並完成練習

請評估您使用 Python 的體驗。

新手 中級 熟練

請評估你使用 Google Cloud 服務的體驗。

新手 中級 熟練

2. 設定和需求

自助式環境設定

  1. 登入 Cloud 控制台,然後建立新專案或重複使用現有專案。(如果您還沒有 Gmail 或 G Suite 帳戶,請務必建立帳戶)。

記住專案 ID,這是所有 Google Cloud 專案的專屬名稱。(很抱歉,你的名稱已被使用,因此無法使用)。您稍後必須以 PROJECT_ID 的形式提供此 ID。

  1. 接著,您必須在 Cloud 控制台啟用帳單功能,才能使用 Google Cloud 資源。

請務必按照「清理」一節中的操作說明進行。本節會說明如何關閉資源,避免產生教學課程以外的費用。Google Cloud 新使用者可享有 $300 美元的免費試用期

3. 啟用 Cloud Document AI API

您必須先啟用 API,才能開始使用 Document AI。在瀏覽器中開啟 Cloud Console

  1. 依序點選「導覽選單 ☰」>「API 和服務」>「程式庫」Search API
  2. 搜尋「Document AI API」,然後點按「啟用」,即可在 Google Cloud 專案中使用這個 API

4. 建立及測試處理器

您必須先建立表單剖析器處理器的例項,才能在本教學課程中使用 Document AI Platform。

  1. 在控制台中前往 Document AI 平台總覽
  2. 按一下「建立處理器」,然後選取「Invoice Parser」處理器
  3. 指定處理器名稱,然後從清單中選取所屬區域。
  4. 點按「建立」即可建立處理器
  5. 複製處理器 ID。您稍後必須在程式碼中使用此 ID。

(選用) 您可以在控制台中上傳文件,測試處理器。按一下「上傳文件」,然後選取要剖析的表單。如果您沒有可用的表單,可以下載並使用這份範例表單。

應付憑據

輸出內容應如下所示:剖析的月結單

5. 建立 AI Platform 筆記本

前往 Cloud Console 的 AI Platform Notebooks 專區,然後按一下「New Instance」。然後選取最新的 Python 執行個體類型:

a81c82876c6c16f9.png

使用預設選項,然後按一下「建立」。建立執行個體後,選取「Open JupyterLab」

6. 取得程式碼範例

直接從 Document AI Notebooks 的 GitHub 存放區匯入範例程式碼。在筆記本中,前往頂端選單中的「Git」 >「複製存放區」,或按一下 Git 圖示:Git

貼上下列存放區網址:

https://github.com/GoogleCloudPlatform/documentai-notebooks.git

存放區複製完成後,請依序點選 documentai-notebooks/specialized/ 目錄,然後開啟 specialized_form_parser.ipynb 筆記本。找出宣告 GCP 專案和 Document AI 處理器 ID 的儲存格。

vars

貼上步驟 4 中的 GCP 專案 ID 和處理器 ID。儲存筆記本。

7. 擷取及視覺化實體

您現在可以從月結單中擷取結構化實體,以及對應的可信度分數。Document 回應物件包含實體清單。如要進一步瞭解結構化實體,請參閱月結單剖析器快速入門

執行筆記本中的所有儲存格,然後向下捲動至表格式輸出內容。程式碼會逐一檢查每個實體,並使用結果建立 Pandas DataFrame。資料表

現在請捲動至下方的視覺化元件。Document 物件回應包含文件中每個頁面的空間版面配置資訊。在下方,系統會使用每個表單欄位的版面配置資訊,在圖片上繪製邊界框。這項資料可用於將 Document AI 整合至前端應用程式。

poly

8. 恭喜

恭喜!您已成功使用採購文件 AI 解決方案,從月結單中擷取資料。建議您嘗試其他表單類型。

清除

本教學課程需使用資源,如要避免系統向您的 Google Cloud 帳戶收取相關費用,請關閉 Notebook 或刪除 GCP 專案。

關閉 AI 平台筆記本執行個體

請按照這篇文章的操作說明關閉 AI Platform Notebooks 執行個體。

刪除專案

如要避免付費,最簡單的方法就是刪除您為了本教學課程所建立的專案。

如要刪除專案,請進行以下操作:

  1. 前往 GCP 主控台的「Projects」(專案) 頁面。「專案」頁面
  2. 在專案清單中選取您要刪除的專案,並按一下 [Delete] (刪除)
  3. 在對話方塊中輸入專案 ID,然後按一下「Shut down」(關閉) 即可刪除專案。

瞭解詳情

授權

這項內容採用的授權為 Creative Commons 姓名標示 2.0 通用授權。