使用 Procurement Document AI 通过 AI Platform Notebooks 解析账单

1. 概览

c65b9ae04aa1853.png

什么是采购文档 AI?

企业每年要管理庞大的采购流水线,其中包括数千份账单、收据和其他相关文档。使用 Procurement DocAI 智能处理“黑数据”(例如 PDF、图片和手写表单),从而减少采购生命周期的手动开销。通过将非结构化文档(例如账单和收据)转换为结构化数据,自动大规模捕获采购数据,从而提升运营效率、改善客户体验并做出明智决策。

在此 Codelab 中,我们将介绍如何设置 Document AI Platform、处理示例账单,以及如何在 AI Platform 笔记本中提取和可视化实体。

学习内容

  • Document AI Platform 使用入门
  • 使用采购 DocAI 解决方案提取架构化实体
  • 创建和自定义 AI Platform Notebooks 实例

所需条件

  • Google Cloud 项目
  • 一个浏览器,例如 ChromeFirefox
  • 了解 Python 3

调查问卷

您将如何使用本教程?

仅阅读教程内容 阅读并完成练习

您如何评价使用 Python 的体验?

新手水平 中等水平 熟练水平

您如何评价自己在使用 Google Cloud 服务方面的经验水平?

新手 中等 熟练

2. 设置和要求

自定进度的环境设置

  1. 登录 Cloud 控制台,然后创建一个新项目或重复使用现有项目。 (如果您还没有 Gmail 或 G Suite 账号,则必须创建一个。)

请记住项目 ID,它是所有 Google Cloud 项目中的唯一名称。(很抱歉,上述名称已被占用,您无法使用!)您必须稍后将此 ID 作为 PROJECT_ID 提供。

  1. 接下来,您必须在 Cloud 控制台中启用结算功能才能使用 Google Cloud 资源。

请务必按照“清理”部分中的所有说明操作。此部分建议您如何关停资源,以免产生超出本教程范围的费用。Google Cloud 的新用户符合参与 $300 USD 免费试用计划的条件。

3. 启用 Cloud Document AI API

您必须先启用 Cloud Document AI API,然后才能开始使用 Document AI。在浏览器中打开 Cloud 控制台

  1. 依次点击导航菜单 ☰ > API 和服务 > Search API
  2. 搜索“Document AI API”,然后点击启用,以便在 Google Cloud 项目中使用该 API

4. 创建和测试处理器

您必须先创建一个表单解析器处理器实例,以便在本教程的 Document AI Platform 中使用。

  1. 在控制台中,导航到 Document AI Platform 概览
  2. 点击创建处理器,然后选择账单解析器处理器
  3. 指定处理器名称,然后从列表中选择您的区域。
  4. 点击创建以创建处理器
  5. 复制您的处理器 ID。您稍后必须在代码中使用此 ID。

(可选)您可以上传文档,在控制台中测试处理器。点击上传文档,然后选择要解析的表单。如果您没有可用的表单,可以下载并使用此示例表单。

账单

输出应如下所示:已解析的账单

5. 创建 AI Platform Notebook

前往 Cloud 控制台的 AI Platform Notebooks 部分,然后点击新建实例。然后,选择最新的 Python 实例类型:

a81c82876c6c16f9.png

使用默认选项,然后点击创建。创建实例后,选择打开 JupyterLab

6. 获取示例代码

直接从 Document AI Notebooks 的 GitHub 代码库导入示例代码。在您的记事本中,依次前往顶部菜单中的 Git > Clone a Repository,或点击 Git 图标:Git

粘贴以下代码库网址:

https://github.com/GoogleCloudPlatform/documentai-notebooks.git

克隆代码库后,点击 documentai-notebooks/specialized/ 目录,然后打开 specialized_form_parser.ipynb 笔记本。找到声明 GCP 项目 ID 和 Document AI 处理器 ID 的单元格。

vars

粘贴第 4 步中的 GCP 项目 ID 和处理方 ID。保存笔记本。

7. 提取和直观呈现实体

现在,您可以从账单中提取经过架构化的实体及其相应的置信度分数。Document 响应对象包含实体列表。如需详细了解架构化实体,请参阅账单解析器快速入门

运行笔记本中的所有单元,然后向下滚动到表格输出。之前的代码会遍历每个实体,并使用结果创建 Pandas DataFrame。桌子

现在,滚动到下方的可视化组件。Document 对象响应包含文档中每个页面的空间布局信息。下面,每个表单字段的布局信息用于在图片上绘制边界框。这些数据可用于将 Document AI 集成到前端应用中。

polys

8. 恭喜

恭喜,您已成功使用采购 Document AI 解决方案从账单中提取数据。我们建议您尝试使用其他表单类型。

清理

为避免系统因本教程中使用的资源而向您的 Google Cloud 账号收取费用,您可以关闭笔记本或删除 GCP 项目。

关闭 AI Platform Notebooks 实例

请按照以下说明关闭 AI Platform Notebooks 实例

删除项目

若要避免产生费用,最简单的方法是删除您为本教程创建的项目。

如需删除项目,请执行以下操作:

  1. 在 GCP 控制台中,前往项目页面。“项目”页面
  2. 在项目列表中,选择要删除的项目,然后点击删除
  3. 在对话框中输入项目 ID,然后点击关停以删除项目。

了解详情

许可

此作品已获得 Creative Commons Attribution 2.0 通用许可授权。