1. 概览

Procurement Document AI 是什么?
企业每年管理着庞大的采购流水线,其中包括数千份账单、收据和其他相关文档。使用 Procurement DocAI 智能处理“暗数据”(例如 PDF、图片和手写表单),以减少采购生命周期的手动开销。通过将非结构化文档(例如账单和收据)转换为结构化数据,自动大规模捕获采购数据,从而提升运营效率、改善客户体验并做出明智决策。
在此 Codelab 中,我们将介绍如何设置 Document AI Platform、处理示例账单、提取实体并在 AI Platform Notebook 中直观呈现实体。
学习内容
- 如何开始使用 Document AI Platform
- 使用 Procurement DocAI 解决方案提取架构化实体
- 创建和自定义 AI Platform Notebooks 实例
所需条件
调查问卷
您将如何使用本教程?
您如何评价使用 Python 的体验?
您如何评价自己在使用 Google Cloud 服务方面的经验水平?
2. 设置和要求
自定进度的环境设置



请记住项目 ID,它是所有 Google Cloud 项目中的唯一名称。(上述名称已被占用,您无法使用,抱歉!)。您稍后必须将此 ID 作为 PROJECT_ID 提供。
- 接下来,您必须在 Cloud 控制台中启用结算功能才能使用 Google Cloud 资源。
请务必按照“清理”部分中的所有说明操作。此部分建议您如何关停资源,以免产生超出本教程范围的费用。Google Cloud 的新用户符合参与 $300 USD 免费试用 计划的条件。
3. 启用 Cloud Document AI API
您必须先启用 Document AI API,然后才能开始使用 Document AI。在浏览器中打开 Cloud 控制台。
- 依次点击导航菜单 ☰ > API 和服务 > 库。

- 搜索“Document AI API”,然后点击启用 ,以便在您的 Google Cloud 云项目中使用该 API
4. 创建和测试处理器
您必须先创建一个表单解析器处理器实例,以便在本教程的 Document AI Platform 中使用。
- 在控制台中,导航到 Document AI Platform 概览
- 点击创建处理器 ,然后选择账单解析器

- 指定处理器名称,然后从列表中选择您的区域。
- 点击创建 以创建处理器。
- 复制您的处理器 ID。您稍后在代码中会用到该 ID。
(可选)您可以在控制台中上传文档来测试所创建的处理器。点击上传文档 ,然后选择要解析的表单。如果您没有可用的示例表单,可以下载并使用此示例表单。

输出应如下所示:
5. 创建 AI Platform Notebook
前往 Cloud 控制台的 AI Platform Notebooks 部分,然后点击 新建实例。然后,选择最新的 Python 实例类型:

使用默认选项,然后点击创建 。创建实例后,选择打开 JupyterLab 。
6. 获取示例代码
直接从 Document AI Notebooks Github 代码库导入示例代码。在笔记本中,您可以前往顶部菜单中的 Git > 克隆代码库 ,也可以点击 Git 图标:
粘贴以下代码库网址:
https://github.com/GoogleCloudPlatform/documentai-notebooks.git
克隆代码库后,依次点击 documentai-notebooks/specialized/ 目录,然后打开 specialized_form_parser.ipynb 笔记本。找到声明 GCP 项目和 Document AI 处理器 ID 的单元格。

粘贴您在第 4 步中获取的 GCP 项目 ID 和处理器 ID。保存笔记本。
7. 提取和直观呈现实体
现在,您可以从账单中提取架构化实体及其对应的置信度得分。Document 响应对象包含实体列表。如需详细了解架构化实体,请参阅账单解析器快速入门。
运行笔记本中的所有单元格,然后向下滚动到表格输出。之前的代码会遍历每个实体,并使用结果创建一个 Pandas DataFrame。
现在,向下滚动到可视化组件。Document 对象响应包含文档中每个页面的空间布局信息。在下图中,每个表单字段的布局信息用于在图片上绘制边界框。此数据可用于将 Document AI 集成到前端应用中。

8. 恭喜
恭喜!您已成功使用 Procurement Document AI 解决方案从账单中提取数据。我们建议您尝试使用其他表单类型。
清理
为避免系统因本教程中使用的资源向您的 Google Cloud 账号收取费用,您可以关停笔记本或删除 GCP 项目。
关停 AI Platform Notebooks 实例
按照以下说明关停 AI Platform Notebooks 实例。
删除项目
若要避免产生费用,最简单的方法是删除您为本教程创建的项目。
如需删除项目,请执行以下操作:
- 在 GCP 控制台中,转到项目 页面。“项目”页面
- 在项目列表中,选择要删除的项目,然后点击删除 。
- 在对话框中输入项目 ID,然后点击关停 以删除项目。