1. 概览
什么是采购文档 AI?
企业每年要管理庞大的采购流水线,其中包括数千份账单、收据和其他相关文档。使用 Procurement DocAI 智能处理“黑数据”(例如 PDF、图片和手写表单),从而减少采购生命周期的手动开销。通过将非结构化文档(例如账单和收据)转换为结构化数据,自动大规模捕获采购数据,从而提升运营效率、改善客户体验并做出明智决策。
在此 Codelab 中,我们将介绍如何设置 Document AI Platform、处理示例账单,以及如何在 AI Platform 笔记本中提取和可视化实体。
学习内容
- Document AI Platform 使用入门
- 使用采购 DocAI 解决方案提取架构化实体
- 创建和自定义 AI Platform Notebooks 实例
所需条件
调查问卷
您将如何使用本教程?
您如何评价使用 Python 的体验?
您如何评价自己在使用 Google Cloud 服务方面的经验水平?
2. 设置和要求
自定进度的环境设置
请记住项目 ID,它是所有 Google Cloud 项目中的唯一名称。(很抱歉,上述名称已被占用,您无法使用!)您必须稍后将此 ID 作为 PROJECT_ID
提供。
- 接下来,您必须在 Cloud 控制台中启用结算功能才能使用 Google Cloud 资源。
请务必按照“清理”部分中的所有说明操作。此部分建议您如何关停资源,以免产生超出本教程范围的费用。Google Cloud 的新用户符合参与 $300 USD 免费试用计划的条件。
3. 启用 Cloud Document AI API
您必须先启用 Cloud Document AI API,然后才能开始使用 Document AI。在浏览器中打开 Cloud 控制台。
- 依次点击导航菜单 ☰ > API 和服务 > 库。
- 搜索“Document AI API”,然后点击启用,以便在 Google Cloud 项目中使用该 API
4. 创建和测试处理器
您必须先创建一个表单解析器处理器实例,以便在本教程的 Document AI Platform 中使用。
- 在控制台中,导航到 Document AI Platform 概览
- 点击创建处理器,然后选择账单解析器
- 指定处理器名称,然后从列表中选择您的区域。
- 点击创建以创建处理器
- 复制您的处理器 ID。您稍后必须在代码中使用此 ID。
(可选)您可以上传文档,在控制台中测试处理器。点击上传文档,然后选择要解析的表单。如果您没有可用的表单,可以下载并使用此示例表单。
输出应如下所示:
5. 创建 AI Platform Notebook
前往 Cloud 控制台的 AI Platform Notebooks 部分,然后点击新建实例。然后,选择最新的 Python 实例类型:
使用默认选项,然后点击创建。创建实例后,选择打开 JupyterLab。
6. 获取示例代码
直接从 Document AI Notebooks 的 GitHub 代码库导入示例代码。在您的记事本中,依次前往顶部菜单中的 Git > Clone a Repository,或点击 Git 图标:
粘贴以下代码库网址:
https://github.com/GoogleCloudPlatform/documentai-notebooks.git
克隆代码库后,点击 documentai-notebooks/specialized/ 目录,然后打开 specialized_form_parser.ipynb
笔记本。找到声明 GCP 项目 ID 和 Document AI 处理器 ID 的单元格。
粘贴第 4 步中的 GCP 项目 ID 和处理方 ID。保存笔记本。
7. 提取和直观呈现实体
现在,您可以从账单中提取经过架构化的实体及其相应的置信度分数。Document 响应对象包含实体列表。如需详细了解架构化实体,请参阅账单解析器快速入门。
运行笔记本中的所有单元,然后向下滚动到表格输出。之前的代码会遍历每个实体,并使用结果创建 Pandas DataFrame。
现在,滚动到下方的可视化组件。Document 对象响应包含文档中每个页面的空间布局信息。下面,每个表单字段的布局信息用于在图片上绘制边界框。这些数据可用于将 Document AI 集成到前端应用中。
8. 恭喜
恭喜,您已成功使用采购 Document AI 解决方案从账单中提取数据。我们建议您尝试使用其他表单类型。
清理
为避免系统因本教程中使用的资源而向您的 Google Cloud 账号收取费用,您可以关闭笔记本或删除 GCP 项目。
关闭 AI Platform Notebooks 实例
请按照以下说明关闭 AI Platform Notebooks 实例。
删除项目
若要避免产生费用,最简单的方法是删除您为本教程创建的项目。
如需删除项目,请执行以下操作:
- 在 GCP 控制台中,前往项目页面。“项目”页面
- 在项目列表中,选择要删除的项目,然后点击删除。
- 在对话框中输入项目 ID,然后点击关停以删除项目。