1. 概览
什么是 Procurement Document AI?
企业管理着大型的采购渠道,包括每年数以千计的账单、收据和其他相关文件。使用 Procurement DocAI 智能地处理“暗数据”(例如 PDF、图片和手写表单),从而减少采购生命周期中的手动开销。通过将非结构化文档(例如账单和收据)转换为结构化数据,自动大规模捕获采购数据,从而提升运营效率、改善客户体验并做出明智决策。
在此 Codelab 中,我们将介绍如何设置 Document AI Platform、处理示例账单,以及如何在 AI Platform Notebook 中提取和直观呈现实体。
学习内容
- 如何开始使用 Document AI Platform
- 使用 Procurement DocAI 解决方案提取架构化实体
- 创建和自定义 AI Platform Notebooks 实例
所需条件
调查问卷
您将如何使用本教程?
您如何评价使用 Python 的体验?
您如何评价自己在使用 Google Cloud 服务方面的经验水平?
<ph type="x-smartling-placeholder">2. 设置和要求
自定进度的环境设置
记住项目 ID,这是所有 Google Cloud 项目中的唯一名称。(抱歉,以上姓名已被占用,您不能使用!)。您稍后必须以 PROJECT_ID
的形式提供此 ID。
- 接下来,您必须在 Cloud 控制台中启用结算功能才能使用 Google Cloud 资源。
请务必按照“清理”部分部分。此部分建议您如何关停资源,以免产生超出本教程范围的费用。Google Cloud 的新用户符合参与 $300 USD 免费试用计划的条件。
3. 启用 Cloud Document AI API
您必须先启用该 API,然后才能开始使用 Document AI。在浏览器中打开 Cloud 控制台。
- 依次点击导航菜单 ☰ > API 和服务 > 库。
- 搜索“Document AI API”然后点击启用,以便在您的 Google Cloud 项目中使用该 API
4. 创建和测试处理器
您必须先创建一个表单解析器处理器实例,以便在本教程的 Document AI Platform 中使用。
- 在控制台中,导航到 Document AI Platform 概览
- 点击 Create Processor,然后选择 Invoice Parser
- 指定处理器名称并从列表中选择您的区域。
- 点击 Create 以创建处理器
- 复制处理器 ID。您稍后必须在代码中使用此 ID。
(可选)您可以通过上传文档在控制台中测试处理器。点击 Upload Document(上传文件),然后选择要解析的表单。如果您没有可用的示例表单,可以下载并使用该表单。
输出应如下所示:
5. 创建 AI Platform 笔记本
前往 Cloud 控制台的 AI Platform Notebooks 部分,然后点击新建实例。然后选择最新的 Python 实例类型:
使用默认选项,然后点击创建。创建实例后,选择打开 JupyterLab。
6. 获取示例代码
直接从 Document AI Notebooks GitHub 代码库导入示例代码。在笔记本中,导航到 Git >顶部菜单中的 Clone a Repository,或点击 Git 图标:
粘贴以下代码库网址:
https://github.com/GoogleCloudPlatform/documentai-notebooks.git
克隆完代码库后,点击 documentai-notebooks/specialized/ 目录并打开 specialized_form_parser.ipynb
笔记本。找到声明了 GCP 项目 ID 和 Document AI 处理器 ID 的单元格。
粘贴您在第 4 步中获取的 GCP 项目 ID 和处理方 ID。保存笔记本。
7. 提取并直观呈现实体
现在,您可以从账单及其相应的置信度分数中提取架构化实体。Document 响应对象包含实体列表。如需详细了解架构化实体,请参阅 Invoice Parser 快速入门。
运行笔记本中的所有单元,然后向下滚动到表格输出。代码先遍历每个实体,并使用结果创建 Pandas DataFrame。
现在,滚动到下方的可视化组件。Document 对象响应包含文档中每个页面的空间布局信息。如下所示,每个表单字段上的布局信息用于在图片上绘制边界框。这些数据可用于将 Document AI 集成到前端应用中。
8. 恭喜
恭喜,您已成功使用 Procurment Document AI 解决方案从账单中提取数据。我们建议您尝试其他表单类型。
清理
为避免因本教程中使用的资源导致您的 Google Cloud 账号产生费用,您可以关停笔记本或删除 GCP 项目。
正在关停 AI Platform Notebooks 实例
请按照以下说明关停 AI Platform Notebooks 实例。
删除项目
若要避免产生费用,最简单的方法是删除您为本教程创建的项目。
如需删除项目,请执行以下操作:
- 在 GCP Console 中,转到项目页面。“项目”页面
- 在项目列表中,选择要删除的项目,然后点击删除。
- 在对话框中输入项目 ID,然后点击关停以删除项目。