1. 概要
調達向け Document AI とは
企業は毎年、数千の請求書や領収書などの関連ドキュメントを含む大規模な調達パイプラインを管理しています。Procurement DocAI を使用して「ダークデータ」をインテリジェントに処理PDF、画像、手書きフォームなどのデータ・ファイルを エクスポートして 調達ライフサイクルの手作業の オーバーヘッドを削減できます請求書や領収書などの非構造化ドキュメントを構造化データに変換して運用効率を高め、カスタマー エクスペリエンスを向上させ、意思決定に情報を提供することで、調達データのキャプチャを大規模に自動化します。
この Codelab では、Document AI Platform の設定、請求書のサンプルの処理、AI Platform Notebooks でのエンティティの抽出と可視化を行う方法について学習します。
学習内容
- Document AI Platform の使用を開始する方法
- Procurement DocAI ソリューションを使用して、スキーマ化されたエンティティを抽出する
- AI Platform Notebooks インスタンスを作成してカスタマイズする
必要なもの
アンケート
このチュートリアルをどのように使用されますか?
Python のご利用経験はどの程度ありますか?
Google Cloud サービスの使用経験はどの程度ありますか?
<ph type="x-smartling-placeholder">2. 設定と要件
セルフペース型の環境設定
- Cloud Console にログインし、新しいプロジェクトを作成するか、既存のプロジェクトを再利用します(Gmail アカウントまたは G Suite アカウントをお持ちでない場合は、アカウントを作成する必要があります)。
プロジェクト ID を忘れないようにしてください。プロジェクト ID はすべての Google Cloud プロジェクトで一意の名前にする必要があります。(上の名前はすでに使用されているため、使用できません)。以降では、PROJECT_ID
の箇所にこの ID を使用してください。
- 次に、Google Cloud リソースを使用するために、Cloud コンソールで課金を有効にする必要があります。
「クリーンアップ」セクションにある指示に従ってください。ここには、このチュートリアルの終了後に課金が発生しないようにリソースをシャットダウンする方法が記載されています。Google Cloud の新規ユーザーは、300 米ドル分の無料トライアル プログラムをご利用いただけます。
3. Cloud Document AI API を有効にする
Document AI を使用する前に、API を有効にする必要があります。ブラウザで Cloud コンソールを開きます。
- ナビゲーション メニュー > [API とサービス] > [ライブラリ]
をクリックします。
- “Document AI API”を検索します次に、[有効にする] をクリックして、Google Cloud プロジェクトで API を使用します。
4. プロセッサを作成してテストする
このチュートリアルでは最初に、Document AI Platform で使用する Form Parser プロセッサのインスタンスを作成する必要があります。
- コンソールで [Document AI Platform Overview] に移動します。
- [プロセッサを作成] をクリックして、[Invoice Parser] を選択します。
- プロセッサ名を指定し、リストからリージョンを選択します。
- [作成] をクリックして、プロセッサを作成します。
- プロセッサ ID をコピーします。これは、後でコードを作成する際に使用します。
(省略可)ドキュメントをアップロードして、コンソールでプロセッサをテストできます。[Upload Document] をクリックして、解析するフォームを選択します。利用できるフォームがない場合は、このサンプル フォームをダウンロードして使用できます。
出力は次のようになります。
5. AI Platform Notebooks を作成する
Cloud コンソールの [AI Platform Notebooks] セクションに移動し、[新しいインスタンス] をクリックします。最新の Python インスタンス タイプを選択します。
デフォルトのオプションを使用して、[作成] をクリックします。インスタンスが作成されたら、[JupyterLab を開く] を選択します。
6. サンプルコードを取得する
Document AI Notebooks の GitHub リポジトリからサンプルコードを直接インポートする。ノートブックで [Git] > [上部のメニューでリポジトリのクローンを作成するか、Git アイコン()をクリックします。
次のリポジトリ URL を貼り付けます。
https://github.com/GoogleCloudPlatform/documentai-notebooks.git
リポジトリのクローンが作成されたら、documentai-notebooks/specialized/ ディレクトリをクリックして specialized_form_parser.ipynb
ノートブックを開きます。GCP プロジェクトと Document AI プロセッサ ID が宣言されているセルを見つけます。
ステップ 4 の GCP プロジェクト ID とプロセッサ ID を貼り付けます。ノートブックを保存します。
7. エンティティの抽出と可視化
これで、請求書とそれに対応する信頼スコアから、スキーマ化されたエンティティを抽出できるようになりました。Document レスポンス オブジェクトには、エンティティのリストが含まれます。スキーマ化されたエンティティの詳細については、Invoice パーサーのクイックスタートをご覧ください。
ノートブックのすべてのセルを実行し、表形式の出力までスクロールします。このコードは、各エンティティに対して事前に反復処理を行い、その結果を使用して Pandas DataFrame を作成します。
下までスクロールして可視化コンポーネントを表示します。Document オブジェクトのレスポンスには、ドキュメントの各ページの空間レイアウト情報が含まれます。以下では、各フォーム フィールドのレイアウト情報を使用して、画像上に境界ボックスを描画します。このデータは、Document AI をフロントエンド アプリケーションに統合するために使用できます。
8. 完了
これで、調達向け Document AI ソリューションを使用して請求書からデータを抽出することができました。他のタイプのフォームを試してみることをおすすめします。
クリーンアップ
このチュートリアルで使用したリソースについて、Google Cloud アカウントに課金されないようにするには、ノートブックをシャットダウンするか、GCP プロジェクトを削除します。
AI Platform Notebooks インスタンスをシャットダウンする
AI Platform Notebooks インスタンスをシャットダウンするの手順に沿って操作します。
プロジェクトの削除
課金を停止する最も簡単な方法は、チュートリアル用に作成したプロジェクトを削除することです。
プロジェクトを削除するには、次の操作を行います。
- GCP Console でプロジェクト ページに移動します。プロジェクト ページ
- プロジェクト リストで、削除するプロジェクトを選択し、[削除] をクリックします。
- ダイアログでプロジェクト ID を入力し、[シャットダウン] をクリックしてプロジェクトを削除します。