Diese Seite wurde von der Cloud Translation API übersetzt.

Document AI Workbench – Aufbautraining

1. Einführung

Document AI ist eine Lösung zum Verständnis von Dokumenten, die unstrukturierte Daten wie Dokumente, E-Mails usw. aufnimmt, um die Daten leichter zu verstehen, zu analysieren und zu nutzen.

Durch die Verwendung von Uptraining mit Document AI Workbench können Sie eine höhere Genauigkeit bei der Dokumentverarbeitung erreichen, indem Sie zusätzliche mit Labels versehene Beispiele für spezialisierte Dokumenttypen bereitstellen und eine neue Modellversion erstellen.

In diesem Lab erstellen Sie einen Rechnungsparser-Prozessor, konfigurieren den Prozessor für das Aufbautraining, fügen Beispieldokumente mit Labels hinzu und trainieren den Prozessor weiter.

Das in diesem Lab verwendete Dokument-Dataset besteht aus zufällig generierten Rechnungen für ein fiktives Rohrleitungsunternehmen.

Voraussetzungen

Dieses Codelab baut auf Inhalten aus anderen Document AI-Codelabs auf.

Bevor Sie fortfahren, sollten Sie die folgenden Codelabs absolvieren.

Aufgaben in diesem Lab

Konfigurieren Sie das Uptraining für einen Rechnungsparser-Prozessor.
Verwenden Sie das Annotationstool, um Document AI-Trainingsdaten mit Labels zu versehen.
Neue Modellversion trainieren.
Bewerten Sie die Genauigkeit der neuen Modellversion.

Voraussetzungen

Ein Google Cloud-Projekt
Ein Browser, z. B. Chrome oder Firefox

2. Einrichtung

In diesem Codelab wird davon ausgegangen, dass Sie die im Einführenden Codelab aufgeführten Schritte zur Document AI-Einrichtung abgeschlossen haben.

Führen Sie die folgenden Schritte aus, bevor Sie fortfahren:

3. Prozessor erstellen

Sie müssen zuerst einen Rechnungsparser-Prozessor für dieses Lab erstellen.

Rufen Sie in der Console die Seite Document AI-Übersicht auf.

docai-uptraining-codelab-01

Klicken Sie auf Prozessor erstellen, scrollen Sie nach unten zu Spezialisiert (oder geben Sie Rechnungsparser in die Suchleiste ein) und wählen Sie Rechnungsparser aus.

docai-uptraining-codelab-02

Geben Sie ihr den Namen codelab-invoice-uptraining oder einen Namen, an den Sie sich erinnern, und wählen Sie aus der Liste die nächstgelegene Region aus.

docai-uptraining-codelab-03

Klicken Sie auf Erstellen, um den Prozessor zu erstellen. Anschließend sollte die Seite „Prozessorübersicht“ angezeigt werden.

docai-uptraining-codelab-04

4. Dataset erstellen

Zum Trainieren des Prozessors müssen wir ein Dataset mit Trainings- und Testdaten erstellen, damit der Prozessor die Entitäten identifizieren kann, die extrahiert werden sollen.

Sie müssen in Cloud Storage einen neuen Bucket erstellen, um das Dataset zu speichern. Hinweis: Dies sollte sich nicht im selben Bucket befinden, in dem Ihre Dokumente derzeit gespeichert sind.

Öffnen Sie Cloud Shell und führen Sie die folgenden Befehle aus, um einen Bucket zu erstellen. Alternativ können Sie in der Cloud Console einen neuen Bucket erstellen. Speichern Sie diesen Bucket-Namen, da Sie ihn später benötigen.

export PROJECT_ID=$(gcloud config get-value project)

gsutil mb -p $PROJECT_ID "gs://${PROJECT_ID}-uptraining-codelab"

Wechseln Sie zum Tab Dataset und klicken Sie auf Dataset erstellen.

docai-uptraining-codelab-05

Fügen Sie den Bucket-Namen aus dem in Schritt 1 erstellten Bucket in das Feld Destination Path (Zielpfad) ein. (gs:// weglassen)

docai-uptraining-codelab-06

Warten Sie, bis das Dataset erstellt wurde. Anschließend sollten Sie zur Seite für die Dataset-Verwaltung weitergeleitet werden.

docai-uptraining-codelab-07

5. Testdokument importieren

Importieren wir nun eine Beispielrechnung im PDF-Format in unser Dataset.

Klicken Sie auf Dokumente importieren.

docai-uptraining-codelab-08

Wir haben eine Beispiel-PDF für dieses Lab vorbereitet. Kopieren Sie den folgenden Link und fügen Sie ihn in das Feld Quellpfad ein. „Datenaufteilung“ verlassen als „Nicht zugewiesen“ vorerst. Klicken Sie auf Importieren.

cloud-samples-data/documentai/codelabs/uptraining/pdfs

docai-uptraining-codelab-09

Warten Sie, bis das Dokument importiert wurde. In meinen Tests hat das weniger als eine Minute gedauert.

docai-uptraining-codelab-10

Wenn der Import abgeschlossen ist, sollten Sie das Dokument in der UI zur Dataset-Verwaltung sehen. Klicken Sie darauf, um die Labeling Console aufzurufen.

docai-uptraining-codelab-11

6. Label für das Testdokument hinzufügen

Als Nächstes identifizieren wir Textelemente und Beschriftungen für die Entitäten, die wir extrahieren möchten. Diese Labels werden verwendet, um unser Modell zu trainieren, um diese spezifische Dokumentstruktur zu parsen und die richtigen Typen zu identifizieren.

Sie sollten sich jetzt in der Labeling-Konsole befinden. Das sieht ungefähr so aus.

docai-uptraining-codelab-12

Klicken Sie auf „Text auswählen“. und markieren Sie den Text „McWilliam Piping International Piping Company“. und weisen Sie das Label supplier_name zu. Mit dem Textfilter können Sie nach Labelnamen suchen.

docai-uptraining-codelab-13

Markieren Sie den Text „14368 Pipeline Ave Chino, CA 91710“. und weisen Sie das Label supplier_address zu.

docai-uptraining-codelab-14

Markieren Sie den Text „10001“. und weisen Sie das Label invoice_id zu.

docai-uptraining-codelab-15

Markieren Sie den Text „2020-01-02“ und weisen Sie das Label due_date zu.

docai-uptraining-codelab-16

Zum Begrenzungsrahmen wechseln . Markieren Sie den Text „Knuckle Couplers“. und weisen Sie das Label line_item/description zu.

docai-uptraining-codelab-17

Markieren Sie den Text „9“ und weisen Sie das Label line_item/quantity zu.

docai-uptraining-codelab-18

Markieren Sie den Text „74,43“. und weisen Sie das Label line_item/unit_price zu.

docai-uptraining-codelab-19

Markieren Sie den Text „669.87“. und weisen Sie das Label line_item/amount zu.

docai-uptraining-codelab-20

Wiederholen Sie die vorherigen vier Schritte für die nächsten beiden Werbebuchungen. Wenn der Vorgang abgeschlossen ist, sollte das so aussehen.

docai-uptraining-codelab-21

Markieren Sie den Text „1.419.57“. (neben „Zwischensumme“) und weisen Sie das Label net_amount zu.

docai-uptraining-codelab-22

Markieren Sie den Text „113.57“. (neben Steuern) und weisen Sie das Label total_tax_amount zu.

docai-uptraining-codelab-23

Markieren Sie den Text „1.533.14“. (neben „Gesamt“) und weisen Sie das Label total_amount zu.

docai-uptraining-codelab-24

Markieren Sie eines der „$“ Zeichen und weisen Sie das Label currency zu.

docai-uptraining-codelab-25

Das mit einem Label versehene Dokument sollte nach Fertigstellung wie folgt aussehen. Hinweis: Sie können Anpassungen an diesen Labels vornehmen, indem Sie auf den Begrenzungsrahmen im Dokument oder auf den Namen/Wert des Labels im Menü auf der linken Seite klicken. Klicken Sie auf Speichern, wenn Sie mit dem Hinzufügen von Labels fertig sind.

docai-uptraining-codelab-26

Hier ist eine vollständige Liste der Labels und Werte,

Labelname	Text
`supplier_name`	McWilliam Piping International Piping Company
`supplier_address`	14368 Pipeline Ave Chino, CA 91710, USA
`invoice_id`	10001
`due_date`	2020-01-02
`line_item/description`	Janney-Kupplung
`line_item/quantity`	9
`line_item/unit_price`	74,43
`line_item/amount`	669,87
`line_item/description`	PVC-Rohre 12"
`line_item/quantity`	7
`line_item/unit_price`	15,90
`line_item/amount`	111,30
`line_item/description`	Kupferrohr
`line_item/quantity`	7
`line_item/unit_price`	91,20
`line_item/amount`	638,40
`net_amount`	1.419,57
`total_tax_amount`	113,57
`total_amount`	1.533,14
`currency`	€

7. Dokument dem Trainings-Dataset zuweisen

Sie sollten sich jetzt wieder in der Dataset-Verwaltungskonsole befinden. Beachten Sie, dass sich sowohl die Anzahl der Dokumente mit und ohne Label als auch die Anzahl der aktiven Labels geändert haben.

docai-uptraining-codelab-27

Wir müssen dieses Dokument entweder dem oder „Testen“ festgelegt. Klicken Sie auf das Dokument.

docai-uptraining-codelab-28

Klicken Sie auf Assign to Set (Zum Festlegen zuweisen) und dann auf Training (Training).

docai-uptraining-codelab-29

Beachten Sie, dass sich die Zahlen für die Datenaufteilung geändert haben.

docai-uptraining-codelab-30

8. Vorab mit Labels versehene Daten importieren

Das Document AI-Training benötigt im Trainings- und im Test-Dataset mindestens 10 Dokumente sowie jeweils 10 Instanzen jedes Labels in jedem Dataset.

Für eine optimale Leistung wird empfohlen, in jedem Satz mindestens 50 Dokumente mit 50 Instanzen jedes Labels zu haben. Eine größere Menge an Trainingsdaten führt in der Regel zu einer höheren Genauigkeit.

Es wird sehr lange dauern, 100 Dokumente manuell mit Labels zu versehen. Daher haben wir einige bereits mit Labels versehene Dokumente, die Sie für dieses Lab importieren können.

Sie können Dokumentdateien mit vorinstallierten Labels im Document.json-Format importieren. Dies kann durch das Aufrufen eines Prozessors und die Überprüfung der Genauigkeit mithilfe von Human in the Loop (HITL) entstehen.

Klicken Sie auf Dokumente importieren.

docai-uptraining-codelab-30

Kopieren Sie den folgenden Cloud Storage-Pfad und fügen Sie ihn ein und weisen Sie ihn dem Dataset Training zu.

cloud-samples-data/documentai/codelabs/uptraining/training

Klicken Sie auf Weiteren Bucket hinzufügen. Kopieren Sie dann den folgenden Cloud Storage-Pfad und fügen Sie ihn ein und weisen Sie ihn dem Set Test zu.

cloud-samples-data/documentai/codelabs/uptraining/test

docai-uptraining-codelab-31

Klicken Sie auf Importieren und warten Sie, bis die Dokumente importiert wurden. Dies dauert länger als beim letzten Mal, da noch mehr Dokumente verarbeitet werden müssen. In meinen Tests dauerte dies etwa 6 Minuten. Sie können diese Seite in der Zwischenzeit verlassen und später wieder zurückkehren.

docai-uptraining-codelab-32

Anschließend sollten die Dokumente auf der Seite „Dataset-Verwaltung“ angezeigt werden.

docai-uptraining-codelab-33

9. Labels bearbeiten

Die in diesem Beispiel verwendeten Beispieldokumente enthalten nicht jedes vom Rechnungsparser unterstützte Label. Wir müssen die Labels, die wir nicht verwenden, vor dem Training als inaktiv markieren. Sie können ähnliche Schritte auch ausführen, um vor dem Aufbautraining ein benutzerdefiniertes Label hinzuzufügen.

Klicken Sie links unten auf Labels verwalten.

docai-uptraining-codelab-33

Sie sollten sich jetzt in der Konsole für die Labelverwaltung befinden.

docai-uptraining-codelab-34

Verwenden Sie die Kästchen und die Schaltflächen Deaktivieren/Aktivieren, um NUR die folgenden Labels als Aktiviert zu markieren.
- currency
- due_date
- invoice_id
- line_item/amount
- line_item/description
- line_item/quantity
- line_item/unit_price
- net_amount
- supplier_address
- supplier_name
- total_amount
- total_tax_amount
Die Konsole sollte nach Abschluss folgendermaßen aussehen. Klicken Sie abschließend auf Speichern.

docai-uptraining-codelab-35

Klicken Sie auf den Zurückpfeil, um zur Dataset-Verwaltungskonsole zurückzukehren. Beachten Sie, dass die Labels mit 0 Instanzen als inaktiv markiert wurden.

docai-uptraining-codelab-36

10. Optional: neu importierte Dokumente automatisch mit Labels versehen

Wenn Sie Dokumente ohne Label für einen Prozessor mit einer vorhandenen Prozessorversion importieren, können Sie mit der automatischen Labelerstellung bei der Labelerstellung Zeit sparen.

Klicken Sie auf der Seite Trainieren auf Import Documents (Dokumente importieren).
Kopieren Sie den folgenden -Pfad und fügen Sie ihn ein. Dieses Verzeichnis enthält fünf Rechnungs-PDFs ohne Labels. Wählen Sie in der Drop-down-Liste Datenaufteilung die Option Training aus.
```
cloud-samples-data/documentai/Custom/Invoices/PDF_Unlabeled
```
Klicken Sie im Bereich Automatisches Labeling das Kästchen Mit automatischem Labeling importieren an.
Wählen Sie eine vorhandene Prozessorversion aus, um den Dokumenten Labels hinzuzufügen.

Beispiel: pretrained-invoice-v1.3-2022-07-15

Klicken Sie auf Importieren und warten Sie, bis die Dokumente importiert wurden. Sie können diese Seite in der Zwischenzeit verlassen und später wieder zurückkehren.

Anschließend werden die Dokumente auf der Seite Trainieren im Bereich Automatisch mit Label versehen angezeigt.

Automatisch mit Labels versehene Dokumente können nicht für Trainings- oder Testzwecke verwendet werden, ohne sie als „Mit Label versehen“ zu markieren. Im Bereich Automatisch mit Labels versehen können Sie sich die Dokumente mit automatisch hinzugefügten Labels ansehen.
Wählen Sie das erste Dokument aus, um die Labeling-Konsole aufzurufen.
Prüfen Sie, ob die Labels, Begrenzungsrahmen und Werte korrekt sind. Kennzeichnen Sie alle Werte, die weggelassen wurden, mit einem Label.
Wählen Sie abschließend Als gekennzeichnet markieren aus.
Wiederholen Sie die Labelüberprüfung für jedes Dokument mit automatischem Label und kehren Sie dann zur Seite Trainieren zurück, um die Daten für das Training zu verwenden.

11. Aufbautraining des Modells durchführen

Jetzt können wir mit dem Training des Rechnungsparsers beginnen.

Klicken Sie auf Train New Version (Neue Version trainieren).

docai-uptraining-codelab-36

Geben Sie der Version einen Namen, an den Sie sich erinnern, z. B. codelab-uptraining-test-1. Die Basisversion ist die Modellversion, aus der diese neue Version erstellt wird. Wenn Sie einen neuen Prozessor verwenden, sollte Google Pretrained Next with Uptraining (Google Pretrained Next mit Uptraining) verwendet werden.

docai-uptraining-codelab-37

(Optional) Sie können auch Labelstatistiken anzeigen auswählen, um Messwerte zu den Labels in Ihrem Dataset anzuzeigen.

docai-uptraining-codelab-38

Klicken Sie auf Training starten, um mit dem Aufbautraining zu beginnen. Sie werden daraufhin automatisch zur Seite für die Dataset-Verwaltung weitergeleitet. Rechts auf der Seite sehen Sie den Trainingsstatus. Das Training dauert einige Stunden. Sie können diese Seite in der Zwischenzeit verlassen und später wieder zurückkehren.

docai-uptraining-codelab-39

Wenn Sie auf den Versionsnamen klicken, werden Sie zur Seite Versionen verwalten weitergeleitet, auf der die Versions-ID und der aktuelle Status des Trainingsjobs angezeigt werden.

docai-uptraining-codelab-40

12. Neue Modellversion testen

Sobald der Trainingsjob abgeschlossen ist (in meinen Tests hat es etwa eine Stunde gedauert), können Sie jetzt die neue Modellversion testen und für Vorhersagen verwenden.

Rufen Sie die Seite Versionen verwalten auf. Hier sehen Sie den aktuellen Status und den F1-Wert.

docai-uptraining-codelab-41

Wir müssen diese Modellversion bereitstellen, bevor wir sie verwenden können. Klicken Sie rechts auf die vertikalen Punkte und wählen Sie Deploy Version (Version bereitstellen) aus.

docai-uptraining-codelab-42

Wählen Sie im Pop-up-Fenster Bereitstellen aus, wenn Sie auf die Bereitstellung der Version warten. Das dauert einige Minuten. Nach der Bereitstellung können Sie diese Version auch als Standardversion festlegen.

docai-uptraining-codelab-43

Wechseln Sie nach der Bereitstellung zum Tab Bewerten. Klicken Sie dann auf das Dropdown-Menü Version und wählen Sie unsere neu erstellte Version aus.

docai-uptraining-codelab-44

Auf dieser Seite finden Sie Bewertungsmesswerte wie F1-Wert, Genauigkeit und Trefferquote für das gesamte Dokument sowie für einzelne Labels. Weitere Informationen zu diesen Messwerten finden Sie in der AutoML-Dokumentation.
Laden Sie die unten verlinkte PDF-Datei herunter. Dies ist ein Beispieldokument, das nicht im Trainings- oder Test-Dataset enthalten war.

Klicken Sie auf Upload Test Document (Testdokument hochladen) und wählen Sie die PDF-Datei aus.

docai-uptraining-codelab-45

Die extrahierten Entitäten sollten in etwa so aussehen.

docai-uptraining-codelab-46

13. Fazit

Herzlichen Glückwunsch! Sie haben mit Document AI das Aufbautraining eines Rechnungsparsers durchgeführt. Sie können diesen Prozessor jetzt genau wie alle spezialisierten Auftragsverarbeiter verwenden, um Rechnungen zu parsen.

Informationen zur Verarbeitung der Verarbeitungsantwort finden Sie im Codelab zu spezialisierten Prozessoren.

Clean-up

So vermeiden Sie, dass Ihrem Google Cloud-Konto die in dieser Anleitung verwendeten Ressourcen in Rechnung gestellt werden:

Rufen Sie in der Cloud Console die Seite Ressourcen verwalten auf.
Wählen Sie Ihr Projekt in der Projektliste aus und klicken Sie auf „Löschen“.
Geben Sie im Dialogfeld die Projekt-ID ein und klicken Sie dann auf „Beenden“, um das Projekt zu löschen.

Ressourcen

Lizenz

Dieser Text ist mit einer Creative Commons Attribution 2.0 Generic License lizenziert.

Document AI Workbench – Aufbautraining Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.

1. Einführung

Voraussetzungen

Aufgaben in diesem Lab

Voraussetzungen

2. Einrichtung

3. Prozessor erstellen

4. Dataset erstellen

5. Testdokument importieren

6. Label für das Testdokument hinzufügen

7. Dokument dem Trainings-Dataset zuweisen

8. Vorab mit Labels versehene Daten importieren

9. Labels bearbeiten

10. Optional: neu importierte Dokumente automatisch mit Labels versehen

11. Aufbautraining des Modells durchführen

12. Neue Modellversion testen

13. Fazit

Clean-up

Ressourcen

Lizenz

Document AI Workbench – Aufbautraining