Tài liệu AI Workbench – Đào tạo nâng cao

1. Giới thiệu

AI của tài liệu là một giải pháp phân tích tài liệu, có thể sử dụng dữ liệu phi cấu trúc, chẳng hạn như tài liệu, email, v.v., đồng thời giúp dữ liệu trở nên dễ hiểu, phân tích và sử dụng hơn.

Bằng cách sử dụng quá trình nâng cao thông qua Document AI Workbench, bạn có thể xử lý tài liệu chính xác hơn bằng cách cung cấp các ví dụ có gắn nhãn bổ sung cho các Loại tài liệu chuyên dụng và tạo phiên bản mô hình mới.

Trong phòng thí nghiệm này, bạn sẽ tạo một trình xử lý Trình phân tích cú pháp hoá đơn, định cấu hình cho việc đào tạo lại đơn vị xử lý, gắn nhãn tài liệu mẫu và nâng cấp cho họ.

Tập dữ liệu tài liệu được dùng trong phòng thí nghiệm này bao gồm các hoá đơn được tạo ngẫu nhiên cho một công ty sản xuất đường ống hư cấu.

Điều kiện tiên quyết

Lớp học lập trình này dựa trên nội dung có trong các Lớp học lập trình khác về AI tạo tài liệu.

Bạn nên hoàn tất các Lớp học lập trình sau đây trước khi tiếp tục.

Kiến thức bạn sẽ học được

  • Định cấu hình quá trình huấn luyện thêm cho trình xử lý Trình phân tích cú pháp hoá đơn.
  • Dữ liệu đào tạo về Gắn nhãn tài liệu bằng AI bằng công cụ chú thích.
  • Huấn luyện phiên bản mô hình mới.
  • Đánh giá độ chính xác của phiên bản mô hình mới.

Bạn cần có

  • Một dự án trong Google Cloud
  • Một trình duyệt, chẳng hạn như Chrome hoặc Firefox

2. Thiết lập

Lớp học lập trình này giả định bạn đã hoàn tất các bước Thiết lập AI cho tài liệu được liệt kê trong Lớp học lập trình giới thiệu.

Vui lòng hoàn tất các bước sau đây trước khi tiếp tục:

3. Tạo Bộ xử lý

Trước tiên, bạn phải tạo Trình xử lý phân tích cú pháp hoá đơn để sử dụng cho phòng thí nghiệm này.

  1. Trong bảng điều khiển, hãy chuyển đến trang Tổng quan về AI của tài liệu.

docai-uptraining-codelab-01

  1. Nhấp vào Tạo bộ xử lý, di chuyển xuống mục Chuyên ngành (hoặc nhập "Trình phân tích cú pháp hoá đơn" trong thanh tìm kiếm) rồi chọn Trình phân tích cú pháp hoá đơn.

docai-uptraining-codelab-02

  1. Đặt tên cho khu vực đó codelab-invoice-uptraining (hoặc tên khác bạn sẽ nhớ) và chọn khu vực gần nhất trong danh sách.

docai-uptraining-codelab-03

  1. Nhấp vào Tạo để tạo bộ xử lý. Sau đó, bạn sẽ thấy trang Tổng quan về bộ xử lý.

docai-uptraining-codelab-04

4. Tạo Tập dữ liệu

Để huấn luyện đơn vị xử lý, chúng ta sẽ phải tạo một tập dữ liệu có dữ liệu huấn luyện và kiểm thử để giúp họ xác định các thực thể mà chúng ta muốn trích xuất.

Bạn cần tạo một bộ chứa mới trong Cloud Storage để lưu trữ tập dữ liệu. Lưu ý: Bộ chứa này không được dùng cùng bộ chứa nơi tài liệu của bạn hiện đang được lưu trữ.

  1. Mở Cloud Shell và chạy các lệnh sau để tạo một bộ chứa. Ngoài ra, bạn có thể tạo một bộ chứa mới trong Cloud Console. Lưu tên bộ chứa này, bạn sẽ cần đến sau.
export PROJECT_ID=$(gcloud config get-value project)

gsutil mb -p $PROJECT_ID "gs://${PROJECT_ID}-uptraining-codelab"
  1. Chuyển đến thẻ Dataset (Tập dữ liệu) rồi nhấp vào Create Dataset (Tạo tập dữ liệu)

docai-uptraining-codelab-05

  1. Dán tên bộ chứa từ bộ chứa bạn đã tạo ở bước 1 vào trường Đường dẫn đích. (Đừng thêm gs://)

docai-uptraining-codelab-06

  1. Sau khi tập dữ liệu được tạo, bạn sẽ được chuyển hướng đến trang Quản lý tập dữ liệu.

docai-uptraining-codelab-07

5. Nhập tài liệu kiểm thử

Bây giờ, hãy nhập một tệp pdf hoá đơn mẫu vào tập dữ liệu.

  1. Nhấp vào Nhập tài liệu

docai-uptraining-codelab-08

  1. Chúng tôi có một tệp PDF mẫu để bạn sử dụng trong phòng thí nghiệm này. Sao chép và dán đường liên kết sau vào hộp Đường dẫn nguồn. Rời khỏi phần "Phân tách dữ liệu" là "Chưa chỉ định" tạm thời. Nhấp vào Nhập.
cloud-samples-data/documentai/codelabs/uptraining/pdfs

docai-uptraining-codelab-09

  1. Chờ tài liệu được nhập. Quá trình này mất chưa đến 1 phút trong các thử nghiệm của tôi.

docai-uptraining-codelab-10

  1. Khi quá trình nhập hoàn tất, bạn sẽ thấy tài liệu này trong Giao diện người dùng quản lý tập dữ liệu. Nhấp vào biểu tượng đó để truy cập vào bảng điều khiển gắn nhãn.

docai-uptraining-codelab-11

6. Gắn nhãn cho tài liệu thử nghiệm

Tiếp theo, chúng tôi sẽ xác định các thành phần văn bản và nhãn cho các thực thể mà chúng tôi muốn trích xuất. Những nhãn này sẽ được dùng để huấn luyện mô hình của chúng tôi phân tích cú pháp cấu trúc tài liệu cụ thể này và xác định đúng loại tài liệu.

  1. Bây giờ, bạn sẽ truy cập vào bảng điều khiển gắn nhãn. Bạn sẽ thấy bảng điều khiển này có dạng như sau.

docai-uptraining-codelab-12

  1. Nhấp vào nút "Chọn văn bản" Công cụ, sau đó đánh dấu văn bản "Công ty đường ống quốc tế McWilliam Piping" và chỉ định nhãn supplier_name. Bạn có thể dùng bộ lọc văn bản để tìm tên nhãn.

docai-uptraining-codelab-13

  1. Đánh dấu văn bản "14368 Pipeline Ave Chino, CA 91710" và chỉ định nhãn supplier_address.

docai-uptraining-codelab-14

  1. Đánh dấu văn bản "10001" và chỉ định nhãn invoice_id.

docai-uptraining-codelab-15

  1. Đánh dấu văn bản "2020-01-02" và chỉ định nhãn due_date.

docai-uptraining-codelab-16

  1. Chuyển sang "Hộp giới hạn" . Đánh dấu văn bản "Khớp nối khớp ngón tay" và chỉ định nhãn line_item/description.

docai-uptraining-codelab-17

  1. Đánh dấu văn bản "9" và chỉ định nhãn line_item/quantity.

docai-uptraining-codelab-18

  1. Đánh dấu văn bản "74,43" và chỉ định nhãn line_item/unit_price.

docai-uptraining-codelab-19

  1. Đánh dấu văn bản "669,87" và chỉ định nhãn line_item/amount.

docai-uptraining-codelab-20

  1. Lặp lại 4 bước trước đó cho hai mục hàng tiếp theo. Khi hoàn tất, ứng dụng sẽ có dạng như sau.

docai-uptraining-codelab-21

  1. Đánh dấu văn bản "1.419,57" (bên cạnh Tổng phụ) và chỉ định nhãn net_amount.

docai-uptraining-codelab-22

  1. Đánh dấu văn bản "113,57" (bên cạnh mục Thuế) rồi chỉ định nhãn total_tax_amount.

docai-uptraining-codelab-23

  1. Đánh dấu văn bản "1.533,14" (bên cạnh Tổng số) và chỉ định nhãn total_amount.

docai-uptraining-codelab-24

  1. Đánh dấu một trong các nút "$" và gán nhãn currency.

docai-uptraining-codelab-25

  1. Tài liệu được gắn nhãn sẽ có dạng như sau khi hoàn tất. Lưu ý: Bạn có thể điều chỉnh các nhãn này bằng cách nhấp vào hộp giới hạn trong tài liệu hoặc tên/giá trị nhãn trên trình đơn bên trái. Nhấp vào Lưu khi bạn hoàn tất việc gắn nhãn.

docai-uptraining-codelab-26

  1. Dưới đây là danh sách đầy đủ các nhãn và giá trị

Tên nhãn

Văn bản

supplier_name

Công ty đường ống quốc tế McWilliam Piping

supplier_address

14368 Pipeline Ave Chino, CA 91710

invoice_id

10001

due_date

2020-01-02

line_item/description

Khớp nối khớp ngón tay

line_item/quantity

9

line_item/unit_price

74,43

line_item/amount

669,87

line_item/description

Ống PVC 12 inch

line_item/quantity

7

line_item/unit_price

15,90

line_item/amount

111,30

line_item/description

Ống đồng

line_item/quantity

7

line_item/unit_price

91,20

line_item/amount

638,4

net_amount

1.419,57

total_tax_amount

113,57

total_amount

1.533,14

currency

$

7. Chỉ định tài liệu cho bộ huấn luyện

Bây giờ, bạn sẽ trở lại Bảng điều khiển quản lý tập dữ liệu. Lưu ý rằng số lượng tài liệu Có gắn nhãn và Không được gắn nhãn đã thay đổi cũng như số lượng nhãn đang hoạt động.

docai-uptraining-codelab-27

  1. Chúng ta cần phải gán tài liệu này cho hoặc "Thử nghiệm" thiết lập. Nhấp vào Tài liệu.

docai-uptraining-codelab-28

  1. Nhấp vào Giao cho tập hợp, sau đó nhấp vào Huấn luyện.

docai-uptraining-codelab-29

  1. Lưu ý rằng số liệu Phân chia dữ liệu đã thay đổi.

docai-uptraining-codelab-30

8. Nhập dữ liệu được gắn nhãn trước

Đào tạo AI trong tài liệu yêu cầu tối thiểu 10 tài liệu trong cả tập huấn luyện và kiểm thử, cùng với 10 thực thể của mỗi nhãn trong mỗi tập.

Nên có ít nhất 50 tài liệu trong mỗi bộ với 50 phiên bản của mỗi nhãn để có hiệu suất tốt nhất. Nhìn chung, càng nhiều dữ liệu huấn luyện thì độ chính xác càng cao.

Sẽ mất nhiều thời gian để gắn nhãn thủ công cho 100 tài liệu, vì vậy, chúng tôi có một số tài liệu được gắn nhãn trước mà bạn có thể nhập cho phòng thí nghiệm này.

Bạn có thể nhập các tệp tài liệu có nhãn sẵn ở định dạng Document.json. Đây có thể là kết quả từ việc gọi cho đơn vị xử lý và xác minh độ chính xác bằng phương pháp Con người trong vòng lặp (HITL).

  1. Nhấp vào Nhập chứng từ.

docai-uptraining-codelab-30

  1. Sao chép/Dán đường dẫn sau đây của Cloud Storage rồi chỉ định cho tập hợp Đào tạo.
cloud-samples-data/documentai/codelabs/uptraining/training
  1. Nhấp vào Add Another Bucket (Thêm bộ chứa khác). Sau đó, hãy Sao chép/Dán đường dẫn sau đây của Cloud Storage và chỉ định cho tập hợp Test (Kiểm thử).
cloud-samples-data/documentai/codelabs/uptraining/test

docai-uptraining-codelab-31

  1. Nhấp vào Nhập rồi đợi chứng từ được nhập. Lần này sẽ mất nhiều thời gian hơn lần trước vì có nhiều tài liệu hơn để xử lý. Trong các lần kiểm tra, quá trình này mất khoảng 6 phút. Bạn có thể rời khỏi trang này và quay lại sau.

docai-uptraining-codelab-32

  1. Sau khi hoàn tất, bạn sẽ thấy các tài liệu trên trang Quản lý tập dữ liệu.

docai-uptraining-codelab-33

9. Chỉnh sửa nhãn

Tài liệu mẫu mà chúng tôi đang sử dụng cho ví dụ này không chứa mọi nhãn được Trình phân tích cú pháp hoá đơn hỗ trợ. Trước khi huấn luyện, chúng ta sẽ cần đánh dấu những nhãn không sử dụng là không hoạt động. Bạn cũng có thể làm theo các bước tương tự để thêm nhãn tuỳ chỉnh trước khi Huấn luyện nâng cao.

  1. Nhấp vào Quản lý nhãn ở góc dưới cùng bên trái.

docai-uptraining-codelab-33

  1. Lúc này, bạn sẽ ở trong Bảng điều khiển Quản lý nhãn.

docai-uptraining-codelab-34

  1. Sử dụng Hộp đánh dấu và các nút Tắt/Bật để CHỈ đánh dấu các nhãn sau là Đã bật.
    • currency
    • due_date
    • invoice_id
    • line_item/amount
    • line_item/description
    • line_item/quantity
    • line_item/unit_price
    • net_amount
    • supplier_address
    • supplier_name
    • total_amount
    • total_tax_amount
  2. Bảng điều khiển sẽ có dạng như sau khi hoàn tất. Nhấp vào Lưu khi hoàn tất.

docai-uptraining-codelab-35

  1. Nhấp vào mũi tên Quay lại để quay lại Bảng điều khiển quản lý Tập dữ liệu. Lưu ý rằng những nhãn có 0 thực thể đã được đánh dấu là Không hoạt động.

docai-uptraining-codelab-36

10. Không bắt buộc: Tự động gắn nhãn cho các tài liệu mới nhập

Khi nhập tài liệu chưa gắn nhãn cho đơn vị xử lý bằng phiên bản bộ xử lý đã triển khai hiện có, bạn có thể sử dụng tính năng Tự động gắn nhãn để tiết kiệm thời gian gắn nhãn.

  1. Trên trang Đào tạo, hãy nhấp vào Nhập tài liệu.
  2. Sao chép và dán đường dẫn sau. Thư mục này chứa 5 tệp PDF hoá đơn chưa gắn nhãn. Trong danh sách thả xuống Phân tách dữ liệu, hãy chọn Huấn luyện.
    cloud-samples-data/documentai/Custom/Invoices/PDF_Unlabeled
    
  3. Trong phần Gắn nhãn tự động, chọn hộp đánh dấu Nhập bằng tính năng gắn nhãn tự động.
  4. Chọn một phiên bản bộ xử lý hiện có để gắn nhãn tài liệu.
  • Ví dụ: pretrained-invoice-v1.3-2022-07-15
  1. Nhấp vào Nhập rồi đợi chứng từ được nhập. Bạn có thể rời khỏi trang này và quay lại sau.
  • Khi hoàn tất, tài liệu sẽ xuất hiện trên trang Chuyến tàu trong phần Được gắn nhãn tự động.
  1. Bạn không thể sử dụng những tài liệu có gắn nhãn tự động cho việc huấn luyện hoặc kiểm tra nếu không đánh dấu những tài liệu đó là đã gắn nhãn. Hãy chuyển đến mục Được tự động gắn nhãn để xem các tài liệu được gắn nhãn tự động.
  2. Chọn tài liệu đầu tiên để vào bảng điều khiển gắn nhãn.
  3. Xác minh nhãn, hộp giới hạn và giá trị để đảm bảo chúng chính xác. Gắn nhãn mọi giá trị đã bị bỏ qua.
  4. Chọn Đánh dấu là đã gắn nhãn khi hoàn tất.
  5. Lặp lại quy trình xác minh nhãn cho từng tài liệu được gắn nhãn tự động, sau đó quay lại trang Chuyến tàu để dùng dữ liệu cho quá trình huấn luyện.

11. Huấn luyện mô hình

Bây giờ, chúng ta đã sẵn sàng bắt đầu đào tạo Trình phân tích cú pháp hoá đơn.

  1. Nhấp vào Đào tạo phiên bản mới

docai-uptraining-codelab-36

  1. Đặt một tên dễ nhớ cho phiên bản của bạn, chẳng hạn như codelab-uptraining-test-1. Phiên bản cơ sở là phiên bản mô hình sẽ dùng để tạo phiên bản mới này. Nếu đang sử dụng một bộ xử lý mới, bạn chỉ nên chọn Google Pretrained Next with Uptraining (Được Google huấn luyện trước bằng cách nâng cao chất lượng)

docai-uptraining-codelab-37

  1. (Không bắt buộc) Bạn cũng có thể chọn Xem số liệu thống kê về nhãn để xem chỉ số về các nhãn trong tập dữ liệu của mình.

docai-uptraining-codelab-38

  1. Nhấp vào Bắt đầu đào tạo để bắt đầu quy trình Đào tạo. Bạn phải được chuyển hướng đến trang Quản lý tập dữ liệu. Bạn có thể xem trạng thái huấn luyện ở bên phải. Quá trình đào tạo sẽ mất vài giờ để hoàn tất. Bạn có thể rời khỏi trang này và quay lại sau.

docai-uptraining-codelab-39

  1. Nếu nhấp vào tên phiên bản, bạn sẽ được chuyển đến trang Quản lý phiên bản. Trang này hiển thị Mã phiên bản và trạng thái hiện tại của Công việc đào tạo.

docai-uptraining-codelab-40

12. Kiểm thử Phiên bản Mô hình Mới

Sau khi Công việc đào tạo hoàn tất (mất khoảng 1 giờ trong các kiểm thử của tôi), bây giờ bạn có thể kiểm tra phiên bản mô hình mới và bắt đầu sử dụng nó để dự đoán.

  1. Chuyển đến trang Quản lý phiên bản. Tại đây, bạn có thể nhìn thấy trạng thái hiện tại và Điểm F1.

docai-uptraining-codelab-41

  1. Chúng tôi sẽ cần triển khai phiên bản mô hình này thì mới có thể dùng được. Nhấp vào các dấu chấm dọc ở bên phải rồi chọn Triển khai phiên bản.

docai-uptraining-codelab-42

  1. Chọn Deploy (Triển khai) trong cửa sổ bật lên, trong khi chờ phiên bản triển khai. Quá trình này sẽ mất vài phút để hoàn tất. Sau khi triển khai, bạn cũng có thể đặt phiên bản này làm Phiên bản mặc định.

docai-uptraining-codelab-43

  1. Sau khi triển khai xong, hãy chuyển đến thẻ Đánh giá. Sau đó nhấp vào trình đơn thả xuống Phiên bản và chọn phiên bản mới được tạo.

docai-uptraining-codelab-44

  1. Trên trang này, bạn có thể xem các chỉ số đánh giá, bao gồm điểm F1, Độ chính xác và Thu hồi đối với toàn bộ tài liệu cũng như từng nhãn. Bạn có thể đọc thêm về các chỉ số này trong Tài liệu về AutoML.
  2. Tải tệp PDF được liên kết bên dưới xuống. Đây là tài liệu mẫu không có trong bộ Đào tạo hoặc Kiểm tra.

  1. Nhấp vào Upload Test Document (Tải tài liệu kiểm tra lên) rồi chọn tệp PDF.

docai-uptraining-codelab-45

  1. Các thực thể được trích xuất sẽ có dạng như sau.

docai-uptraining-codelab-46

13. Kết luận

Xin chúc mừng! Bạn đã sử dụng thành công Document AI để huấn luyện Trình phân tích cú pháp hoá đơn. Giờ đây, bạn có thể sử dụng đơn vị xử lý này để phân tích cú pháp hoá đơn giống như với bất kỳ Đơn vị xử lý chuyên biệt nào.

Bạn có thể tham khảo Lớp học lập trình về đơn vị xử lý chuyên dụng để tìm hiểu cách xử lý phản hồi trong quá trình xử lý.

Dọn dẹp

Để tránh bị tính phí vào tài khoản Google Cloud của bạn cho các tài nguyên được sử dụng trong hướng dẫn này:

  • Trong Cloud Console, hãy chuyển đến trang Quản lý tài nguyên.
  • Trong danh sách dự án, hãy chọn dự án rồi nhấp vào Xoá.
  • Trong hộp thoại, nhập ID dự án rồi nhấp vào Tắt để xoá dự án.

Tài nguyên

Giấy phép

Tác phẩm này được cấp phép theo Giấy phép chung Ghi nhận tác giả Creative Commons 2.0.