1. Giới thiệu
AI của tài liệu là một giải pháp phân tích tài liệu, có thể sử dụng dữ liệu phi cấu trúc, chẳng hạn như tài liệu, email, v.v., đồng thời giúp dữ liệu trở nên dễ hiểu, phân tích và sử dụng hơn.
Bằng cách sử dụng quá trình nâng cao thông qua Document AI Workbench, bạn có thể xử lý tài liệu chính xác hơn bằng cách cung cấp các ví dụ có gắn nhãn bổ sung cho các Loại tài liệu chuyên dụng và tạo phiên bản mô hình mới.
Trong phòng thí nghiệm này, bạn sẽ tạo một trình xử lý Trình phân tích cú pháp hoá đơn, định cấu hình cho việc đào tạo lại đơn vị xử lý, gắn nhãn tài liệu mẫu và nâng cấp cho họ.
Tập dữ liệu tài liệu được dùng trong phòng thí nghiệm này bao gồm các hoá đơn được tạo ngẫu nhiên cho một công ty sản xuất đường ống hư cấu.
Điều kiện tiên quyết
Lớp học lập trình này dựa trên nội dung có trong các Lớp học lập trình khác về AI tạo tài liệu.
Bạn nên hoàn tất các Lớp học lập trình sau đây trước khi tiếp tục.
- Nhận dạng ký tự quang học (OCR) với AI tài liệu (Python)
- Phân tích cú pháp biểu mẫu bằng AI tài liệu (Python)
- Bộ xử lý chuyên dụng sử dụng AI tài liệu (Python)
- Quản lý trình xử lý tài liệu dựa trên AI bằng Python
- AI tài liệu: Con người trong vòng lặp
Kiến thức bạn sẽ học được
- Định cấu hình quá trình huấn luyện thêm cho trình xử lý Trình phân tích cú pháp hoá đơn.
- Dữ liệu đào tạo về Gắn nhãn tài liệu bằng AI bằng công cụ chú thích.
- Huấn luyện phiên bản mô hình mới.
- Đánh giá độ chính xác của phiên bản mô hình mới.
Bạn cần có
2. Thiết lập
Lớp học lập trình này giả định bạn đã hoàn tất các bước Thiết lập AI cho tài liệu được liệt kê trong Lớp học lập trình giới thiệu.
Vui lòng hoàn tất các bước sau đây trước khi tiếp tục:
3. Tạo Bộ xử lý
Trước tiên, bạn phải tạo Trình xử lý phân tích cú pháp hoá đơn để sử dụng cho phòng thí nghiệm này.
- Trong bảng điều khiển, hãy chuyển đến trang Tổng quan về AI của tài liệu.
- Nhấp vào Tạo bộ xử lý, di chuyển xuống mục Chuyên ngành (hoặc nhập "Trình phân tích cú pháp hoá đơn" trong thanh tìm kiếm) rồi chọn Trình phân tích cú pháp hoá đơn.
- Đặt tên cho khu vực đó
codelab-invoice-uptraining
(hoặc tên khác bạn sẽ nhớ) và chọn khu vực gần nhất trong danh sách.
- Nhấp vào Tạo để tạo bộ xử lý. Sau đó, bạn sẽ thấy trang Tổng quan về bộ xử lý.
4. Tạo Tập dữ liệu
Để huấn luyện đơn vị xử lý, chúng ta sẽ phải tạo một tập dữ liệu có dữ liệu huấn luyện và kiểm thử để giúp họ xác định các thực thể mà chúng ta muốn trích xuất.
Bạn cần tạo một bộ chứa mới trong Cloud Storage để lưu trữ tập dữ liệu. Lưu ý: Bộ chứa này không được dùng cùng bộ chứa nơi tài liệu của bạn hiện đang được lưu trữ.
- Mở Cloud Shell và chạy các lệnh sau để tạo một bộ chứa. Ngoài ra, bạn có thể tạo một bộ chứa mới trong Cloud Console. Lưu tên bộ chứa này, bạn sẽ cần đến sau.
export PROJECT_ID=$(gcloud config get-value project)
gsutil mb -p $PROJECT_ID "gs://${PROJECT_ID}-uptraining-codelab"
- Chuyển đến thẻ Dataset (Tập dữ liệu) rồi nhấp vào Create Dataset (Tạo tập dữ liệu)
- Dán tên bộ chứa từ bộ chứa bạn đã tạo ở bước 1 vào trường Đường dẫn đích. (Đừng thêm
gs://
)
- Sau khi tập dữ liệu được tạo, bạn sẽ được chuyển hướng đến trang Quản lý tập dữ liệu.
5. Nhập tài liệu kiểm thử
Bây giờ, hãy nhập một tệp pdf hoá đơn mẫu vào tập dữ liệu.
- Nhấp vào Nhập tài liệu
- Chúng tôi có một tệp PDF mẫu để bạn sử dụng trong phòng thí nghiệm này. Sao chép và dán đường liên kết sau vào hộp Đường dẫn nguồn. Rời khỏi phần "Phân tách dữ liệu" là "Chưa chỉ định" tạm thời. Nhấp vào Nhập.
cloud-samples-data/documentai/codelabs/uptraining/pdfs
- Chờ tài liệu được nhập. Quá trình này mất chưa đến 1 phút trong các thử nghiệm của tôi.
- Khi quá trình nhập hoàn tất, bạn sẽ thấy tài liệu này trong Giao diện người dùng quản lý tập dữ liệu. Nhấp vào biểu tượng đó để truy cập vào bảng điều khiển gắn nhãn.
6. Gắn nhãn cho tài liệu thử nghiệm
Tiếp theo, chúng tôi sẽ xác định các thành phần văn bản và nhãn cho các thực thể mà chúng tôi muốn trích xuất. Những nhãn này sẽ được dùng để huấn luyện mô hình của chúng tôi phân tích cú pháp cấu trúc tài liệu cụ thể này và xác định đúng loại tài liệu.
- Bây giờ, bạn sẽ truy cập vào bảng điều khiển gắn nhãn. Bạn sẽ thấy bảng điều khiển này có dạng như sau.
- Nhấp vào nút "Chọn văn bản" Công cụ, sau đó đánh dấu văn bản "Công ty đường ống quốc tế McWilliam Piping" và chỉ định nhãn
supplier_name
. Bạn có thể dùng bộ lọc văn bản để tìm tên nhãn.
- Đánh dấu văn bản "14368 Pipeline Ave Chino, CA 91710" và chỉ định nhãn
supplier_address
.
- Đánh dấu văn bản "10001" và chỉ định nhãn
invoice_id
.
- Đánh dấu văn bản "2020-01-02" và chỉ định nhãn
due_date
.
- Chuyển sang "Hộp giới hạn" . Đánh dấu văn bản "Khớp nối khớp ngón tay" và chỉ định nhãn
line_item/description
.
- Đánh dấu văn bản "9" và chỉ định nhãn
line_item/quantity
.
- Đánh dấu văn bản "74,43" và chỉ định nhãn
line_item/unit_price
.
- Đánh dấu văn bản "669,87" và chỉ định nhãn
line_item/amount
.
- Lặp lại 4 bước trước đó cho hai mục hàng tiếp theo. Khi hoàn tất, ứng dụng sẽ có dạng như sau.
- Đánh dấu văn bản "1.419,57" (bên cạnh Tổng phụ) và chỉ định nhãn
net_amount
.
- Đánh dấu văn bản "113,57" (bên cạnh mục Thuế) rồi chỉ định nhãn
total_tax_amount
.
- Đánh dấu văn bản "1.533,14" (bên cạnh Tổng số) và chỉ định nhãn
total_amount
.
- Đánh dấu một trong các nút "$" và gán nhãn
currency
.
- Tài liệu được gắn nhãn sẽ có dạng như sau khi hoàn tất. Lưu ý: Bạn có thể điều chỉnh các nhãn này bằng cách nhấp vào hộp giới hạn trong tài liệu hoặc tên/giá trị nhãn trên trình đơn bên trái. Nhấp vào Lưu khi bạn hoàn tất việc gắn nhãn.
- Dưới đây là danh sách đầy đủ các nhãn và giá trị
Tên nhãn | Văn bản |
| Công ty đường ống quốc tế McWilliam Piping |
| 14368 Pipeline Ave Chino, CA 91710 |
| 10001 |
| 2020-01-02 |
| Khớp nối khớp ngón tay |
| 9 |
| 74,43 |
| 669,87 |
| Ống PVC 12 inch |
| 7 |
| 15,90 |
| 111,30 |
| Ống đồng |
| 7 |
| 91,20 |
| 638,4 |
| 1.419,57 |
| 113,57 |
| 1.533,14 |
| $ |
7. Chỉ định tài liệu cho bộ huấn luyện
Bây giờ, bạn sẽ trở lại Bảng điều khiển quản lý tập dữ liệu. Lưu ý rằng số lượng tài liệu Có gắn nhãn và Không được gắn nhãn đã thay đổi cũng như số lượng nhãn đang hoạt động.
- Chúng ta cần phải gán tài liệu này cho hoặc "Thử nghiệm" thiết lập. Nhấp vào Tài liệu.
- Nhấp vào Giao cho tập hợp, sau đó nhấp vào Huấn luyện.
- Lưu ý rằng số liệu Phân chia dữ liệu đã thay đổi.
8. Nhập dữ liệu được gắn nhãn trước
Đào tạo AI trong tài liệu yêu cầu tối thiểu 10 tài liệu trong cả tập huấn luyện và kiểm thử, cùng với 10 thực thể của mỗi nhãn trong mỗi tập.
Nên có ít nhất 50 tài liệu trong mỗi bộ với 50 phiên bản của mỗi nhãn để có hiệu suất tốt nhất. Nhìn chung, càng nhiều dữ liệu huấn luyện thì độ chính xác càng cao.
Sẽ mất nhiều thời gian để gắn nhãn thủ công cho 100 tài liệu, vì vậy, chúng tôi có một số tài liệu được gắn nhãn trước mà bạn có thể nhập cho phòng thí nghiệm này.
Bạn có thể nhập các tệp tài liệu có nhãn sẵn ở định dạng Document.json
. Đây có thể là kết quả từ việc gọi cho đơn vị xử lý và xác minh độ chính xác bằng phương pháp Con người trong vòng lặp (HITL).
- Nhấp vào Nhập chứng từ.
- Sao chép/Dán đường dẫn sau đây của Cloud Storage rồi chỉ định cho tập hợp Đào tạo.
cloud-samples-data/documentai/codelabs/uptraining/training
- Nhấp vào Add Another Bucket (Thêm bộ chứa khác). Sau đó, hãy Sao chép/Dán đường dẫn sau đây của Cloud Storage và chỉ định cho tập hợp Test (Kiểm thử).
cloud-samples-data/documentai/codelabs/uptraining/test
- Nhấp vào Nhập rồi đợi chứng từ được nhập. Lần này sẽ mất nhiều thời gian hơn lần trước vì có nhiều tài liệu hơn để xử lý. Trong các lần kiểm tra, quá trình này mất khoảng 6 phút. Bạn có thể rời khỏi trang này và quay lại sau.
- Sau khi hoàn tất, bạn sẽ thấy các tài liệu trên trang Quản lý tập dữ liệu.
9. Chỉnh sửa nhãn
Tài liệu mẫu mà chúng tôi đang sử dụng cho ví dụ này không chứa mọi nhãn được Trình phân tích cú pháp hoá đơn hỗ trợ. Trước khi huấn luyện, chúng ta sẽ cần đánh dấu những nhãn không sử dụng là không hoạt động. Bạn cũng có thể làm theo các bước tương tự để thêm nhãn tuỳ chỉnh trước khi Huấn luyện nâng cao.
- Nhấp vào Quản lý nhãn ở góc dưới cùng bên trái.
- Lúc này, bạn sẽ ở trong Bảng điều khiển Quản lý nhãn.
- Sử dụng Hộp đánh dấu và các nút Tắt/Bật để CHỈ đánh dấu các nhãn sau là Đã bật.
currency
due_date
invoice_id
line_item/amount
line_item/description
line_item/quantity
line_item/unit_price
net_amount
supplier_address
supplier_name
total_amount
total_tax_amount
- Bảng điều khiển sẽ có dạng như sau khi hoàn tất. Nhấp vào Lưu khi hoàn tất.
- Nhấp vào mũi tên Quay lại để quay lại Bảng điều khiển quản lý Tập dữ liệu. Lưu ý rằng những nhãn có 0 thực thể đã được đánh dấu là Không hoạt động.
10. Không bắt buộc: Tự động gắn nhãn cho các tài liệu mới nhập
Khi nhập tài liệu chưa gắn nhãn cho đơn vị xử lý bằng phiên bản bộ xử lý đã triển khai hiện có, bạn có thể sử dụng tính năng Tự động gắn nhãn để tiết kiệm thời gian gắn nhãn.
- Trên trang Đào tạo, hãy nhấp vào Nhập tài liệu.
- Sao chép và dán đường dẫn sau. Thư mục này chứa 5 tệp PDF hoá đơn chưa gắn nhãn. Trong danh sách thả xuống Phân tách dữ liệu, hãy chọn Huấn luyện.
cloud-samples-data/documentai/Custom/Invoices/PDF_Unlabeled
- Trong phần Gắn nhãn tự động, chọn hộp đánh dấu Nhập bằng tính năng gắn nhãn tự động.
- Chọn một phiên bản bộ xử lý hiện có để gắn nhãn tài liệu.
- Ví dụ:
pretrained-invoice-v1.3-2022-07-15
- Nhấp vào Nhập rồi đợi chứng từ được nhập. Bạn có thể rời khỏi trang này và quay lại sau.
- Khi hoàn tất, tài liệu sẽ xuất hiện trên trang Chuyến tàu trong phần Được gắn nhãn tự động.
- Bạn không thể sử dụng những tài liệu có gắn nhãn tự động cho việc huấn luyện hoặc kiểm tra nếu không đánh dấu những tài liệu đó là đã gắn nhãn. Hãy chuyển đến mục Được tự động gắn nhãn để xem các tài liệu được gắn nhãn tự động.
- Chọn tài liệu đầu tiên để vào bảng điều khiển gắn nhãn.
- Xác minh nhãn, hộp giới hạn và giá trị để đảm bảo chúng chính xác. Gắn nhãn mọi giá trị đã bị bỏ qua.
- Chọn Đánh dấu là đã gắn nhãn khi hoàn tất.
- Lặp lại quy trình xác minh nhãn cho từng tài liệu được gắn nhãn tự động, sau đó quay lại trang Chuyến tàu để dùng dữ liệu cho quá trình huấn luyện.
11. Huấn luyện mô hình
Bây giờ, chúng ta đã sẵn sàng bắt đầu đào tạo Trình phân tích cú pháp hoá đơn.
- Nhấp vào Đào tạo phiên bản mới
- Đặt một tên dễ nhớ cho phiên bản của bạn, chẳng hạn như
codelab-uptraining-test-1
. Phiên bản cơ sở là phiên bản mô hình sẽ dùng để tạo phiên bản mới này. Nếu đang sử dụng một bộ xử lý mới, bạn chỉ nên chọn Google Pretrained Next with Uptraining (Được Google huấn luyện trước bằng cách nâng cao chất lượng)
- (Không bắt buộc) Bạn cũng có thể chọn Xem số liệu thống kê về nhãn để xem chỉ số về các nhãn trong tập dữ liệu của mình.
- Nhấp vào Bắt đầu đào tạo để bắt đầu quy trình Đào tạo. Bạn phải được chuyển hướng đến trang Quản lý tập dữ liệu. Bạn có thể xem trạng thái huấn luyện ở bên phải. Quá trình đào tạo sẽ mất vài giờ để hoàn tất. Bạn có thể rời khỏi trang này và quay lại sau.
- Nếu nhấp vào tên phiên bản, bạn sẽ được chuyển đến trang Quản lý phiên bản. Trang này hiển thị Mã phiên bản và trạng thái hiện tại của Công việc đào tạo.
12. Kiểm thử Phiên bản Mô hình Mới
Sau khi Công việc đào tạo hoàn tất (mất khoảng 1 giờ trong các kiểm thử của tôi), bây giờ bạn có thể kiểm tra phiên bản mô hình mới và bắt đầu sử dụng nó để dự đoán.
- Chuyển đến trang Quản lý phiên bản. Tại đây, bạn có thể nhìn thấy trạng thái hiện tại và Điểm F1.
- Chúng tôi sẽ cần triển khai phiên bản mô hình này thì mới có thể dùng được. Nhấp vào các dấu chấm dọc ở bên phải rồi chọn Triển khai phiên bản.
- Chọn Deploy (Triển khai) trong cửa sổ bật lên, trong khi chờ phiên bản triển khai. Quá trình này sẽ mất vài phút để hoàn tất. Sau khi triển khai, bạn cũng có thể đặt phiên bản này làm Phiên bản mặc định.
- Sau khi triển khai xong, hãy chuyển đến thẻ Đánh giá. Sau đó nhấp vào trình đơn thả xuống Phiên bản và chọn phiên bản mới được tạo.
- Trên trang này, bạn có thể xem các chỉ số đánh giá, bao gồm điểm F1, Độ chính xác và Thu hồi đối với toàn bộ tài liệu cũng như từng nhãn. Bạn có thể đọc thêm về các chỉ số này trong Tài liệu về AutoML.
- Tải tệp PDF được liên kết bên dưới xuống. Đây là tài liệu mẫu không có trong bộ Đào tạo hoặc Kiểm tra.
- Nhấp vào Upload Test Document (Tải tài liệu kiểm tra lên) rồi chọn tệp PDF.
- Các thực thể được trích xuất sẽ có dạng như sau.
13. Kết luận
Xin chúc mừng! Bạn đã sử dụng thành công Document AI để huấn luyện Trình phân tích cú pháp hoá đơn. Giờ đây, bạn có thể sử dụng đơn vị xử lý này để phân tích cú pháp hoá đơn giống như với bất kỳ Đơn vị xử lý chuyên biệt nào.
Bạn có thể tham khảo Lớp học lập trình về đơn vị xử lý chuyên dụng để tìm hiểu cách xử lý phản hồi trong quá trình xử lý.
Dọn dẹp
Để tránh bị tính phí vào tài khoản Google Cloud của bạn cho các tài nguyên được sử dụng trong hướng dẫn này:
- Trong Cloud Console, hãy chuyển đến trang Quản lý tài nguyên.
- Trong danh sách dự án, hãy chọn dự án rồi nhấp vào Xoá.
- Trong hộp thoại, nhập ID dự án rồi nhấp vào Tắt để xoá dự án.
Tài nguyên
- Tài liệu về AI Workbench
- Tương lai của tài liệu – Danh sách phát trên YouTube
- Tài liệu về AI cho tài liệu
- Thư viện ứng dụng Python AI cho tài liệu
- Mẫu AI cho tài liệu
Giấy phép
Tác phẩm này được cấp phép theo Giấy phép chung Ghi nhận tác giả Creative Commons 2.0.