1. 개요
조달 Document AI란 무엇인가요?
기업은 매년 수천 건의 인보이스, 영수증, 기타 관련 문서를 포함한 대규모 조달 파이프라인을 관리합니다. Procurement DocAI를 사용하여 PDF, 이미지, 필기 입력 양식과 같은 '다크 데이터'를 지능적으로 처리하여 조달 수명 주기의 수동 오버헤드를 줄입니다. 인보이스 및 영수증 등의 구조화되지 않은 문서를 구조화된 데이터로 변환하여 대규모 조달 데이터 캡처를 자동화하면 운영 효율성을 높이고 고객 환경을 개선하며 정보에 입각한 의사 결정을 지원할 수 있습니다.
이 Codelab에서는 Document AI Platform을 설정하고, 샘플 인보이스를 처리하고, AI Platform Notebook에서 항목을 추출하고 시각화하는 방법을 알아봅니다.
학습할 내용
- Document AI 플랫폼 시작 방법
- Procurement DocAI 솔루션을 사용하여 스키마화된 항목 추출
- AI Platform Notebooks 인스턴스 만들기 및 맞춤설정하기
필요한 항목
설문조사
이 튜토리얼을 어떻게 사용하실 계획인가요?
귀하의 Python 사용 경험이 어떤지 평가해 주세요.
귀하의 Google Cloud 서비스 사용 경험을 평가해 주세요.
2. 설정 및 요구사항
자습형 환경 설정
- Cloud Console에 로그인하고 새 프로젝트를 만들거나 기존 프로젝트를 다시 사용합니다. (Gmail 또는 G Suite 계정이 없으면 만들어야 합니다.)
모든 Google Cloud 프로젝트에서 고유한 이름인 프로젝트 ID를 기억해 두세요. 위의 이름은 이미 사용되었으므로 사용할 수 없습니다. 나중에 이 ID를 PROJECT_ID
로 제공해야 합니다.
- 그런 후 Google Cloud 리소스를 사용할 수 있도록 Cloud 콘솔에서 결제를 사용 설정해야 합니다.
'삭제' 섹션의 안내를 따르세요. 이 섹션에서는 이 튜토리얼을 마친 후 비용이 결제되지 않도록 리소스를 종료하는 방법을 알려줍니다 Google Cloud 새 사용자에게는 미화 $300 상당의 무료 체험판 프로그램에 참여할 수 있는 자격이 부여됩니다.
3. Cloud Document AI API 사용 설정
Document AI를 사용하려면 우선 API를 사용 설정해야 합니다. 브라우저에서 Cloud 콘솔을 엽니다.
- 탐색 메뉴 > API 및 서비스 > 라이브러리
를 클릭합니다.
- 'Document AI API'를 검색한 후 사용 설정을 클릭하여 Google Cloud 프로젝트에서 API를 사용합니다.
4. 프로세서 만들기 및 테스트
먼저 이 튜토리얼의 Document AI Platform에서 사용할 양식 파서 프로세서의 인스턴스를 만들어야 합니다.
- 콘솔에서 Document AI Platform 개요로 이동합니다.
- 프로세서 만들기를 클릭하고 인보이스 파서를 선택합니다.
- 프로세서 이름을 지정하고 목록에서 리전을 선택합니다.
- 만들기를 클릭하여 프로세서를 만듭니다.
- 프로세서 ID를 복사합니다. 나중에 코드에서 이 ID를 사용해야 합니다.
(선택사항) 콘솔에서 문서를 업로드하여 프로세서를 테스트할 수 있습니다. 문서 업로드를 클릭하고 파싱할 양식을 선택합니다. 사용할 양식이 없는 경우 이 샘플 양식을 다운로드하여 사용할 수 있습니다.
출력은 다음과 같이 표시됩니다.
5. AI Platform Notebook 만들기
Cloud 콘솔의 AI Platform Notebooks 섹션으로 이동하여 새 인스턴스를 클릭합니다. 그런 다음 최신 Python 인스턴스 유형을 선택합니다.
기본 옵션을 사용하고 만들기를 클릭합니다. 인스턴스가 생성되면 JupyterLab 열기를 선택합니다.
6. 샘플 코드 가져오기
Document AI Notebooks GitHub 저장소에서 샘플 코드를 직접 가져옵니다. 노트북에서 상단 메뉴의 Git > 저장소 클론으로 이동하거나 Git 아이콘 을 클릭합니다.
다음 저장소 URL을 붙여넣습니다.
https://github.com/GoogleCloudPlatform/documentai-notebooks.git
저장소가 클론되면 documentai-notebooks/specialized/ 디렉터리를 클릭하고 specialized_form_parser.ipynb
노트북을 엽니다. GCP 프로젝트 및 Document AI 프로세서 ID가 선언된 셀을 찾습니다.
4단계의 GCP 프로젝트 ID와 프로세서 ID를 붙여넣습니다. 노트북을 저장합니다.
7. 항목 추출 및 시각화
이제 인보이스에서 스키마화된 항목과 해당하는 신뢰도 점수를 추출할 수 있습니다. Document 응답 객체에는 항목 목록이 포함됩니다. 스키마화된 항목에 대해 자세히 알아보려면 인보이스 파서 빠른 시작을 참고하세요.
노트북의 모든 셀을 실행하고 표 형식의 출력으로 아래로 스크롤합니다. 이전 코드는 각 항목을 반복하고 결과로 Pandas DataFrame을 만듭니다.
이제 아래로 스크롤하여 시각화 구성요소로 이동합니다. 문서 객체 응답에는 문서의 각 페이지에 대한 공간 레이아웃 정보가 포함됩니다. 아래에서는 각 양식 필드의 레이아웃 정보가 이미지에 경계 상자를 그리는 데 사용됩니다. 이 데이터는 Document AI를 프런트엔드 애플리케이션에 통합하는 데 사용할 수 있습니다.
8. 축하합니다
수고하셨습니다. Procurment Document AI 솔루션을 사용하여 인보이스에서 데이터를 추출했습니다. 다른 양식 유형을 실험해 보시기 바랍니다.
삭제
이 튜토리얼에서 사용한 리소스 비용이 Google Cloud 계정에 청구되지 않도록 하려면 노트북을 종료하거나 GCP 프로젝트를 삭제하면 됩니다.
AI Platform Notebooks 인스턴스 종료
이 안내에 따라 AI Platform Notebooks 인스턴스를 종료합니다.
프로젝트 삭제
비용이 청구되지 않도록 하는 가장 쉬운 방법은 튜토리얼에서 만든 프로젝트를 삭제하는 것입니다.
프로젝트를 삭제하는 방법은 다음과 같습니다.
- GCP 콘솔에서 프로젝트 페이지로 이동합니다. 프로젝트 페이지
- 프로젝트 목록에서 삭제할 프로젝트를 선택하고 삭제를 클릭합니다.
- 대화상자에서 프로젝트 ID를 입력한 다음 종료를 클릭하여 프로젝트를 삭제합니다.