1. Обзор
Что такое документация о закупках AI?
Предприятия ежегодно управляют большими потоками закупок, включая тысячи счетов-фактур, квитанций и других сопутствующих документов. Используйте Procurement DocAI для интеллектуальной обработки «скрытых данных», таких как PDF-файлы, изображения и рукописные формы, чтобы сократить ручные накладные расходы в жизненном цикле закупок. Автоматизируйте сбор данных о закупках в любом масштабе, превращая неструктурированные документы, такие как счета-фактуры и квитанции, в структурированные данные, чтобы повысить операционную эффективность, улучшить качество обслуживания клиентов и предоставить информацию для принятия решений.
В этой лаборатории мы рассмотрим, как настроить платформу AI для документов, обработать образец счета, извлечь и визуализировать объекты в блокноте платформы AI.
Что вы узнаете
- Как начать работу с платформой Document AI
- Извлекайте схематизированные объекты с помощью решения Procurement DocAI.
- Создайте и настройте экземпляр AI Platform Notebooks.
Что вам понадобится
Опрос
Как вы будете использовать этот урок?
Как бы вы оценили свой опыт работы с Python?
Как бы вы оценили свой опыт использования сервисов Google Cloud?
2. Настройка и требования
Самостоятельная настройка среды
- Войдите в Cloud Console и создайте новый проект или повторно используйте существующий. (Если у вас еще нет учетной записи Gmail или G Suite, вам необходимо ее создать .)
Запомните идентификатор проекта — уникальное имя для всех проектов Google Cloud. (Ваше имя, указанное выше, уже занято и не подойдет вам, извините!). Вы должны предоставить этот идентификатор позже как PROJECT_ID
.
- Затем вам необходимо включить биллинг в Cloud Console, чтобы использовать ресурсы Google Cloud.
Обязательно следуйте инструкциям в разделе «Очистка». В этом разделе рассказывается, как отключить ресурсы, чтобы вам не приходилось нести расходы за пределами этого руководства. Новые пользователи Google Cloud имеют право на участие в программе бесплатной пробной версии стоимостью 300 долларов США .
3. Включите API Cloud Document AI.
Прежде чем вы сможете начать использовать Document AI, вам необходимо включить API. Откройте облачную консоль в браузере.
- Нажмите меню навигации ☰ > API и службы > Библиотека .
- Найдите «Document AI API», затем нажмите « Включить» , чтобы использовать API в своем проекте Google Cloud.
4. Создайте и протестируйте процессор
Сначала необходимо создать экземпляр процессора синтаксического анализатора форм для использования в платформе Document AI для этого руководства.
- В консоли перейдите к обзору платформы Document AI Platform.
- Нажмите «Создать процессор» и выберите «Парсер счетов» .
- Укажите имя процессора и выберите из списка свой регион.
- Нажмите «Создать» , чтобы создать свой процессор.
- Скопируйте идентификатор процессора. Вы должны будете использовать это в своем коде позже.
(Необязательно) Вы можете протестировать свой процессор в консоли, загрузив документ. Нажмите «Загрузить документ» и выберите форму для анализа. Вы можете скачать и использовать этот образец формы, если у вас его нет.
Вывод должен выглядеть так:
5. Создайте блокнот платформы AI.
Перейдите в раздел «Блокноты AI Platform» в облачной консоли и нажмите «Новый экземпляр» . Затем выберите последний тип экземпляра Python :
Используйте параметры по умолчанию и нажмите «Создать» . После создания экземпляра выберите «Открыть JupyterLab» .
6. Получите образец кода
Импортируйте пример кода напрямую из репозитория Document AI Notebooks Github . В блокноте либо выберите Git > Клонировать репозиторий в верхнем меню, либо щелкните значок Git:
Вставьте следующий URL-адрес репозитория:
https://github.com/GoogleCloudPlatform/documentai-notebooks.git
После клонирования репозитория щелкните каталог documentai-notebooks/specialized/ и откройте блокнот specialized_form_parser.ipynb
. Найдите ячейку, в которой объявлены идентификаторы процессора AI-процессора проекта GCP и документа.
Вставьте идентификатор проекта GCP и идентификатор процессора из шага 4. Сохраните свой блокнот.
7. Извлеките и визуализируйте объекты
Теперь вы можете извлечь схематизированные объекты из счетов и соответствующие им оценки достоверности. Объект ответа документа содержит список сущностей. Чтобы узнать больше о схематизированных объектах, прочтите краткое руководство по Invoice Parser.
Запустите все ячейки записной книжки и прокрутите вниз до табличного вывода. Предварительный код выполняет итерацию по каждому объекту и создает DataFrame Pandas с результатами.
Теперь прокрутите ниже до компонента визуализации. Ответ объекта Document содержит информацию о пространственном расположении для каждой страницы документа. Ниже информация о макете каждого поля формы используется для рисования ограничивающих рамок на изображении. Эти данные можно использовать для интеграции Document AI во внешнее приложение.
8. Поздравления
Поздравляем, вы успешно использовали AI-решение для закупочной документации для извлечения данных из счета-фактуры. Мы рекомендуем вам поэкспериментировать с другими типами форм.
Очистить
Чтобы избежать списания средств с вашей учетной записи Google Cloud за ресурсы, используемые в этом руководстве, вы можете либо выключить свой блокнот, либо удалить проект GCP.
Завершение работы экземпляра AI Platform Notebooks
Следуйте этим инструкциям, чтобы завершить работу экземпляра AI Platform Notebooks .
Удаление проекта
Самый простой способ избавиться от выставления счетов — удалить проект, созданный вами для этого руководства.
Чтобы удалить проект:
- В консоли GCP перейдите на страницу «Проекты» . Страница проектов
- В списке проектов выберите проект, который хотите удалить, и нажмите «Удалить» .
- В диалоговом окне введите идентификатор проекта, затем нажмите «Завершить работу» , чтобы удалить проект.