Chạy công việc đếm từ Hadoop trên cụm Dataproc

Còn 34 phút

Thông tin về lớp học lập trình này

Lần cập nhật gần đây nhất: thg 10 12, 2020

Tác giả: Một nhân viên của Google

Trang này được dịch bởi Cloud Translation API.

1. Giới thiệu

Quy trình công việc là một trường hợp sử dụng phổ biến trong phân tích dữ liệu. Quy trình này liên quan đến việc nhập, biến đổi và phân tích dữ liệu để tìm ra thông tin có ý nghĩa trong đó. Trong Google Cloud Platform, công cụ sắp xếp quy trình làm việc là Cloud Composer. Đây là một phiên bản được lưu trữ của công cụ quy trình làm việc nguồn mở phổ biến Apache Airflow. Trong phòng thí nghiệm này, bạn sẽ sử dụng Cloud Composer để tạo một quy trình công việc đơn giản nhằm tạo ra một cụm Cloud Dataproc, phân tích cụm này bằng Cloud Dataproc và Apache Hadoop, sau đó bạn sẽ xoá cụm Cloud Dataproc.

Cloud Composer là gì?

Cloud Composer là một dịch vụ điều phối quy trình công việc được quản lý toàn diện, giúp bạn soạn thảo, lên lịch và giám sát các quy trình trải rộng trên các nền tảng đám mây và trung tâm dữ liệu tại cơ sở hạ tầng riêng. Được xây dựng dựa trên dự án nguồn mở Apache Airflow phổ biến và hoạt động bằng ngôn ngữ lập trình Python, Cloud Composer không bị phụ thuộc và dễ sử dụng.

Khi sử dụng Cloud Composer thay vì phiên bản cục bộ của Apache Airflow, người dùng có thể hưởng lợi từ những tính năng tốt nhất của Airflow mà không phải tốn chi phí cài đặt hay quản lý.

Apache Airflow là gì?

Apache Airflow là một công cụ nguồn mở dùng để soạn thảo, lên lịch và giám sát quy trình công việc theo phương thức lập trình. Có một số thuật ngữ quan trọng cần nhớ liên quan đến Luồng khí mà bạn sẽ thấy trong suốt phòng thí nghiệm:

DAG – DAG (Đồ thị không chu trình có hướng) là một tập hợp các tác vụ được sắp xếp mà bạn muốn lên lịch và chạy. DAG (còn gọi là quy trình công việc) được xác định trong các tệp Python tiêu chuẩn
Toán tử – toán tử mô tả một tác vụ duy nhất trong quy trình làm việc

Cloud Dataproc là gì?

Cloud Dataproc là dịch vụ Apache Spark và Apache Hadoop của Google Cloud Platform được quản lý hoàn toàn. Cloud Dataproc dễ dàng tích hợp với các dịch vụ khác của GCP, mang đến cho bạn một nền tảng toàn diện và mạnh mẽ cho việc xử lý dữ liệu, phân tích và học máy.

Việc bạn sẽ làm

Lớp học lập trình này cho bạn biết cách tạo và chạy quy trình công việc Apache Airflow trong Cloud Composer để hoàn thành các tác vụ sau:

Tạo một cụm Cloud Dataproc
Chạy một công việc đếm từ Apache Hadoop trên cụm và xuất kết quả của nó sang Cloud Storage
Xoá cụm

Kiến thức bạn sẽ học được

Cách tạo và chạy quy trình công việc Apache Airflow trong Cloud Composer
Cách sử dụng Cloud Composer và Cloud Dataproc để chạy bản phân tích trên một tập dữ liệu
Cách truy cập vào môi trường Cloud Composer thông qua Bảng điều khiển Google Cloud Platform, Cloud SDK và giao diện web Airflow

Bạn cần có

Tài khoản GCP
Kiến thức cơ bản về CLI
Hiểu biết cơ bản về Python

2. Thiết lập GCP

Tạo dự án

Chọn hoặc tạo một Dự án Google Cloud Platform.

Ghi lại Mã dự án của bạn để sử dụng trong các bước sau.

Nếu đang tạo một dự án mới, bạn sẽ thấy mã dự án ngay bên dưới Tên dự án trên trang tạo
Nếu đã tạo một dự án, bạn có thể tìm thấy mã này trên trang chủ của bảng điều khiển trong thẻ Thông tin dự án

Bật API

Bật các API Cloud Composer, Cloud Dataproc và Cloud Storage.Sau khi bật các API này, bạn có thể bỏ qua nút có nội dung "Go to Credentials" (Truy cập vào thông tin xác thực) và chuyển sang bước tiếp theo của hướng dẫn.

Tạo môi trường Composer

Tạo môi trường Cloud Composer với cấu hình sau:

Tên: my-composer-environment
Vị trí: us-central1
Vùng: us-central1-a

Có thể giữ nguyên tất cả cấu hình khác theo mặc định. Nhấp vào "Tạo" ở dưới cùng.

Tạo bộ chứa Cloud Storage

Trong dự án của bạn, hãy tạo một bộ chứa Cloud Storage với cấu hình sau:

Tên: <your-project-id>
Lớp bộ nhớ mặc định: Nhiều khu vực
Vị trí: Hoa Kỳ
Mô hình kiểm soát quyền truy cập: chi tiết

Nhấn "Tạo" khi bạn sẵn sàng

3. Thiết lập Luồng khí Apache

Xem thông tin môi trường Compose

Trong Bảng điều khiển GCP, hãy mở trang Môi trường

Nhấp vào tên môi trường để xem thông tin chi tiết.

Trang Thông tin chi tiết về môi trường cung cấp những thông tin, chẳng hạn như URL giao diện web của Airflow, mã cụm Google Kubernetes Engine, tên của bộ chứa Cloud Storage và đường dẫn đến thư mục /dags.

Trong Airflow, DAG (Biểu đồ không chu trình có hướng) là một tập hợp các tác vụ được sắp xếp mà bạn muốn lên lịch và chạy. DAG (còn được gọi là quy trình công việc) được xác định trong các tệp Python tiêu chuẩn. Cloud Composer chỉ lên lịch cho các DAG trong thư mục /dags. Thư mục /dags nằm trong bộ chứa Cloud Storage mà Cloud Composer tạo tự động khi bạn tạo môi trường.

Cài đặt biến môi trường luồng khí Apache

Biến Apache Airflow là một khái niệm dành riêng cho luồng Airflow, khác với các biến môi trường. Trong bước này, bạn sẽ thiết lập 3 biến Airflow sau đây: gcp_project, gcs_bucket và gce_zone.

Sử dụng `gcloud` để đặt biến

Trước tiên, hãy mở Cloud Shell, trong đó có Cloud SDK được cài đặt một cách thuận tiện cho bạn.

Đặt biến môi trường COMPOSER_INSTANCE thành tên của môi trường trong Composer

COMPOSER_INSTANCE=my-composer-environment

Để thiết lập các biến Airflow bằng công cụ dòng lệnh gcloud, hãy dùng lệnh gcloud composer environments run cùng lệnh con variables. Lệnh gcloud composer này thực thi lệnh con CLI của Airflow variables. Lệnh con truyền các đối số đến công cụ dòng lệnh gcloud.

Bạn sẽ chạy lệnh này 3 lần, thay các biến bằng các biến có liên quan đến dự án của mình.

Đặt gcp_project bằng lệnh sau đây, thay thế <your-project-id> bằng mã dự án mà bạn đã ghi lại ở Bước 2.

gcloud composer environments run ${COMPOSER_INSTANCE} \
    --location us-central1 variables -- --set gcp_project <your-project-id>

Kết quả của bạn sẽ có dạng như sau

kubeconfig entry generated for us-central1-my-composer-env-123abc-gke.
Executing within the following Kubernetes cluster namespace: composer-1-10-0-airflow-1-10-2-123abc
[2020-04-17 20:42:49,713] {settings.py:176} INFO - settings.configure_orm(): Using pool settings. pool_size=5, pool_recycle=1800, pid=449
[2020-04-17 20:42:50,123] {default_celery.py:90} WARNING - You have configured a result_backend of redis://airflow-redis-service.default.svc.cluste
r.local:6379/0, it is highly recommended to use an alternative result_backend (i.e. a database).
[2020-04-17 20:42:50,127] {__init__.py:51} INFO - Using executor CeleryExecutor
[2020-04-17 20:42:50,433] {app.py:52} WARNING - Using default Composer Environment Variables. Overrides have not been applied.
[2020-04-17 20:42:50,440] {configuration.py:522} INFO - Reading the config from /etc/airflow/airflow.cfg
[2020-04-17 20:42:50,452] {configuration.py:522} INFO - Reading the config from /etc/airflow/airflow.cfg

Đặt gcs_bucket bằng lệnh sau đây, thay thế <your-bucket-name> bằng mã nhóm mà bạn đã ghi chú trong Bước 2. Nếu bạn làm theo đề xuất của chúng tôi, tên bộ chứa của bạn sẽ giống với mã dự án. Kết quả bạn nhập sẽ tương tự như lệnh trước đó.

gcloud composer environments run ${COMPOSER_INSTANCE} \
    --location us-central1 variables -- --set gcs_bucket gs://<your-bucket-name>

Đặt gce_zone bằng lệnh sau. Kết quả của bạn sẽ tương tự như các lệnh trước đó.

gcloud composer environments run ${COMPOSER_INSTANCE} \
    --location us-central1 variables -- --set gce_zone us-central1-a

(Không bắt buộc) Sử dụng `gcloud` để xem biến

Để xem giá trị của một biến, hãy chạy lệnh con CLI của Airflow variables với đối số get hoặc sử dụng Giao diện người dùng của Airflow.

Ví dụ:

gcloud composer environments run ${COMPOSER_INSTANCE} \
    --location us-central1 variables -- --get gcs_bucket

Bạn có thể thực hiện việc này bằng một trong 3 biến vừa đặt: gcp_project, gcs_bucket và gce_zone.

4. Quy trình làm việc mẫu

Hãy xem mã cho DAG mà chúng ta sẽ sử dụng ở bước 5. Đừng lo về việc tải tệp xuống, bạn chỉ cần làm theo hướng dẫn tại đây.

Có rất nhiều nội dung để giải quyết ở đây, vì vậy, hãy phân tích một chút.

from airflow import models
from airflow.contrib.operators import dataproc_operator
from airflow.utils import trigger_rule

Chúng ta bắt đầu với một số lệnh nhập Airflow:

airflow.models – Cho phép chúng tôi truy cập và tạo dữ liệu trong cơ sở dữ liệu Airflow.
airflow.contrib.operators - Nơi các nhà vận hành trong cộng đồng sinh sống. Trong trường hợp này, chúng ta cần có dataproc_operator để truy cập vào API Cloud Dataproc.
airflow.utils.trigger_rule – Để thêm quy tắc điều kiện kích hoạt vào toán tử. Quy tắc kích hoạt cho phép kiểm soát chi tiết việc toán tử có nên thực thi liên quan đến trạng thái của toán tử mẹ hay không.

output_file = os.path.join(
    models.Variable.get('gcs_bucket'), 'wordcount',
    datetime.datetime.now().strftime('%Y%m%d-%H%M%S')) + os.sep

Tham số này chỉ định vị trí của tệp đầu ra. Dòng đáng chú ý ở đây là models.Variable.get('gcs_bucket') sẽ lấy giá trị biến gcs_bucket từ cơ sở dữ liệu Airflow.

WORDCOUNT_JAR = (
    'file:///usr/lib/hadoop-mapreduce/hadoop-mapreduce-examples.jar'
)

input_file = 'gs://pub/shakespeare/rose.txt'

wordcount_args = ['wordcount', input_file, output_file]

WORDCOUNT_JAR – Vị trí của tệp .jar mà sau này chúng tôi sẽ chạy trên cụm Cloud Dataproc. Tệp này đã được lưu trữ trên GCP cho bạn.
input_file – Vị trí của tệp chứa dữ liệu công việc Hadoop của chúng ta sẽ được tính toán dựa trên đó. Chúng ta sẽ tải dữ liệu lên vị trí đó cùng nhau trong Bước 5.
wordcount_args – Các đối số mà chúng tôi sẽ chuyển vào tệp jar.

yesterday = datetime.datetime.combine(
    datetime.datetime.today() - datetime.timedelta(1),
    datetime.datetime.min.time())

Điều này sẽ cung cấp cho chúng ta một đối tượng ngày giờ tương đương đại diện cho nửa đêm của ngày trước đó. Ví dụ: nếu điều này được thực thi vào lúc 11:00 ngày 4 tháng 3, thì đối tượng ngày giờ sẽ đại diện cho 00:00 ngày 3 tháng 3. Điều này có liên quan đến cách Airflow xử lý việc lên lịch. Bạn có thể xem thêm thông tin về vấn đề này tại đây.

default_dag_args = {
    'start_date': yesterday,
    'email_on_failure': False,
    'email_on_retry': False,
    'retries': 1,
    'retry_delay': datetime.timedelta(minutes=5),
    'project_id': models.Variable.get('gcp_project')
}

Biến default_dag_args ở dạng từ điển phải được cung cấp mỗi khi tạo DAG mới:

'email_on_failure' – Cho biết có gửi cảnh báo qua email khi không thực hiện được một tác vụ hay không
'email_on_retry' – Cho biết có gửi cảnh báo qua email hay không khi thử lại một công việc
'retries' – Cho biết số lần luồng khí cần thử lại trong trường hợp không thành công DAG
'retry_delay' – Cho biết thời gian Luồng khí phải đợi trước khi thử lại
'project_id' – Cho DAG biết Mã dự án GCP liên kết với Mã dự án GCP nào, mã này sẽ cần dùng sau này với Nhà điều hành Dataproc

with models.DAG(
        'composer_hadoop_tutorial',
        schedule_interval=datetime.timedelta(days=1),
        default_args=default_dag_args) as dag:

Việc sử dụng with models.DAG yêu cầu tập lệnh phải đưa mọi nội dung bên dưới vào cùng một DAG. Chúng ta cũng thấy 3 đối số được truyền vào:

Chuỗi đầu tiên là tên đặt cho DAG mà chúng ta đang tạo. Trong trường hợp này, chúng ta sẽ sử dụng composer_hadoop_tutorial.
schedule_interval – Đối tượng datetime.timedelta mà chúng ta đã đặt thành một ngày. Tức là DAG này sẽ cố thực thi mỗi ngày một lần sau 'start_date' đã đặt trước đó trong 'default_dag_args'
default_args – Từ điển chúng ta tạo trước đó có chứa các đối số mặc định cho DAG

Tạo cụm Dataproc

Tiếp theo, chúng ta sẽ tạo một dataproc_operator.DataprocClusterCreateOperator để tạo cụm Cloud Dataproc.

    create_dataproc_cluster = dataproc_operator.DataprocClusterCreateOperator(
        task_id='create_dataproc_cluster',
        cluster_name='composer-hadoop-tutorial-cluster-{{ ds_nodash }}',
        num_workers=2,
        zone=models.Variable.get('gce_zone'),
        master_machine_type='n1-standard-1',
        worker_machine_type='n1-standard-1')

Trong toán tử này, chúng ta thấy một vài đối số, tất cả ngoại trừ đối số đầu tiên là dành riêng cho toán tử này:

task_id – Giống như trong BashOperator, đây là tên mà chúng ta chỉ định cho toán tử. Bạn có thể xem tên này từ giao diện người dùng Airflow
cluster_name – Tên mà chúng ta chỉ định cho cụm Cloud Dataproc. Ở đây, chúng tôi đặt tên là composer-hadoop-tutorial-cluster-{{ ds_nodash }} (xem hộp thông tin để biết thông tin bổ sung không bắt buộc)
num_workers – Số lượng worker mà chúng tôi phân bổ cho cụm Cloud Dataproc
zone – Khu vực địa lý nơi chúng tôi muốn cụm này hoạt động, như đã lưu trong cơ sở dữ liệu Airflow. Thao tác này sẽ đọc biến 'gce_zone' mà chúng ta đã đặt ở Bước 3
master_machine_type – Loại máy mà chúng tôi muốn phân bổ cho máy chủ Cloud Dataproc
worker_machine_type – Loại máy mà chúng ta muốn phân bổ cho worker Cloud Dataproc

Gửi công việc Apache Hadoop

dataproc_operator.DataProcHadoopOperator cho phép chúng ta gửi công việc đến cụm Cloud Dataproc.

    run_dataproc_hadoop = dataproc_operator.DataProcHadoopOperator(
        task_id='run_dataproc_hadoop',
        main_jar=WORDCOUNT_JAR,
        cluster_name='composer-hadoop-tutorial-cluster-{{ ds_nodash }}',
        arguments=wordcount_args)

Chúng tôi cung cấp một vài thông số:

task_id – Tên mà chúng tôi chỉ định cho phần này của DAG
main_jar – Vị trí của tệp .jar mà chúng ta muốn chạy trên cụm
cluster_name – Tên của cụm để chạy công việc dựa trên đó mà bạn sẽ thấy giống với tên chúng ta tìm thấy trong toán tử trước đó
arguments – Các đối số được truyền vào tệp jar, như cách bạn sẽ thực thi tệp .jar từ dòng lệnh

Xoá Cluster

Toán tử cuối cùng chúng ta sẽ tạo là dataproc_operator.DataprocClusterDeleteOperator.

    delete_dataproc_cluster = dataproc_operator.DataprocClusterDeleteOperator(
        task_id='delete_dataproc_cluster',
        cluster_name='composer-hadoop-tutorial-cluster-{{ ds_nodash }}',
        trigger_rule=trigger_rule.TriggerRule.ALL_DONE)

Đúng như tên gọi, toán tử này sẽ xoá một cụm Cloud Dataproc cụ thể. Chúng ta thấy 3 đối số ở đây:

task_id – Giống như trong BashOperator, đây là tên mà chúng ta chỉ định cho toán tử. Bạn có thể xem tên này từ giao diện người dùng Airflow
cluster_name – Tên mà chúng ta chỉ định cho cụm Cloud Dataproc. Ở đây, chúng ta đặt tên cho nó là composer-hadoop-tutorial-cluster-{{ ds_nodash }} (xem hộp thông tin sau phần "Tạo cụm Dataproc" để biết thêm thông tin (không bắt buộc))
trigger_rule – Chúng tôi đã đề cập ngắn gọn đến Quy tắc kích hoạt trong quá trình nhập ở đầu bước này, nhưng ở đây chúng ta có một quy tắc trong thực tế. Theo mặc định, toán tử Airflow sẽ không thực thi trừ phi tất cả toán tử luồng ngược dòng (upstream) của nó đã hoàn tất thành công. Quy tắc kích hoạt ALL_DONE chỉ yêu cầu tất cả các toán tử luồng lên đều đã hoàn tất, bất kể các toán tử đó có thành công hay không. Ở đây, điều này có nghĩa là ngay cả khi công việc Hadoop không thành công, chúng ta vẫn muốn chia nhỏ cụm đó.

  create_dataproc_cluster >> run_dataproc_hadoop >> delete_dataproc_cluster

Cuối cùng, chúng ta muốn các toán tử này thực thi theo một thứ tự cụ thể và có thể biểu thị điều này bằng cách sử dụng các toán tử bitshift của Python. Trong trường hợp này, create_dataproc_cluster sẽ luôn thực thi trước, sau đó là run_dataproc_hadoop và cuối cùng là delete_dataproc_cluster.

Kết hợp tất cả lại với nhau, mã sẽ có dạng như sau:

# Copyright 2018 Google LLC
#
# Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
# You may obtain a copy of the License at
#
#     https://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.

# [START composer_hadoop_tutorial]
"""Example Airflow DAG that creates a Cloud Dataproc cluster, runs the Hadoop
wordcount example, and deletes the cluster.

This DAG relies on three Airflow variables
https://airflow.apache.org/concepts.html#variables
* gcp_project - Google Cloud Project to use for the Cloud Dataproc cluster.
* gce_zone - Google Compute Engine zone where Cloud Dataproc cluster should be
  created.
* gcs_bucket - Google Cloud Storage bucket to use for result of Hadoop job.
  See https://cloud.google.com/storage/docs/creating-buckets for creating a
  bucket.
"""

import datetime
import os

from airflow import models
from airflow.contrib.operators import dataproc_operator
from airflow.utils import trigger_rule

# Output file for Cloud Dataproc job.
output_file = os.path.join(
    models.Variable.get('gcs_bucket'), 'wordcount',
    datetime.datetime.now().strftime('%Y%m%d-%H%M%S')) + os.sep
# Path to Hadoop wordcount example available on every Dataproc cluster.
WORDCOUNT_JAR = (
    'file:///usr/lib/hadoop-mapreduce/hadoop-mapreduce-examples.jar'
)
# Arguments to pass to Cloud Dataproc job.
input_file = 'gs://pub/shakespeare/rose.txt'

wordcount_args = ['wordcount', input_file, output_file]

yesterday = datetime.datetime.combine(
    datetime.datetime.today() - datetime.timedelta(1),
    datetime.datetime.min.time())

default_dag_args = {
    # Setting start date as yesterday starts the DAG immediately when it is
    # detected in the Cloud Storage bucket.
    'start_date': yesterday,
    # To email on failure or retry set 'email' arg to your email and enable
    # emailing here.
    'email_on_failure': False,
    'email_on_retry': False,
    # If a task fails, retry it once after waiting at least 5 minutes
    'retries': 1,
    'retry_delay': datetime.timedelta(minutes=5),
    'project_id': models.Variable.get('gcp_project')
}

# [START composer_hadoop_schedule]
with models.DAG(
        'composer_hadoop_tutorial',
        # Continue to run DAG once per day
        schedule_interval=datetime.timedelta(days=1),
        default_args=default_dag_args) as dag:
    # [END composer_hadoop_schedule]

    # Create a Cloud Dataproc cluster.
    create_dataproc_cluster = dataproc_operator.DataprocClusterCreateOperator(
        task_id='create_dataproc_cluster',
        # Give the cluster a unique name by appending the date scheduled.
        # See https://airflow.apache.org/code.html#default-variables
        cluster_name='composer-hadoop-tutorial-cluster-{{ ds_nodash }}',
        num_workers=2,
        zone=models.Variable.get('gce_zone'),
        master_machine_type='n1-standard-1',
        worker_machine_type='n1-standard-1')

    # Run the Hadoop wordcount example installed on the Cloud Dataproc cluster
    # master node.
    run_dataproc_hadoop = dataproc_operator.DataProcHadoopOperator(
        task_id='run_dataproc_hadoop',
        main_jar=WORDCOUNT_JAR,
        cluster_name='composer-hadoop-tutorial-cluster-{{ ds_nodash }}',
        arguments=wordcount_args)

    # Delete Cloud Dataproc cluster.
    delete_dataproc_cluster = dataproc_operator.DataprocClusterDeleteOperator(
        task_id='delete_dataproc_cluster',
        cluster_name='composer-hadoop-tutorial-cluster-{{ ds_nodash }}',
        # Setting trigger_rule to ALL_DONE causes the cluster to be deleted
        # even if the Dataproc job fails.
        trigger_rule=trigger_rule.TriggerRule.ALL_DONE)

    # [START composer_hadoop_steps]
    # Define DAG dependencies.
    create_dataproc_cluster >> run_dataproc_hadoop >> delete_dataproc_cluster
    # [END composer_hadoop_steps]

# [END composer_hadoop]

5. Tải tệp Airflow lên Cloud Storage

Sao chép DAG vào thư mục /dags của bạn

Trước tiên, hãy mở Cloud Shell, trong đó có Cloud SDK được cài đặt một cách thuận tiện cho bạn.
Sao chép kho lưu trữ mẫu python và thay đổi thành thư mục Compose/workflows

git clone https://github.com/GoogleCloudPlatform/python-docs-samples.git && cd python-docs-samples/composer/workflows

Chạy lệnh sau để đặt tên thư mục DAGs thành biến môi trường

DAGS_FOLDER=$(gcloud composer environments describe ${COMPOSER_INSTANCE} \
--location us-central1 --format="value(config.dagGcsPrefix)")

Chạy lệnh gsutil sau đây để sao chép mã hướng dẫn vào nơi tạo thư mục /dags

gsutil cp hadoop_tutorial.py $DAGS_FOLDER

Kết quả của bạn sẽ có dạng như sau:

Copying file://hadoop_tutorial.py [Content-Type=text/x-python]...
/ [1 files][  4.1 KiB/  4.1 KiB]
Operation completed over 1 objects/4.1 KiB.

6. Sử dụng giao diện người dùng Airflow

Cách truy cập vào giao diện web của Airflow bằng bảng điều khiển GCP:

Mở trang Môi trường.
Trong cột Máy chủ web của Airflow cho môi trường, hãy nhấp vào biểu tượng cửa sổ mới. Giao diện người dùng web của Airflow sẽ mở ra trong một cửa sổ trình duyệt mới.

Để biết thông tin về giao diện người dùng Airflow, hãy xem bài viết Truy cập vào giao diện web.

Xem biến

Các biến mà bạn đã đặt trước đó sẽ được lưu trong môi trường của bạn. Bạn có thể xem các biến bằng cách chọn Quản trị > Biến trên thanh trình đơn của giao diện người dùng Airflow.

Thẻ Danh sách được chọn và hiện một bảng có các khoá và khoá giá trị sau: gcp_project, value: project-id key: gcs_bucket, value: gs://bucket-name key: gce_zone, value: vùng

Khám phá các lần chạy DAG

Khi bạn tải tệp DAG lên thư mục dags trong Cloud Storage, Cloud Composer sẽ phân tích cú pháp tệp đó. Nếu không tìm thấy lỗi nào thì tên của quy trình công việc sẽ xuất hiện trong danh sách DAG và quy trình công việc sẽ được xếp hàng đợi để chạy ngay lập tức. Để xem các DAG của bạn, hãy nhấp vào DAG ở đầu trang.

84a29c71f20bff98.pngs

Nhấp vào composer_hadoop_tutorial để mở trang chi tiết về DAG. Trang này bao gồm bản trình bày dạng hình ảnh về các nhiệm vụ trong quy trình công việc và phần phụ thuộc.

Bây giờ, trên thanh công cụ, hãy nhấp vào Graph View (Chế độ xem biểu đồ) rồi di chuột qua hình ảnh đồ hoạ cho từng tác vụ để xem trạng thái của tác vụ đó. Xin lưu ý rằng đường viền xung quanh mỗi tác vụ cũng cho biết trạng thái (đường viền màu xanh lục = đang chạy; màu đỏ = không thành công, v.v.).

4c5a0c6fa9f88513.pngS

Để chạy lại quy trình công việc từ Chế độ xem biểu đồ:

Trong chế độ xem Biểu đồ trên giao diện người dùng Airflow, hãy nhấp vào hình ảnh đồ hoạ create_dataproc_cluster.
Nhấp vào Xoá để đặt lại 3 việc cần làm rồi nhấp vào OK để xác nhận.

Bạn cũng có thể kiểm tra trạng thái và kết quả của quy trình composer-hadoop-tutorial bằng cách chuyển đến các trang sau đây trong Bảng điều khiển của GCP:

Các cụm Cloud Dataproc để giám sát việc tạo và xoá cụm. Xin lưu ý rằng cụm do quy trình tạo ra là tạm thời: cụm này chỉ tồn tại trong suốt thời gian của quy trình làm việc và sẽ bị xoá trong nhiệm vụ mới nhất của quy trình công việc.
Công việc Cloud Dataproc để xem hoặc giám sát công việc đếm từ Apache Hadoop. Nhấp vào ID công việc để xem kết quả của nhật ký công việc.
Trình duyệt Cloud Storage để xem kết quả của số từ trong thư mục wordcount trong bộ chứa Cloud Storage mà bạn đã tạo cho lớp học lập trình này.

7. Dọn dẹp

Cách tránh tính phí vào tài khoản GCP đối với những tài nguyên bạn dùng trong lớp học lập trình này:

(Không bắt buộc) Để lưu dữ liệu, hãy tải dữ liệu xuống từ bộ chứa Cloud Storage cho môi trường Cloud Composer và bộ chứa lưu trữ mà bạn đã tạo cho lớp học lập trình này.
Xoá bộ chứa Cloud Storage bạn đã tạo cho lớp học lập trình này.
Xoá bộ chứa trong Cloud Storage cho môi trường đó.
Xoá môi trường Cloud Composer. Xin lưu ý rằng việc xoá môi trường sẽ không xoá bộ chứa lưu trữ của môi trường đó.

Bạn cũng có thể tuỳ ý xoá dự án:

Trong Bảng điều khiển GCP, hãy chuyển đến trang Dự án.
Trong danh sách dự án, hãy chọn dự án mà bạn muốn xoá rồi nhấp vào Xoá.
Trong hộp này, hãy nhập mã dự án rồi nhấp vào Tắt để xoá dự án.

Báo cáo lỗi

Chạy công việc đếm từ Hadoop trên cụm Dataproc

Thông tin về lớp học lập trình này

Cloud Composer là gì?

Apache Airflow là gì?

Cloud Dataproc là gì?

Việc bạn sẽ làm

Kiến thức bạn sẽ học được

Bạn cần có

Tạo dự án

Bật API

Tạo môi trường Composer

Tạo bộ chứa Cloud Storage

Xem thông tin môi trường Compose

Cài đặt biến môi trường luồng khí Apache

Sử dụng gcloud để đặt biến

(Không bắt buộc) Sử dụng gcloud để xem biến

Tạo cụm Dataproc

Gửi công việc Apache Hadoop

Xoá Cluster

Sao chép DAG vào thư mục /dags của bạn

Xem biến

Khám phá các lần chạy DAG

Sử dụng `gcloud` để đặt biến

(Không bắt buộc) Sử dụng `gcloud` để xem biến