このページは Cloud Translation API によって翻訳されました。

BigQuery と Looker を使用して、Bigtable でクレジットカードの取引データを分析、可視化する

1. 概要

この Codelab では、Bigtable に書き込まれるクレジットカード取引データのストリームの分析について説明します。Bigtable change streams to BigQuery テンプレートを使用してデータをリアルタイムでエクスポートする方法について学習します。次に、変更ストリームログをクエリする方法と、データを再フォーマットして Looker を使用してダッシュボードを作成する方法について説明します。

この Codelab は、Bigtable、コマンドラインツールの使用、イベントストリーミングサービスに精通している技術ユーザーを対象としています。

この Codelab では、次の方法について説明します。

変更ストリームを有効にして Bigtable テーブルを作成する。
BigQuery データセットを作成します。
Dataflow テンプレート Bigtable change streams to BigQuery. をデプロイする
BigQuery でイベントストリームに対してクエリを実行する。
Looker でイベントストリームを可視化します。

次の図は、デプロイするシステムのアーキテクチャを示しています。

2. プロジェクトの設定

Google Cloud コンソールの [プロジェクトセレクタ] ページで、Google Cloud プロジェクトを選択または作成します。

Google Cloud プロジェクトに対して課金が有効になっていることを確認します。
この事前入力された API 有効化ページにアクセスして、Dataflow、Bigtable、BigQuery、Looker、Cloud Storage に必要な API を有効にします。

3. BigQuery データセットを作成する

この Codelab で後ほど BigQuery を使用してデータを分析します。データパイプラインの出力に使用するデータセットを作成する手順は次のとおりです。

Google Cloud コンソールで [BigQuery] ページに移動します。
[エクスプローラ] ペインでプロジェクト名を見つけて、オーバーフローメニュー（プロジェクト ID の横にある縦に 3 つ並んだ点）をクリックします。
[データセットを作成] をクリックします。

[データセットを作成] パネルで、次の操作を行います。

[データセット ID] に bigtable_bigquery_tutorial を入力します。
残りのデフォルト設定はそのままにします。
[データセットを作成] をクリックします。

4. 変更ストリームを有効にして Bigtable テーブルを作成する

Bigtable は、低レイテンシで水平方向にスケーラブルな NoSQL データベースサービスです。金融データの提供が一般的なユースケースの 1 つです。ここでは、クレジットカード取引を保存できるテーブルを作成します。Bigtable は、世界中のトランザクションの高スループット書き込みを処理でき、そのデータをリアルタイムの不正行為検出に使用することもできます。

Google Cloud コンソールで、Bigtable インスタンスページに移動します。
このチュートリアルで使用しているインスタンスの ID をクリックします。使用可能なインスタンスがない場合は、近くのリージョンに任意の名前でインスタンスを作成します。その他はすべてデフォルト構成を使用できます。

左側のナビゲーションパネルで [テーブル] をクリックします。
[テーブルを作成] をクリックします。

テーブルに retail-database という名前を付けます。
transactions という名前の列ファミリーを追加します。
[変更ストリームを有効にする] を選択します。
ガベージコレクションポリシーと保持期間はデフォルト値のままにします。
[作成] をクリックします。

5. データパイプラインを初期化して変更ストリームを取得する

Bigtable のパフォーマンスは、ポイント読み取りと行範囲スキャンに最適ですが、テーブル全体の分析では、サービング容量と CPU リソースに負荷がかかる可能性があります。BigQuery はテーブル全体の分析に最適であるため、ここで使用するソリューションは二重書き込みです。つまり、データを Bigtable と BigQuery に書き込むことになります。これは一般的な手法です。Bigtable change streams to BigQuery Dataflow テンプレートを使用するため、追加のコーディングは必要ありません。データが Bigtable に書き込まれると、パイプラインは BigQuery に変更レコードを書き込みます。データが BigQuery に保存されたら、Bigtable でサービングデータのパフォーマンスに影響を与えることなく、データセット全体に対して最適化されたクエリを実行できます。

Bigtable の [テーブル] ページで、テーブル retail-database を見つけます。
[変更ストリーム] 列で、[接続] をクリックします。
[Dataflow で接続] ダイアログで、[BigQuery] を選択します。
[Dataflow ジョブを作成] をクリックします。
表示されたパラメータフィールドに、パラメータ値を入力します。省略可能なパラメータを指定する必要はありません。

Cloud Bigtable アプリケーションプロファイル ID を default に設定します。
BigQuery データセットを bigtable_bigquery_tutorial に設定します。

[ジョブを実行] をクリックします。
ジョブステータスが「開始中」または「実行中」になるまで待ってから、次に進みます。ジョブがキューに追加されてから 5 分ほどかかります。ページが自動的に更新されます。このテンプレートではストリーミングジョブが作成されるため、ジョブを手動で停止するまで、Bigtable に書き込まれた新しいデータを継続的に処理できます。

6. Bigtable にデータを書き込む

次に、1 年間のクレジットカード取引を Bigtable テーブルに書き込みます。このデータセットの例には、クレジットカード番号、販売者名と ID、金額などの情報が含まれています。実際のクレジットカード処理アプリケーションでは、トランザクションが発生するたびに、このデータがリアルタイムでデータベースにストリーミングされます。

Cloud コンソールの右上にあるボタンをクリックして、Cloud Shell を開きます。

プロンプトが表示されたら、プロンプトを承諾して Cloud Shell を承認します。
データセットをダウンロードします。

gsutil cp gs://cloud-bigtable-public-datasets/change-streams-tutorial/cc-transactions-2023.csv .

コマンドラインで環境変数を設定する

PROJECT_ID=your-project-id
BIGTABLE_INSTANCE_ID=your-bigtable-instance-id

cbt CLI を使用して、クレジットカードトランザクションの数を retail-database テーブルに書き込みます。

cbt -instance=$BIGTABLE_INSTANCE_ID -project=$PROJECT_ID import \
retail-database cc-transactions-2023.csv  column-family=transactions

出力は次のようになります。

Done importing 10000 rows.

7. BigQuery で変更ログを表示する

Google Cloud コンソールで [BigQuery] ページに移動します。
[エクスプローラ] ペインで、プロジェクトとデータセット bigtable_bigquery_tutorial を開きます。
テーブル retail-database_changelog をクリックします。テーブルが存在しない場合は、データセットを更新する必要があります。
変更ログを表示するには、[プレビュー] をクリックします。

クエリを試す

これで、このデータセットに対していくつかのクエリを実行して、分析情報を取得できます。SQL クエリはここで提供されていますが、BigQuery で Bigtable 変更ログをクエリするドキュメントでは、変更ログデータのクエリを作成する方法について詳しく説明しています。

1 つの取引を検索する

特定のトランザクションのデータを検索するには、次のクエリを使用します。

SELECT *
FROM `bigtable_bigquery_tutorial.retail-database_changelog`
WHERE row_key="3034-442694-3052#2023-03-03T14:50:46.824Z"

書き込まれた各列が BigQuery で個別の行に変換されていることがわかります。

各カテゴリの購入数を確認する

次のクエリを使用して、カテゴリごとの購入数をカウントします。

SELECT value as category, count(*) as `number of sales`
FROM `bigtable_bigquery_tutorial.retail-database_changelog`
WHERE column="category"
GROUP BY category

データを再フォーマットする

各トランザクションを 1 つの BigQuery テーブル行に再構築するには、データをピボットしてその結果を新しいテーブルに保存します。これは、クエリを実行しやすい形式です。

CREATE VIEW bigtable_bigquery_tutorial.retail_transactions_view AS (
    SELECT *, parse_numeric(amount) as sales_dollars FROM (
      SELECT row_key, timestamp, column, value
      FROM `bigtable_bigquery_tutorial.retail-database_changelog`
      )
      PIVOT (
      MAX(value)
      FOR column in ("merchant", "amount", "category", "transaction_date")
    )
)

Looker ダッシュボードを作成する

[ビューに移動] をクリックして、新しいビューの詳細ページに移動します。
[エクスポート] をクリックします。
[Looker Studio で調べる] を選択します。

8. ダッシュボードにグラフを追加する

情報をグラフ化して、簡単に把握し、レポートとして共有できるようになりました。ダッシュボードに次の 3 つのグラフを追加します。

取引金額の推移
販売者ごとの合計取引数
カテゴリごとのトランザクションの割合

ページを設定する

既存のグラフをそれぞれクリックして、削除アイコンをクリックして削除します。
ページの右側にある [プロパティ] を選択して、グラフデータを変更します。

グラフを追加する

取引金額の推移

[グラフを追加] をクリックして、時系列グラフを作成します。
[ディメンション] を transaction_date に設定します。

[Metric] を sales_dollars に設定します。

販売者ごとの合計トランザクション数

[グラフを追加] をクリックして表を作成します。
[ディメンション] を merchant に設定します。
[指標] を sales_dollars に設定します。

カテゴリごとのトランザクションの割合

[グラフを追加] をクリックして、円グラフを作成します。
[ディメンション] を category に設定します。
[指標] を sales_dollars に設定します。

リアルタイムの変更を確認する

グラフの値をじっくり確認します。表内の特定の販売者または特定のカテゴリをクリックすると、すべてのグラフでその特定の値がフィルタされ、より詳細な分析情報を確認できます。次に、データを追加して、このグラフがリアルタイムでどのように更新されるかを確認します。

Cloud Shell に戻ります。
2 つ目のデータセットをダウンロードして書き込みます。

gsutil cp gs://cloud-bigtable-public-datasets/change-streams-tutorial/cc-transactions-2024-jan.csv .

cbt -instance=$BIGTABLE_INSTANCE_ID -project=$PROJECT_ID import \
retail-database cc-transactions-2024-jan.csv  column-family=transactions

Looker ダッシュボードに戻り、Ctrl+Shift+E コマンドでデータを更新するか、[ビュー] メニューの [データの更新] をクリックします。これで、2024 年 1 月の情報がグラフに表示されます。

作成できるグラフや指標には、この他にもさまざまな種類があります。詳細については、Looker のドキュメントをご覧ください。

9. クリーンアップ

このチュートリアルで使用したリソースについて、Google Cloud アカウントに課金されないようにするには、リソースを含むプロジェクトを削除するか、プロジェクトを維持して個々のリソースを削除します。

変更ストリームパイプラインを停止する

Google Cloud コンソールで、Dataflow Jobs ページに移動します。
ジョブリストからストリーミングジョブを選択します。
ナビゲーションで、[停止] をクリックします。
[ジョブの停止] ダイアログで [キャンセル] を選択し、[ジョブの停止] をクリックします。

Bigtable リソースを削除する

このチュートリアル用に Bigtable インスタンスを作成した場合は、そのインスタンスを削除するか、作成したテーブルをクリーンアップできます。

Google Cloud コンソールで、Bigtable インスタンスページに移動します。
このチュートリアルで使用しているインスタンスの ID をクリックします。
左側のナビゲーションパネルで [テーブル] をクリックします。
retail-database テーブルを見つけます。
[編集] をクリックします。
[変更ストリームを有効にする] をオフにします。
[保存] をクリックします。
テーブルのオーバーフローメニューを開きます。
[削除] をクリックし、テーブル名を入力して確定します。
省略可: このチュートリアル用に新しいインスタンスを作成した場合は、インスタンスを削除します。

BigQuery データセットの削除

Google Cloud コンソールで [BigQuery] ページに移動します。
[エクスプローラ] パネルで、データセット bigtable_bigquery_tutorial を見つけてクリックします。
[削除] をクリックして「delete」と入力し、[削除] をクリックして確定します。