1. Wprowadzenie
W tym ćwiczeniu dowiesz się, jak używać BigQuery Graph do tworzenia widoku 360 stopni klienta i systemu rekomendacji dla Cymbal Pets, fikcyjnej firmy detalicznej. Wykorzystasz możliwości SQL do tworzenia, wysyłania zapytań i analizowania danych grafu bezpośrednio w BigQuery, łącząc je z wyszukiwaniem wektorowym w celu uzyskania zaawansowanych rekomendacji produktów.
BigQuery Graph umożliwia modelowanie relacji między encjami danych (takimi jak klienci, produkty i zamówienia) jako grafu, co ułatwia odpowiadanie na złożone pytania dotyczące zachowań klientów i powiązań między produktami.

Jakie zadania wykonasz
- Utworzysz zbiór danych i schemat BigQuery dla grafu Cymbal Pets.
- Wczytasz przykładowe dane (klienci, produkty, zamówienia, sklepy) z Cloud Storage.
- Utworzysz graf właściwości w BigQuery łączący te encje.
- Zwizualizujesz historię zakupów klientów za pomocą zapytań grafowych.
- Utworzysz system rekomendacji produktów za pomocą wyszukiwania wektorowego.
- Ulepszysz rekomendacje za pomocą relacji grafowych „Kupione razem”.
Czego potrzebujesz
- Przeglądarka internetowa, np. Chrome.
- Projekt Google Cloud z włączonymi płatnościami.
To ćwiczenie jest przeznaczone dla programistów na wszystkich poziomach zaawansowania, w tym dla początkujących.
2. Zanim zaczniesz
Utwórz projekt Google Cloud
- W konsoli Google Cloud wybierz lub utwórz projekt w chmurze Google Cloud.
- Sprawdź, czy w projekcie w chmurze włączone są płatności.
Uruchamianie Cloud Shell
- Kliknij Aktywuj Cloud Shell na górze konsoli Google Cloud.
- Sprawdź uwierzytelnianie:
gcloud auth list
- Potwierdź swój projekt:
gcloud config get project
- W razie potrzeby ustaw go:
export PROJECT_ID=<YOUR_PROJECT_ID>
gcloud config set project $PROJECT_ID
Włącz interfejsy API
Aby włączyć wymagany interfejs BigQuery API, uruchom to polecenie:
gcloud services enable bigquery.googleapis.com
3. Określ schemat
Najpierw musisz utworzyć zbiór danych do przechowywania tabel związanych z grafem i zdefiniować schemat węzłów i krawędzi.
- W tym ćwiczeniu będziemy wykonywać polecenia SQL. Możesz uruchamiać te polecenia w BigQuery Studio > Edytorze SQL lub użyć polecenia
bq queryw Cloud Shell.
Zakładamy, że używasz edytora SQL BigQuery, aby zapewnić lepsze wrażenia podczas tworzenia instrukcji wielowierszowych. - Utwórz zbiór danych
cymbal_pets_demo:
CREATE SCHEMA IF NOT EXISTS cymbal_pets_demo;
- Utwórz tabele
order_items,products,orders,stores,customers, ico_related_products_for_angelica. Te tabele będą służyć jako źródło danych dla naszego wykresu.
CREATE TABLE IF NOT EXISTS cymbal_pets_demo.order_items
(
order_id INT64,
product_id INT64,
order_item_id INT64,
quantity INT64,
price FLOAT64,
PRIMARY KEY (order_id, product_id, order_item_id) NOT ENFORCED
)
CLUSTER BY order_item_id;
CREATE TABLE IF NOT EXISTS cymbal_pets_demo.products
(
product_id INT64,
product_name STRING,
brand STRING,
category STRING,
subcategory INT64,
animal_type INT64,
search_keywords INT64,
price FLOAT64,
description STRING,
inventory_level INT64,
supplier_id INT64,
average_rating FLOAT64,
uri STRING,
embedding ARRAY<FLOAT64>,
PRIMARY KEY (product_id) NOT ENFORCED
)
CLUSTER BY product_id;
CREATE TABLE IF NOT EXISTS cymbal_pets_demo.orders
(
customer_id INT64,
order_id INT64,
shipping_address_city STRING,
store_id INT64,
order_date DATE,
order_type STRING,
payment_method STRING,
PRIMARY KEY (order_id) NOT ENFORCED
)
PARTITION BY order_date
CLUSTER BY order_id;
CREATE TABLE IF NOT EXISTS cymbal_pets_demo.stores
(
store_id INT64,
store_name STRING,
address_state STRING,
address_city STRING,
latitude FLOAT64,
longitude FLOAT64,
opening_hours STRUCT<Monday STRING, Tuesday STRING, Wednesday STRING, Thursday STRING, Friday STRING, Saturday STRING, Sunday STRING>,
manager_id INT64,
PRIMARY KEY (store_id) NOT ENFORCED
)
CLUSTER BY store_id;
CREATE TABLE IF NOT EXISTS cymbal_pets_demo.customers
(
customer_id INT64,
first_name STRING,
last_name STRING,
email STRING,
gender STRING,
address_city STRING,
address_state STRING,
loyalty_member BOOL,
PRIMARY KEY (customer_id) NOT ENFORCED
)
CLUSTER BY customer_id;
CREATE TABLE IF NOT EXISTS cymbal_pets_demo.co_related_products_for_angelica
(
angelica_product_id INT64,
other_product_id INT64,
co_purchase_count INT64
);
Strukturę danych grafu masz już zdefiniowaną.
4. Wczytaj dane
Teraz wypełnij tabele przykładowymi danymi z Cloud Storage.
W edytorze SQL BigQuery uruchom te instrukcje LOAD DATA:
LOAD DATA INTO `cymbal_pets_demo.customers`
FROM FILES (
format = 'AVRO',
uris = ['gs://sample-data-and-media/cymbal-pets/tables/customers/*.avro']
);
LOAD DATA INTO `cymbal_pets_demo.order_items`
FROM FILES (
format = 'AVRO',
uris = ['gs://sample-data-and-media/cymbal-pets/tables/order_items/*.avro']
);
LOAD DATA INTO `cymbal_pets_demo.orders`
FROM FILES (
format = 'AVRO',
uris = ['gs://sample-data-and-media/cymbal-pets/tables/orders/*.avro']
);
LOAD DATA INTO `cymbal_pets_demo.products`
FROM FILES (
format = 'AVRO',
uris = ['gs://sample-data-and-media/cymbal-pets/tables/products/*.avro']
);
LOAD DATA INTO `cymbal_pets_demo.stores`
FROM FILES (
format = 'AVRO',
uris = ['gs://sample-data-and-media/cymbal-pets/tables/stores/*.avro']
);
Powinna się wyświetlić informacja, że wiersze zostały wczytane do każdej tabeli.
5. Utwórz graf właściwości
Po wczytaniu danych możesz zdefiniować graf właściwości. Informuje to BigQuery, które tabele reprezentują węzły (encje takie jak klienci, produkty), a które tabele reprezentują krawędzie (relacje takie jak „Odwiedził”, „Złożył”, „Ma”).

Uruchom tę instrukcję DDL:
CREATE OR REPLACE PROPERTY GRAPH cymbal_pets_demo.PetsOrderGraph
NODE TABLES (
cymbal_pets_demo.customers KEY(customer_id) LABEL Customer,
cymbal_pets_demo.products KEY(product_id) LABEL Products,
cymbal_pets_demo.stores KEY(store_id) LABEL Stores,
cymbal_pets_demo.orders KEY(order_id) LABEL Orders
)
EDGE TABLES (
cymbal_pets_demo.orders as customer_to_store_edge
KEY (order_id)
SOURCE KEY (customer_id) references customers(customer_id)
DESTINATION KEY (store_id) references stores(store_id)
LABEL Visited
PROPERTIES ALL COLUMNS,
cymbal_pets_demo.order_items
KEY (order_item_id)
SOURCE KEY (order_id) references orders(order_id)
DESTINATION KEY (product_id) references products(product_id)
LABEL Has
PROPERTIES ALL COLUMNS,
cymbal_pets_demo.orders as customer_to_orders_edge
KEY (order_id)
SOURCE KEY (customer_id) references customers(customer_id)
DESTINATION KEY (order_id) references orders(order_id)
LABEL Placed
PROPERTIES ALL COLUMNS,
cymbal_pets_demo.co_related_products_for_angelica
KEY (angelica_product_id)
SOURCE KEY (angelica_product_id) references products(product_id)
DESTINATION KEY (other_product_id) references products(product_id)
LABEL BoughtTogether
PROPERTIES ALL COLUMNS
);
Spowoduje to utworzenie grafu PetsOrderGraph, który umożliwia wykonywanie przejść po grafie za pomocą operatora GRAPH_TABLE.
6. Wizualizuj historię zakupów wszystkich klientów
W BigQuery Studio otwórz Nowy notatnik.

W części tego ćwiczenia dotyczącej wizualizacji i rekomendacji będziemy używać notatnika Google Colab w BigQuery Studio. Umożliwia to łatwe wizualizowanie wyników grafu.
Notatnik BigQuery Graph jest zaimplementowany jako IPython Magics. Dodając polecenie magiczne %%bigquery z funkcją TO_JSON, możesz wizualizować wyniki w sposób opisany w kolejnych sekcjach.
Załóżmy, że Cymbal Pets chce uzyskać wizualizację 360 stopni wszystkich klientów i ich zakupów w określonym przedziale czasu.
W nowej komórce uruchom:
%%bigquery --graph
GRAPH cymbal_pets_demo.PetsOrderGraph
# finds the customer node and then finds all
# the Orders nodes that are connected to that customer through the
# Placed relationship
MATCH (customer:Customer)-[placed:Placed]->(ordr:Orders)-[has:Has]->(product:Products)
# filters the Orders nodes to only include those where the
# order_date is within the last 3 months.
WHERE ordr.order_date >= date('2024-11-27')
# # This line finds all the Products nodes that are connected to the
# # filtered Orders nodes through the Has relationship.
MATCH p=(customer:Customer)-[placed:Placed]->(ordr:Orders)-[has:Has]->(product:Products)
LIMIT 40
RETURN
TO_JSON(p) as paths
Powinna się wyświetlić wizualizacja wyniku grafu.

7. Wizualizuj historię zakupów Angeliki
Załóżmy, że Cymbal Pets chce szczegółowo przeanalizować dane klientki o imieniu Angelika Russell. Chce przeanalizować produkty, które Angelika kupiła w ciągu ostatnich 3 miesięcy, oraz sklepy, które odwiedziła.
%%bigquery --graph
GRAPH cymbal_pets_demo.PetsOrderGraph
# finds the customer node with the name "Angelica Russell" and then finds all
# the Orders nodes that are connected to that customer through the
# Placed relationship and all the Products nodes that are connected to the
# filtered Orders nodes through the Has relationship.
MATCH p=(customer:Customer {first_name: 'Angelica', last_name: 'Russell'})-[placed:Placed]->(ordr:Orders)-[has:Has]->(product:Products)
# filters the Orders nodes to only include those where the
# order_date is within the last 3 months.
WHERE ordr.order_date >= date('2024-11-27')
# finds the Stores nodes where Angelica placed order from
MATCH p2=(customer)-[visited:Visited]->(store:Stores)
RETURN
TO_JSON(p) as path, TO_JSON(p2) as path2

8. Rekomendacje produktów za pomocą wyszukiwania wektorowego
Cymbal Pets chce polecać Angelice produkty na podstawie tego, co ostatnio kupiła. Możemy użyć wyszukiwania wektorowego , aby znaleźć produkty z podobnymi wektorami dystrybucyjnymi do jej poprzednich zakupów.
W nowej komórce Colab uruchom ten skrypt SQL. Ten skrypt:
- Identyfikuje produkty, które Angelika kupiła ostatnio.
- Używa funkcji
VECTOR_SEARCHdo znajdowania 4 najbardziej podobnych produktów z tabeliproducts.
Uwaga: ten krok zakłada, że masz już uruchomioną funkcję AI.GENERATE_EMBEDDINGS, aby utworzyć kolumnę wektorów dystrybucyjnych w tabeli produktów.
%%bigquery
DECLARE products_bought_by_angelica ARRAY<INT64>;
-- 1. Get IDs of products bought by Angelica
SET products_bought_by_angelica = (
SELECT ARRAY_AGG(product_id) FROM
GRAPH_TABLE(
cymbal_pets_demo.PetsOrderGraph
MATCH (c:Customer {first_name: 'Angelica', last_name: 'Russell'})-[placed:Placed]->(o:Orders)
WHERE o.order_date >= date('2024-11-27')
MATCH (o)-[has_edge:Has]->(p:Products)
RETURN DISTINCT p.product_id as product_id
));
-- 2. Find similar products using vector search
SELECT
query.product_name as AngelicaBought,
base.product_name as RecommendedProducts,
base.category
FROM
VECTOR_SEARCH(
TABLE cymbal_pets_demo.products,
'embedding',
(SELECT * FROM cymbal_pets_demo.products
WHERE product_id IN UNNEST(products_bought_by_angelica)),
'embedding',
top_k => 4)
WHERE query.product_name <> base.product_name;
Powinna się wyświetlić lista polecanych produktów, które są semantycznie podobne do tego, co kupiła Angelika.

9. Rekomendacje na podstawie relacji „Kupione razem”
Inną skuteczną techniką rekomendacji jest „filtrowanie oparte na współpracy” – polecanie produktów, które są często kupowane razem przez innych użytkowników. Modelujemy to jako krawędź BoughtTogether w naszym grafie.
Aby polecać produkty kupowane razem, Cymbal Pets uruchomiło analityczne zapytanie grafowe offline, aby znaleźć najlepsze produkty do polecenia dla każdego produktu kupionego przez Angelikę.
%%bigquery
CREATE OR REPLACE TABLE cymbal_pets_demo.co_related_products_for_angelica AS
SELECT
angelica_product_id,
other_product_id,
co_purchase_count
FROM (
SELECT
angelicaProduct.product_id AS angelica_product_id,
otherProduct.product_id AS other_product_id,
count(otherProduct) AS co_purchase_count,
# ensures that the row numbering is done separately for each angelica_product_id
ROW_NUMBER() OVER (PARTITION BY angelicaProduct.product_id ORDER BY count(otherProduct) DESC) AS rn
FROM
GRAPH_TABLE (cymbal_pets_demo.PetsOrderGraph
MATCH (angelica:Customer {first_name: 'Angelica', last_name: 'Russell'})-[:Placed]->(o:Orders)-[:Has]->(angelicaProduct:Products)
WHERE o.order_date >= date('2024-11-27')
WITH angelica, angelicaProduct
MATCH (otherCustomer:Customer)-[:Placed]->(otherOrder:Orders)-[:Has]->(angelicaProduct) # Find orders where Angelica's products were bought
WHERE otherCustomer <> angelica # Exclude Angelica's own orders
WITH angelicaProduct, otherOrder
MATCH (otherOrder)-[:HAS]->(otherProduct:Products) # Find other products in those orders
WHERE angelicaProduct <> otherProduct # Exclude the original product.
RETURN angelicaProduct, otherProduct, otherOrder
)
GROUP BY
angelicaProduct.product_id, otherProduct.product_id
)
WHERE rn <= 3; # only keep top 3 co-related products

Uruchom to zapytanie, aby polecać produkty, które są bezpośrednio połączone z zakupami Angeliki za pomocą krawędzi BoughtTogether:
%%bigquery
SELECT * FROM GRAPH_TABLE(
cymbal_pets_demo.PetsOrderGraph
MATCH (customer:Customer {first_name: 'Angelica', last_name: 'Russell'})-[placed:Placed]->(ordr:Orders)
WHERE ordr.order_date >= date('2024-11-27')
MATCH (ordr)-[has:Has]->(product:Products)
MATCH (product)-[bought_together:BoughtTogether]->(recommended_product:Products)
RETURN
product.product_name AS OriginalProduct,
recommended_product.product_name AS Recommended,
bought_together.co_purchase_count AS Strength
);
To zapytanie przechodzi od Klienta -> Zamówienie -> Produkt -> (Kupione razem) -> Polecany produkt, wyświetlając rekomendacje na podstawie zbiorowego zachowania zakupowego.

10. Zwalnianie miejsca
Aby uniknąć obciążenia konta Google Cloud bieżącymi opłatami, usuń zasoby utworzone podczas tego ćwiczenia.
Usuń zbiór danych i wszystkie tabele:
DROP SCHEMA IF EXISTS cymbal_pets_demo CASCADE;
Jeśli na potrzeby tego ćwiczenia został przez Ciebie utworzony nowy projekt, możesz go też usunąć:
gcloud projects delete $PROJECT_ID
11. Gratulacje
Gratulacje! Udało Ci się utworzyć widok 360 stopni klienta i system rekomendacji za pomocą BigQuery Graph.
Czego się dowiesz
- Jak utworzyć graf właściwości w BigQuery.
- Jak wczytywać dane do węzłów i krawędzi grafu.
- Jak wysyłać zapytania o wzorce grafów za pomocą funkcji
GRAPH_TABLEiMATCH. - Jak łączyć zapytania grafowe z wyszukiwaniem wektorowym w celu uzyskania rekomendacji hybrydowych.
Dalsze kroki
- Zapoznaj się z dokumentacją BigQuery Graph.
- Dowiedz się więcej o wyszukiwaniu wektorowym w BigQuery.