Codelab sull'esplorazione dei dati e sulla navigazione nella UI di BigQuery

1. Introduzione

BigQuery è un data warehouse serverless, a scalabilità elevata e dai costi contenuti. Non devi far altro che spostare i tuoi dati in BigQuery: ci occuperemo noi di tutto il resto, così potrai concentrarti su ciò che conta davvero, ovvero la gestione della tua attività. Puoi controllare l'accesso sia al progetto sia ai tuoi dati in base alle tue esigenze aziendali, ad esempio per offrire agli altri la possibilità di visualizzare i tuoi dati o eseguire query.

In questo lab scoprirai le possibilità di analisi di BigQuery. Imparerai a importare un set di dati da un bucket Google Cloud Storage e a familiarizzare con l'interfaccia utente BigQuery lavorando con un set di dati di Retail banking. Inoltre, questo lab ti insegnerà a scoprire le funzionalità chiave di BigQuery che semplificano notevolmente l'analisi quotidiana, ad esempio l'esportazione dei risultati delle query in un foglio di lavoro, la visualizzazione e l'esecuzione di query dalla cronologia delle query, la visualizzazione del rendimento delle query e la creazione di viste delle tabelle da utilizzare da altri team e reparti.

Cosa imparerai a fare

In questo lab imparerai a:

  • Caricamento di nuovi dati in BigQuery
  • Familiarizzare con l'interfaccia utente di BigQuery
  • Esecuzione di query in BigQuery
  • Visualizzare il rendimento delle query
  • Creazione di viste in BigQuery
  • Condividere in modo sicuro i set di dati con altri

2. Introduzione: comprendere l'interfaccia utente di BigQuery

In questa sezione imparerai a navigare nell'interfaccia utente BigQuery, visualizzare i set di dati disponibili ed eseguire una query semplice.

Caricamento della UI di BQ

  1. Digita "BigQuery" nella parte superiore della console Google Cloud Platform.
  2. Seleziona BigQuery dall'elenco delle opzioni. Assicurati di selezionare l'opzione con il logo BigQuery, la lente d'ingrandimento.

Visualizzare i set di dati ed eseguire query

ee95ce13969ee1ad.png

  1. Nel riquadro a sinistra, nella sezione Risorse, fai clic sul tuo progetto BigQuery.
  2. Fai clic su bq_demo per visualizzare le tabelle nel set di dati.
  3. Nella casella di ricerca, digita "scheda" per visualizzare un elenco di tabelle e set di dati che contengono "scheda" nel nome.
  4. Seleziona la tabella "card_transactions" dall'elenco dei risultati di ricerca.

beb6ff6ca2930125.png

  1. Fai clic sulla scheda Dettagli nel riquadro card_transactions per visualizzare i metadati di questa tabella.
  2. Fai clic sulla scheda Anteprima per visualizzare un'anteprima della tabella.

[Punto di discussione competitivo]: L'integrazione con Google Data Catalog consente di gestire i metadati di BigQuery insieme ad altre origini dati, come data lake o origini dati operative. Questo è un esempio che dimostra che Google Cloud non è solo un data warehouse relazionale, ma un'intera piattaforma di dati analitici.

  1. Fai clic sull'icona a forma di lente d'ingrandimento per eseguire una query sulla tabella "card_transactions". Un testo generato automaticamente verrà inserito nell'editor di query BigQuery.
  2. Inserisci il codice riportato di seguito per mostrarci i commercianti distinti dalla tabella Card_Transactions
SELECT distinct (merchant) FROM bq_demo.card_transactions LIMIT 1000
  1. Fai clic sul pulsante Esegui per eseguire la query.

35113542e7ec6fa6.png

3. Creazione di set di dati e condivisione di visualizzazioni

La condivisione di dati e governance è fondamentale e può essere eseguita in modo intuitivo nell'interfaccia utente di BigQuery. In questa sezione imparerai a creare un nuovo set di dati, a compilarlo con una visualizzazione e a condividerlo.

Visualizzare la cronologia delle query

  1. Fai clic su "Cronologia query" nel riquadro a sinistra della console di GCP.
  2. Fai clic su Aggiorna nel riquadro Cronologia delle query.
  3. Fai clic sull'immagine/freccia di download all'estrema destra della query per visualizzare i risultati.

6e3232ed96f647b8.png

Creazione di un nuovo set di dati

  1. Seleziona [il nome del tuo progetto] nel riquadro delle risorse della UI di BigQuery.
  2. Seleziona "Crea nuovo set di dati" nel riquadro delle informazioni sul progetto.
  3. Per ID set di dati:

bq_demo_shared

  1. Lascia tutti gli altri campi con i valori predefiniti.
  2. Fai clic su "Crea set di dati".

b433eba38f55124f.png dd774aca416e7fbc.png

Creare visualizzazioni

[Punto di discussione competitivo]: BigQuery è completamente conforme ad ANSI SQL e supporta join multi-tabella semplici e complessi, nonché funzioni di analisi avanzate. Abbiamo rilasciato continuamente un supporto avanzato per i tipi di dati e le funzioni SQL comuni utilizzati nei data warehouse tradizionali per semplificare il processo di migrazione.

  1. Seleziona "Crea nuova query" nella parte superiore del riquadro dell'editor di query.
  2. Inserisci il seguente codice nell'editor di query
WITH revenue_by_month AS (
SELECT
    card.type AS card_type,
    FORMAT_DATE('%Y-%m', trans_date) as revenue_date,
    SUM(amount) as revenue
FROM bq_demo.card_transactions
JOIN bq_demo.card ON card_transactions.cc_number = card.card_number
WHERE trans_date  DATE_ADD(CURRENT_DATE, INTERVAL -1 YEAR)
GROUP BY card_type, revenue_date
)
SELECT
    card_type,
    revenue_date,
    revenue as monthly_rev,
    revenue -  LAG(revenue) OVER (ORDER BY card_type, revenue_date ASC) as rev_change
FROM revenue_by_month
ORDER BY card_type, revenue_date ASC;
  1. Fai clic su "Salva visualizzazione".
  2. Seleziona il progetto corrente per Nome progetto
  3. Seleziona il set di dati appena creato:

bq_demo_shared

  1. Per il nome della tabella:

rev_change_by_card_type

  1. Fai clic su Salva.

4b111056b544c27d.png

Condivisione di visualizzazioni e set di dati

  1. Seleziona il set di dati "bq_demo_shared" dal riquadro delle risorse a sinistra nell'interfaccia utente BigQuery.
  2. Fai clic su "Condividi set di dati" nel riquadro delle informazioni del set di dati.
  3. Inserisci un indirizzo email
  4. Seleziona "Visualizzatore dati BigQuery" dal menu a discesa Ruolo.
  5. Fai clic su "Aggiungi"
  6. Fai clic su Fine.

1c04b6b5ebc191dc.png

Esplorare i dati in Fogli

[Punto di discussione competitivo]: Un altro vantaggio di BigQuery rispetto alla concorrenza è BI Engine. BI Engine può essere utilizzato per fare in modo che le query di riepilogo di tipo BI vengano restituite in meno di un secondo tramite il motore di memorizzazione nella cache in memoria. Questa funzionalità è attualmente supportata da Google Data Studio, ma sarà presto disponibile per accelerare tutte le query in BigQuery.

Ad esempio:

Snowflake si basa su strumenti BI di terze parti per dashboard e visualizzazione dei dati, mentre GCP offre una gamma di strumenti BI integrati, tra cui Fogli connessi, Data Studio e Looker.

  1. Seleziona la visualizzazione "rev_change_by_card_type" dal riquadro delle risorse a sinistra nell'interfaccia utente BigQuery.
  2. Fai clic sulla lente d'ingrandimento per eseguire una query sulla visualizzazione 255be22b0eaf339.png
  3. Tipo:

SELECT *

FROM bq_demo_shared.rev_change_by_card_type

  1. Fai clic su Esegui.
  2. Fai clic sull'icona "Esporta" nel riquadro dei risultati.
  3. Seleziona "Esplora i dati con Fogli".

9617b522025fd337.png

  1. Fai clic su"Avvia analisi".
  2. Seleziona "Tabella pivot".
  3. Seleziona "Nuovo foglio".
  4. Fai clic su "Crea"
  5. Aggiungi "revenue_date" alla sezione Riga dell'editor tabella pivot, che si trova a destra della finestra di Fogli.
  6. Aggiungi "card_type" nella sezione Colonna dell'editor tabella pivot.
  7. Aggiungi "monthly_rev" nella sezione Colonna dell'editor tabella pivot.
  8. Fai clic su Applica

48e67c2e04965796.png

  1. Vai alla barra multifunzione in alto nell'interfaccia utente di Fogli e seleziona Inserisci > Grafico.

4. Configurazione: integrazione dei dati

In questa sezione imparerai a creare una nuova tabella ed eseguire un'operazione JOIN su uno dei numerosi set di dati pubblici disponibili in Google Cloud.

[Competitive Talking Point]:

BigQuery supporta i set di dati condivisi da anni. I clienti di qualsiasi progetto possono eseguire query sia sui set di dati pubblici sia sui set di dati di altri progetti condivisi con loro.

BigQuery può supportare i data lake in GCS tramite l'utilizzo di tabelle esterne. Oltre al caricamento collettivo, BigQuery supporta la possibilità di trasmettere flussi di dati nel database a velocità superiori a centinaia di MB al secondo. Snowflake non supporta lo streaming dei dati.

Importazione dei dati in una nuova tabella

  1. Nel riquadro delle risorse, seleziona il set di dati bq_demo.
  2. Nel riquadro delle informazioni sul set di dati, seleziona "Crea tabella".
  3. Seleziona Google Cloud Storage per l'origine
  4. Nella casella di testo del percorso del file:

gs://retail-banking-looker/district

  1. Seleziona CSV per il formato file
  2. Inserisci "district" come nome della tabella
  3. Seleziona la casella di controllo Rilevamento automatico dello schema.
  4. Fai clic su Crea tabella.

Esecuzione di query sul set di dati pubblico

  1. Nell'editor di query, inserisci la seguente query:
SELECT
    CAST(geo_id as STRING) AS zip_code,
    total_pop,
    median_age,
    households,
    income_per_capita,
    housing_units,
    vacant_housing_units_for_sale,
    ROUND(SAFE_DIVIDE(employed_pop, pop_16_over),4) AS rate_employment,
    ROUND(SAFE_DIVIDE(bachelors_degree_or_higher_25_64, pop_25_64),4) AS rate_bachelors_degree_or_higher_25_64
  FROM
    `bigquery-public-data.census_bureau_acs.zip_codes_2017_5yr`;
  1. Fai clic su Esegui.
  2. Visualizza i risultati

dff40709db70d75.png

  1. Ora combineremo questi dati pubblici con un'altra query. Inserisci il seguente codice SQL nell'editor di query:
WITH customer_counts AS (
    select regexp_extract(address, "[0-9][0-9][0-9][0-9][0-9]") as zip_code, 
    count(*) as num_clients
    FROM bq_demo.client
    GROUP BY zip_code
    )
SELECT 
    CAST(geo_id as STRING) AS zip_code,
    total_pop,
    median_age,
    households,
    income_per_capita,
    ROUND(SAFE_DIVIDE(employed_pop, pop_16_over),4) AS rate_employment,
    num_clients
FROM
    `bigquery-public-data.census_bureau_acs.zip_codes_2017_5yr`
JOIN customer_counts on zip_code = geo_id
ORDER BY num_clients DESC
  1. Fai clic su Esegui.
  2. Visualizza i risultati

b853ad571e7a3038.png

5. Gestione della capacità

Utilizzare slot e prenotazioni

BQ offre più modelli di determinazione dei prezzi per soddisfare le tue esigenze. La maggior parte dei clienti di grandi dimensioni utilizza principalmente la tariffa flat per prezzi prevedibili con capacità riservata. Per superare questa capacità di base, BQ offre slot flessibili che ti consentono di aumentare la capacità aggiuntiva al volo e poi ridurla automaticamente senza influire sull'esecuzione delle query. BQ ha anche un modello di scansione dei byte che ti consente di pagare solo per le query eseguite.

[Punto di discussione competitivo: alcuni concorrenti lavorano esclusivamente su un modello a capacità fissa in cui i clienti devono allocare un warehouse virtuale per ogni carico di lavoro nella loro organizzazione. Oltre a un modello a basso costo per query che semplifica l'utilizzo di BigQuery, supportiamo un modello di prezzi per capacità a tariffa fissa in cui la capacità inattiva può essere condivisa tra un insieme di workload.]

  1. Vai alla scheda Prenotazioni.

964f4ab78d35d067.png

  1. Fai clic su "Acquista slot".

c8cb5ee61bbea814.png

  1. Seleziona "Flessibile" come durata.
  2. Seleziona 500 slot.
  3. Conferma l'acquisto.

d615f5908dffc1ee.png

  1. Fai clic su Visualizza impegni slot.
  2. Fai clic su "Crea prenotazione".
  3. Utente "demo" come nome della prenotazione
  4. Seleziona Stati Uniti come località
  5. Digita 500 per gli slot (tutti disponibili)
  6. Fai clic su Assegnazioni.
  7. Scegli il progetto corrente per il progetto dell'organizzazione
  8. Seleziona "demo" per l'ID prenotazione
  9. Fai clic su Crea".