Comienza a usar Data Boost de Spanner y BigQuery

1. Introducción

En este codelab, aprenderás a usar Spanner Data Boost para consultar datos de Spanner desde BigQuery con consultas federadas sin ETL y sin afectar la base de datos de Spanner.

Spanner Data Boost es un servicio sin servidores completamente administrado que proporciona recursos de procesamiento independientes para las cargas de trabajo de Spanner compatibles. Data Boost te permite ejecutar consultas de estadísticas y exportaciones de datos con un impacto casi nulo en las cargas de trabajo existentes de la instancia de Spanner aprovisionada con un modelo de uso a pedido sin servidores.

Cuando se combina con las conexiones externas de BigQuery, Data Boost te permite consultar fácilmente datos de Spanner en tu plataforma de análisis de datos sin un movimiento de datos de ETL complejo.

Requisitos previos

Conocimientos básicos sobre la consola de Google Cloud
Habilidades básicas de la interfaz de línea de comandos y de Google Shell

Qué aprenderás

Cómo implementar una instancia de Spanner
Cómo cargar datos para crear una base de datos de Spanner
Cómo acceder a los datos de Spanner desde BigQuery sin Data Boost
Cómo acceder a los datos de Spanner desde BigQuery con Data Boost

Requisitos

Una cuenta de Google Cloud y un proyecto de Google Cloud
Un navegador web, como Chrome

2. Configuración y requisitos

Cómo configurar el entorno a tu propio ritmo

Accede a Google Cloud Console y crea un proyecto nuevo o reutiliza uno existente. Si aún no tienes una cuenta de Gmail o de Google Workspace, debes crear una.

El Nombre del proyecto es el nombre visible de los participantes de este proyecto. Es una cadena de caracteres que no se utiliza en las APIs de Google. Puedes actualizarla cuando quieras.
El ID del proyecto es único en todos los proyectos de Google Cloud y es inmutable (no se puede cambiar después de configurarlo). La consola de Cloud genera automáticamente una cadena única. Por lo general, no importa cuál sea. En la mayoría de los codelabs, deberás hacer referencia al ID de tu proyecto (suele identificarse como PROJECT_ID). Si no te gusta el ID que se generó, podrías generar otro aleatorio. También puedes probar uno propio y ver si está disponible. No se puede cambiar después de este paso y se usa el mismo durante todo el proyecto.
Recuerda que hay un tercer valor, un número de proyecto, que usan algunas APIs. Obtén más información sobre estos tres valores en la documentación.

A continuación, deberás habilitar la facturación en la consola de Cloud para usar las APIs o los recursos de Cloud. Ejecutar este codelab no costará mucho, tal vez nada. Para cerrar recursos y evitar que se generen cobros más allá de este instructivo, puedes borrar los recursos que creaste o borrar el proyecto. Los usuarios nuevos de Google Cloud son aptos para participar en el programa Prueba gratuita de $300.

Inicie Cloud Shell

Si bien Google Cloud y Spanner se pueden operar de manera remota desde tu laptop, en este codelab usarás Google Cloud Shell, un entorno de línea de comandos que se ejecuta en la nube.

En Google Cloud Console, haz clic en el ícono de Cloud Shell en la barra de herramientas en la parte superior derecha:

El aprovisionamiento y la conexión al entorno deberían tomar solo unos minutos. Cuando termine el proceso, debería ver algo como lo siguiente:

Esta máquina virtual está cargada con todas las herramientas de desarrollo que necesitarás. Ofrece un directorio principal persistente de 5 GB y se ejecuta en Google Cloud, lo que permite mejorar considerablemente el rendimiento de la red y la autenticación. Todo tu trabajo en este codelab se puede hacer en un navegador. No es necesario que instales nada.

3. Crea una instancia y una base de datos de Spanner

Habilita la API de Spanner

En Cloud Shell, asegúrate de que tu ID del proyecto esté configurado:

gcloud config set project [YOUR-PROJECT-ID]
PROJECT_ID=$(gcloud config get-value project)

Configura tu región predeterminada como us-central1. Puedes cambiarla a otra región compatible con las configuraciones regionales de Spanner.

gcloud config set compute/region us-central1

Habilita la API de Spanner:

gcloud services enable spanner.googleapis.com

Crea la instancia de Spanner

En este paso, configuraremos nuestra instancia de Spanner para el codelab. Para ello, abre Cloud Shell y ejecuta este comando:

export SPANNER_INSTANCE_ID=codelab-demo
export SPANNER_REGION=regional-us-central1
gcloud spanner instances create $SPANNER_INSTANCE_ID \
--config=$SPANNER_REGION \
--description="Spanner Codelab instance" \
--nodes=1

Resultado del comando:

$ gcloud spanner instances create $SPANNER_INSTANCE_ID \
--config=$SPANNER_REGION \
--description="Spanner Codelab instance" \
--nodes=1
Creating instance...done.

Crea la base de datos

Una vez que se ejecute la instancia, podrás crear la base de datos. Spanner permite tener varias bases de datos en una sola instancia.

La base de datos es donde defines tu esquema. También puedes controlar quién tiene acceso a la base de datos, configurar la encriptación personalizada, configurar el optimizador y establecer el período de retención.

Para crear la base de datos, vuelve a usar la herramienta de línea de comandos de gcloud:

export SPANNER_DATABASE=codelab-db
gcloud spanner databases create $SPANNER_DATABASE \
 --instance=$SPANNER_INSTANCE_ID

Resultado del comando:

$ gcloud spanner databases create $SPANNER_DATABASE \
 --instance=$SPANNER_INSTANCE_ID
Creating database...done.

4. Cargar datos

Antes de poder usar Data Boost, debes tener algunos datos en la base de datos. Para ello, crearás un bucket de Cloud Storage, subirás una importación de Avro al bucket y, luego, iniciarás un trabajo de importación de Dataflow para cargar los datos de Avro en Spanner.