Acerca de este codelab
1. Descripción general
Introducción
Gemini 2.5 Pro es el modelo más potente de Google para la programación y el conocimiento del mundo.
Con la serie 2.5, los modelos de Gemini ahora son modelos de razonamiento híbrido. Gemini 2.5 Pro puede aplicar una cantidad extendida de pensamiento en las tareas y usar herramientas para maximizar la precisión de las respuestas.
Gemini 2.5 Pro tiene las siguientes características:
- Es una mejora significativa con respecto a los modelos anteriores en varias capacidades, como la programación, el razonamiento y la multimodalidad.
- Lidera la industria en razonamiento con un rendimiento de vanguardia en las comparativas de matemáticas y CTIM.
- Un modelo increíble para el código, con un desarrollo web particularmente sólido.
- Es particularmente bueno para instrucciones complejas, pero aún así está bien equilibrado, incluido el n.° 1 en LMSys.
Qué aprenderás
En este instructivo, aprenderás a usar la API de Gemini y el SDK de IA generativa de Google para Python con el modelo Gemini 2.5 Pro.
Completarás las siguientes tareas:
- Genera texto a partir de instrucciones de texto
- Genera texto en tiempo real
- Cómo iniciar chats de varios turnos
- Usa métodos asíncronos
- Configura los parámetros del modelo
- Establece instrucciones del sistema
- Usa filtros de seguridad
- Usa la generación controlada
- Cuenta tokens
- Procesa datos multimodales (audio, código, documentos, imágenes y video)
- Usa llamadas a funciones automáticas y manuales
- Ejecución de código
- Ejemplos de modo de pensamiento
2. Antes de comenzar
Requisitos previos
Para comenzar, necesitarás un proyecto de Google Cloud con una cuenta de facturación válida. Selecciona el proyecto de Google Cloud que deseas usar.
Para ejecutar el codelab, usaremos Colab Enterprise, que es un entorno de notebook colaborativo y administrado con las capacidades de seguridad y cumplimiento de Google Cloud.
Habilite las API necesarias
Haz clic en el siguiente botón para habilitar las APIs necesarias para este codelab en tu proyecto de Google Cloud: Vertex AI, Dataform y Compute Engine.
Cómo copiar el notebook de Colab en Google Cloud
Haz clic en el siguiente botón para abrir el notebook del instructivo en Colab Enterprise. Se creará una copia del notebook de Colab en tu proyecto actual de Google Cloud, lo que te permitirá ejecutarlo.
Comencemos.
3. Inicializa el entorno
Ahora que creamos el notebook de Colab, podemos ejecutar el código que se proporciona en él. En los primeros pasos, se instalarán las dependencias y se importarán las bibliotecas necesarias.
Ejecuta los pasos de la sección Cómo comenzar
Primero, ejecuta las celdas de la sección Primeros pasos una tras otra.
Nota: Para ejecutar una celda, mantén el puntero del mouse sobre la celda de código que deseas ejecutar y, luego, haz clic en el ícono Ejecutar celda.
Al final de esta sección, habrás hecho lo siguiente:
- Instala el SDK de IA generativa de Google para Python
- Importa las bibliotecas necesarias para el lab
- Configura un proyecto de Google Cloud para usar Vertex AI
Ahora usemos Gemini 2.5 Pro para generar texto
4. Genera texto con Gemini
En esta sección del notebook, usarás Gemini 2.5 Pro para generar complementos de texto.
Continúa y ejecuta el siguiente conjunto de celdas en el notebook. Tómate el tiempo para leer el código y comprender cómo usar el SDK de Google GenAI.
Al final de esta sección, habrás aprendido lo siguiente.
- Cómo especificar el modelo que se usará
- Generación de resultados sin transmisión y con transmisión
- Usar la función de chat de varios turnos del SDK
- Llamar al SDK de forma asíncrona
- Configura los parámetros del modelo.
- Configuración de instrucciones del sistema para personalizar el comportamiento del modelo
- Configurar filtros de seguridad del contenido
A continuación, veremos cómo enviar instrucciones multimodales a Gemini
5. Instrucciones multimodales
En esta sección del notebook, usarás Gemini 2.5 Pro para procesar imágenes y videos.
Ejecuta las siguientes celdas en el notebook.
Al final de esta sección, habrás aprendido lo siguiente.
- Envía una instrucción que conste de una imagen y texto.
- Procesa un video desde una URL
A continuación, generaremos resultados bien definidos y estructurados.
6. Resultados estructurados
Cuando usamos la respuesta de los modelos en el código, es importante que obtengamos resultados coherentes y confiables del modelo. La generación controlada te permite definir un esquema de respuesta para especificar la estructura del resultado de un modelo, los nombres de los campos y el tipo de datos esperado para cada campo.
Ejecuta las siguientes celdas en el notebook.
A continuación, veremos cómo fundamentar los resultados de los modelos.
7. Fundamentos
Si deseas usar bases de conocimiento existentes o proporcionar información en tiempo real al modelo, debes considerar la justificación de los resultados del modelo.
Con Gemini y Vertex AI, puedes fundamentar el resultado en la Búsqueda de Google, en el resultado de las respuestas de las funciones y, por último, en el código en sí. La ejecución de código permite que el modelo genere código y lo ejecute, de modo que aprenda de los resultados y realice iteraciones para obtener el resultado final.
Ejecuta las siguientes celdas en el notebook.
A continuación, veremos las capacidades de pensamiento de Gemini 2.5 Pro.
8. Pensando
El modo de pensar es especialmente útil para tareas complejas que requieren varias rondas de planificación y solución iterativa. Los modelos Gemini 2.5 son modelos de razonamiento capaces de reflexionar antes de responder, lo que contribuye a mejorar el rendimiento y la precisión.
Ejecuta las siguientes celdas en el notebook. Cuando lo hagas, observa el resultado del pensamiento antes de que el modelo presente su resultado real.
9. Conclusión
¡Felicitaciones! Aprendiste a aprovechar la potencia de Gemini 2.5 Pro con el SDK de IA generativa de Google para Python, que abarca la generación de texto, la multimodalidad, la justificación, los resultados estructurados y sus capacidades de pensamiento avanzado. Ahora tienes los conocimientos básicos para comenzar a compilar tus propias aplicaciones innovadoras con el SDK. Gemini 2.5 Pro, con su potente modo de pensamiento y razonamiento, abre nuevas posibilidades y se presta a la innovación en varios casos de uso.
Referencias adicionales
- Consulta la documentación de referencia del SDK de IA generativa de Google.
- Explora otros notebooks en el repositorio de GitHub de la IA generativa de Google Cloud.
- Explora modelos de IA en Model Garden.