À propos de cet atelier de programmation
1. Présentation
Introduction
Gemini 2.5 Pro est le modèle de Google le plus performant pour le codage et la connaissance du monde.
Avec la série 2.5, les modèles Gemini sont désormais des modèles de raisonnement hybrides. Gemini 2.5 Pro peut appliquer une réflexion étendue aux tâches et utiliser des outils pour maximiser la précision des réponses.
Gemini 2.5 Pro est:
- Amélioration significative par rapport aux modèles précédents en termes de capacités, y compris le codage, le raisonnement et la multimodalité.
- Meilleure solution du marché en matière de raisonnement, avec des performances de pointe dans les benchmarks de mathématiques et de STEM.
- Modèle de code exceptionnel, avec un développement Web particulièrement robuste.
- Particulièrement adapté aux requêtes complexes, tout en restant équilibré, y compris le n° 1 sur LMSys.
Points abordés
Dans ce tutoriel, vous allez apprendre à utiliser l'API Gemini et le SDK Google Gen AI pour Python avec le modèle Gemini 2.5 Pro.
Vous allez effectuer les tâches suivantes :
- Générer du texte à partir de requêtes textuelles
- Générer du texte en streaming
- Démarrer des discussions multitours
- Utiliser des méthodes asynchrones
- Configurer les paramètres du modèle
- Définir des instructions système
- Utiliser des filtres de sécurité
- Utiliser la génération contrôlée
- Compter les jetons
- Traiter des données multimodales (audio, code, documents, images, vidéos)
- Utiliser l'appel de fonction automatique et manuel
- Exécution du code
- Exemples de mode de réflexion
2. Avant de commencer
Prérequis
Avant de pouvoir commencer, vous devez disposer d'un projet Google Cloud associé à un compte de facturation valide. Veuillez sélectionner le projet Google Cloud que vous souhaitez utiliser.
Pour exécuter l'atelier de programmation, nous allons utiliser Colab Enterprise, un environnement de notebook collaboratif et géré doté des fonctionnalités de sécurité et de conformité de Google Cloud.
Activer les API requises
Cliquez sur le bouton ci-dessous pour activer les API nécessaires à cet atelier de programmation dans votre projet Google Cloud: Vertex AI, Dataform et Compute Engine.
Copier le notebook Colab dans Google Cloud
Cliquez sur le bouton ci-dessous pour ouvrir le notebook de tutoriel dans Colab Enterprise. Une copie du notebook Colab est alors créée dans votre projet Google Cloud actuel, ce qui vous permet de l'exécuter.
C'est parti !
3. Initialiser l'environnement
Maintenant que le notebook Colab est créé, nous pouvons exécuter le code fourni dans le notebook. Les premières étapes consistent à installer les dépendances et à importer les bibliothèques nécessaires.
Suivez les étapes de la section "Premiers pas".
Commencez par exécuter les cellules de la section "Premiers pas" les unes après les autres.
Remarque:Vous pouvez exécuter une cellule en maintenant le pointeur de la souris sur la cellule de code que vous souhaitez exécuter, puis en cliquant sur l'icône Exécuter la cellule.
À la fin de cette section, vous aurez effectué les opérations suivantes :
- Installer le SDK Google Gen AI pour Python
- Importer les bibliothèques nécessaires pour l'atelier
- Configurer un projet Google Cloud pour utiliser Vertex AI
Utilisons maintenant Gemini 2.5 Pro pour générer du texte.
4. Générer du texte avec Gemini
Dans cette section du notebook, vous allez utiliser Gemini 2.5 Pro pour générer des suggestions de texte.
Exécutez l'ensemble suivant de cellules du notebook, en prenant le temps de lire le code et de comprendre comment utiliser le SDK Google GenAI.
À la fin de cette section, vous saurez :
- Spécifier le modèle à utiliser
- Génération de sortie non streaming et streaming
- Utiliser la fonctionnalité de chat multitour du SDK
- Appeler le SDK de manière asynchrone
- Configurer les paramètres du modèle.
- Définir des instructions système pour personnaliser le comportement du modèle.
- Configurer des filtres de sécurité du contenu
Nous allons maintenant voir comment envoyer des requêtes multimodales à Gemini.
5. Requêtes multimodales
Dans cette section du notebook, vous allez utiliser Gemini 2.5 Pro pour traiter des images et des vidéos.
Exécutez les cellules suivantes dans le notebook.
À la fin de cette section, vous saurez :
- Envoyez une requête composée d'une image et de texte.
- Traiter une vidéo à partir d'une URL
Ensuite, nous allons générer des sorties bien définies et structurées.
6. Sorties structurées
Lorsque vous utilisez la réponse des modèles dans le code, il est important d'obtenir des sorties cohérentes et fiables du modèle. La génération contrôlée vous permet de définir un schéma de réponse pour spécifier la structure de la sortie d'un modèle, les noms des champs et le type de données attendu pour chaque champ.
Exécutez les cellules suivantes dans le notebook.
Nous allons maintenant voir comment ancrer les sorties des modèles.
7. Surface de référence
Si vous souhaitez utiliser des bases de connaissances existantes ou fournir des informations en temps réel au modèle, vous devez examiner la justification des sorties du modèle.
Avec Gemini et Vertex AI, vous pouvez ancrer la sortie dans la recherche Google, sur la sortie des réponses de fonction et enfin dans le code lui-même. L'exécution de code permet au modèle de générer et d'exécuter du code, d'apprendre des résultats et d'itérer pour obtenir le résultat final.
Exécutez les cellules suivantes dans le notebook.
Nous allons maintenant découvrir les capacités de réflexion de Gemini 2.5 Pro.
8. Réflexion…
Le mode Pensée est particulièrement utile pour les tâches complexes qui nécessitent plusieurs cycles de réflexion et de résolution itérative. Les modèles Gemini 2.5 sont des modèles de réflexion, capables de raisonner avant de répondre, offrant ainsi de meilleures performances et plus de précision.
Exécutez les cellules suivantes dans le notebook. Notez la sortie de la réflexion avant que le modèle ne présente sa sortie réelle.
9. Conclusion
Félicitations ! Vous avez appris à exploiter la puissance de Gemini 2.5 Pro à l'aide du SDK Google Gen AI pour Python, en couvrant la génération de texte, la multimodalité, l'ancrage, les sorties structurées et ses capacités de réflexion avancées. Vous disposez désormais des connaissances de base nécessaires pour commencer à créer vos propres applications innovantes à l'aide du SDK. Gemini 2.5 Pro, avec son puissant mode de réflexion et de raisonnement, ouvre de nouvelles possibilités et se prête à l'innovation dans divers cas d'utilisation.
Autres références
- Consultez la documentation de référence du SDK Google Gen AI.
- Dépôt GitHub Google Cloud pour l'IA générative, contenant d'autres notebooks
- Découvrez les modèles d'IA dans Model Garden.