Знакомство с Gemini 2.5 Pro в Google Cloud

Знакомство с Gemini 2.5 Pro в Google Cloud

О практической работе

subjectПоследнее обновление: апр. 23, 2025
account_circleАвторы: Prashanth Subrahmanyam

1. Обзор

Введение

Gemini 2.5 Pro — это лучшая модель Google для программирования и мировых знаний.

В серии 2.5 модели Gemini теперь являются гибридными моделями рассуждений! Gemini 2.5 Pro может применять расширенный подход к решению задач и использовать инструменты для максимизации точности ответа.

Близнецы 2.5 Про — это:

  • Значительное улучшение по сравнению с предыдущими моделями по всем возможностям, включая кодирование, рассуждение и мультимодальность.
  • Лидирующее в отрасли качество рассуждений с высочайшими показателями в тестах по математике и STEM.
  • Потрясающая модель кода с особенно сильной веб-разработкой.
  • Особенно хорош для сложных подсказок, но при этом хорошо продуман, включая номер 1 на LMSys.

Что вы узнаете

В этом руководстве вы узнаете, как использовать Gemini API и Google Gen AI SDK для Python с моделью Gemini 2.5 Pro.

Вы выполните следующие задачи:

  • Генерация текста из текстовых подсказок
    • Создание потокового текста
    • Начать многоходовые чаты
    • Используйте асинхронные методы
  • Настройте параметры модели
  • Установить системные инструкции
  • Используйте защитные фильтры
  • Используйте контролируемую генерацию
  • Подсчитайте жетоны
  • Обработка мультимодальных (аудио, код, документы, изображения, видео) данных.
  • Используйте автоматический и ручной вызов функций
  • Выполнение кода
  • Примеры режима мышления

2. Прежде чем начать

Предварительные условия

Прежде чем вы сможете начать, вам понадобится проект Google Cloud с действующим платежным аккаунтом. Выберите проект Google Cloud, который вы хотите использовать.

Для запуска лаборатории кода мы будем использовать Colab Enterprise — управляемую среду блокнотов для совместной работы с возможностями безопасности и соответствия требованиям Google Cloud.

Включите необходимые API

Нажмите кнопку ниже, чтобы включить необходимые API для этой лаборатории кода в вашем проекте Google Cloud: Vertex AI, Dataform и Compute Engine.

Скопируйте блокнот Colab в Google Cloud

Нажмите кнопку ниже, чтобы открыть учебную записную книжку в Colab Enterprise. Это создаст копию блокнота Colab в вашем текущем проекте Google Cloud, что позволит вам запустить блокнот.

Давайте начнем!

3. Инициализируйте среду

Теперь, когда у нас создан блокнот Colab, мы можем выполнить код, представленный в блокноте. Первые несколько шагов позволят установить зависимости и импортировать необходимые библиотеки.

Выполните действия, описанные в разделе «Начало работы».

Сначала запустите ячейки в разделе «Начало работы» одну за другой.

Ячейки кода в разделе «Начало работы»

Примечание. Вы можете запустить ячейку, удерживая указатель мыши над ячейкой кода, которую хотите запустить, а затем щелкнув значок Значок запуска ячейки Значок запуска ячейки.

Запустить ячейку

К концу этого раздела вы сделаете следующее.

  • Установите Google Gen AI SDK для Python
  • Импортируйте необходимые библиотеки для лаборатории
  • Настройте проект Google Cloud для использования Vertex AI.

Теперь давайте воспользуемся Gemini 2.5 Pro для генерации текста.

4. Генерация текста с помощью Gemini

В этом разделе Блокнота вы будете использовать Gemini 2.5 Pro для создания дополнений текста.

Продолжайте и выполните следующий набор ячеек в блокноте, потратив время на чтение кода и понимание того, как использовать Google GenAI SDK.

Генерация текста из текстовых подсказок

К концу этого раздела вы узнаете следующее.

  • Как указать модель для использования.
  • Непотоковая и потоковая генерация вывода.
  • Использование возможности многоходового чата SDK.
  • Асинхронный вызов SDK.
  • Настройка параметров модели.
  • Установка системных инструкций для настройки поведения модели.
  • Настройка фильтров безопасности контента.

Далее мы увидим, как отправлять мультимодальные подсказки в Gemini.

5. Мультимодальные подсказки

В этом разделе Блокнота вы будете использовать Gemini 2.5 Pro для обработки изображений и видео.

Продолжайте и выполните следующие ячейки в блокноте. Ячейки кода для мультимодальных подсказок

К концу этого раздела вы узнаете следующее.

  • Отправьте приглашение, состоящее из изображения и текста.
  • Обработка видео по URL

Далее мы сгенерируем четко определенные и структурированные результаты.

6. Структурированные результаты

При использовании реакции моделей в коде важно, чтобы мы получали последовательные и надежные результаты модели. Управляемая генерация позволяет определить схему ответа, чтобы указать структуру выходных данных модели, имена полей и ожидаемый тип данных для каждого поля.

Продолжайте и выполните следующие ячейки в блокноте. Кодовые ячейки для контролируемого выхода

Далее мы увидим, как заземлить выходы модели.

7. Заземление

Если вы хотите использовать существующие базы знаний или предоставлять в модель информацию в режиме реального времени, вам следует обратить внимание на обоснование выходных данных модели.

С помощью Gemini и Vertex AI вы можете обосновать вывод в Google Search, вывод ответов функций и, наконец, сам код. Выполнение кода позволяет модели генерировать код и запускать его, тем самым обучаясь на результатах и ​​повторяя итерации для получения окончательного результата.

Продолжайте и выполните следующие ячейки в блокноте. Кодовые ячейки для проверки заземления

Далее мы увидим мыслительные возможности Gemini 2.5 Pro.

8. мышление

Режим мышления особенно полезен для сложных задач, требующих нескольких раундов разработки стратегии и итеративного решения. Модели Gemini 2.5 — это модели мышления, способные рассуждать, прежде чем ответить, что приводит к повышению производительности и точности.

Продолжайте и выполните следующие ячейки в блокноте. При этом обратите внимание на результат мышления до того, как модель представит фактический результат. Ячейки кода для отображения результатов мышления

9. Заключение

Поздравляем! Вы узнали, как использовать возможности Gemini 2.5 Pro с помощью Google Gen AI SDK для Python, включая генерацию текста, мультимодальность, обоснование, структурированные выходные данные и расширенные мыслительные возможности. Теперь у вас есть базовые знания, позволяющие создавать собственные инновационные приложения с помощью SDK. Gemini 2.5 Pro с его мощным режимом мышления и рассуждения открывает новые возможности и позволяет внедрять инновации в различных случаях использования.

Дополнительные ссылки

Как вам понравилась эта кодлаб?