Google Cloud 上的 Gemini 2.5 Pro 简介

1. 概览

简介

Gemini 2.5 Pro 是 Google 最强大的编码和世界知识模型。

借助 2.5 系列,Gemini 模型现在是混合推理模型!Gemini 2.5 Pro 可跨多项任务进行大量思考,并使用工具来最大限度地提高回答的准确率。

Gemini 2.5 Pro 具有以下特点:

  • 与之前的模型相比,在编码、推理和多模态等功能方面有了显著改进。
  • 在推理方面处于行业领先地位,在数学和 STEM 基准测试中表现出色。
  • 一款出色的代码模型,尤其擅长 Web 开发。
  • 尤其擅长处理复杂的提示,同时仍然能力全面,在 LMSys 中排名第一。

学习内容

在本教程中,您将学习如何将 Gemini API 和 Google Gen AI SDK for Python 与 Gemini 2.5 Pro 模型结合使用。

您将完成以下任务:

  • 根据文本提示生成文本
    • 生成流式文本
    • 开始多轮聊天
    • 使用异步方法
  • 配置模型参数
  • 设置系统指令
  • 使用安全过滤器
  • 使用受控生成功能
  • 统计 token 数量
  • 处理多模态(音频、代码、文档、图像、视频)数据
  • 使用自动和手动函数调用
  • 代码执行
  • 思考模式示例

2. 准备工作

前提条件

在开始之前,您需要拥有一个 Google Cloud 项目,并且该项目具有有效的结算账号。请选择您要使用的 Google Cloud 项目。

为了运行此 Codelab,我们将使用 Colab Enterprise,这是一个具有 Google Cloud 安全与合规性功能的代管式协作笔记本环境。

启用所需的 API

点击下面的按钮,在您的 Google Cloud 云项目中为此 Codelab 启用必要的 API:Vertex AI、Dataform 和 Compute Engine。

将 Colab 笔记本复制到 Google Cloud

点击下面的按钮,在 Colab Enterprise 中打开教程笔记本。这会在您当前的 Google Cloud 项目中创建一个 Colab 笔记本副本,然后您就可以运行该笔记本了。

我们开始吧!

3. 初始化环境

现在我们已经创建了 Colab 笔记本,可以执行笔记本中提供的代码了。前几个步骤将安装依赖项并导入必要的库。

运行使用入门中的步骤

首先,依次运行“使用入门”部分中的单元格。

“开始使用”部分中的代码单元格

注意:您可以将鼠标指针悬停在要运行的代码单元格上,然后点击 “运行单元”图标“运行单元格”图标来运行单元格。

运行单元格

在本部分结束时,您将完成以下操作。

  • 安装 Google Gen AI SDK for Python
  • 导入实验所需的库
  • 设置 Google Cloud 项目以使用 Vertex AI

现在,我们使用 Gemini 2.5 Pro 生成文本

4. 使用 Gemini 生成文本

在本笔记本的这一部分中,您将使用 Gemini 2.5 Pro 生成文本补全。

继续执行笔记本中的下一组单元格,花时间阅读代码并了解如何使用 Google 生成式 AI SDK。

根据文本提示生成文本

在本部分结束时,您将学习以下内容。

  • 如何指定要使用的模型。
  • 非流式输出生成与流式输出生成。
  • 使用 SDK 的多轮对话功能。
  • 异步调用 SDK。
  • 配置模型参数。
  • 设置系统指令以自定义模型行为。
  • 配置内容安全过滤器。

接下来,我们将了解如何向 Gemini 发送多模态提示

5. 多模态提示

在本笔记本的这一部分中,您将使用 Gemini 2.5 Pro 处理图片和视频。

继续执行笔记本中的以下单元格。用于多模态提示的代码单元格

在本部分结束时,您将学习以下内容。

  • 发送包含图片和文本的提示。
  • 通过网址处理视频

接下来,我们将生成明确定义的结构化输出

6. 结构化输出

在代码中使用模型的响应时,务必确保从模型中获得一致且可靠的输出。通过受控生成功能,您可以定义回答架构,以指定模型输出的结构、字段名称以及每个字段的预期数据类型。

继续执行笔记本中的以下单元格。用于控制输出的代码单元格

接下来,我们将了解如何将模型输出与事实依据相关联

7. 建立依据

如果您想使用现有知识库或向模型提供实时信息,则应考虑将模型输出与事实依据相关联。

借助 Gemini 和 Vertex AI,您可以将输出与 Google 搜索结果、函数响应的输出以及代码本身相关联。借助代码执行功能,模型可以生成并运行代码,从而从结果中学习并迭代以获得最终输出。

继续执行笔记本中的以下单元格。用于测试 Grounding 的代码单元

接下来,我们将了解 Gemini 2.5 Pro 的思考能力

8. 思考

思考模式对于需要制定多轮策略和迭代求解的复杂任务尤其有用。Gemini 2.5 系列模型是思考模型,能够在给出答复前进行深度思考和推理,从而改进了回答效果和准确性。

继续执行笔记本中的以下单元格。执行时,请注意模型在呈现实际输出之前的思考输出。用于显示“思考”输出的代码单元格

9. 总结

恭喜!您已学习如何使用 Google Gen AI SDK for Python 来发挥 Gemini 2.5 Pro 的强大功能,包括文本生成、多模态、建立依据、结构化输出及其高级思考能力。现在,您已掌握使用 SDK 构建自己的创新应用的基础知识。Gemini 2.5 Pro 具有强大的思考和推理模式,为各种应用场景带来了新的可能性,并有助于创新。

其他参考文档

您觉得此 Codelab 怎么样?

很棒 一般 有待改进