关于此 Codelab
1. 概览
简介
Gemini 2.5 Pro 是 Google 最强大的编码和世界知识模型。
在 2.5 系列中,Gemini 模型现在是混合推理模型!Gemini 2.5 Pro 可以在各种任务中进行大量思考,并使用工具来最大限度提高回答准确性。
Gemini 2.5 Pro 具有以下特点:
- 与之前的模型相比,在编码、推理和多模态等方面取得了显著进步。
- 在数学和 STEM 基准测试中,推理能力处于业界领先水平,并且取得了出色的成绩。
- 一种出色的代码模型,具备尤其强大的 Web 开发功能。
- 特别适合复杂的提示,同时仍然能力全面,包括 LMSys 上的第 1 名。
学习内容
在本教程中,您将学习如何将 Gemini API 和 Google Gen AI SDK for Python 与 Gemini 2.5 Pro 模型结合使用。
您将完成以下任务:
- 根据文本提示生成文本
- 生成逐字逐句显示的文本
- 发起多轮对话
- 使用异步方法
- 配置模型参数
- 设置系统指令
- 使用安全过滤器
- 使用受控生成功能
- 统计词元数
- 处理多模态(音频、代码、文档、图片、视频)数据
- 使用自动和手动函数调用
- 代码执行
- 思考模式示例
2. 准备工作
前提条件
您需要先拥有一个包含有效结算账号的 Google Cloud 项目,然后才能开始使用。请选择您要使用的 Google Cloud 项目。
为了运行此 Codelab,我们将使用 Colab Enterprise,这是一个具有 Google Cloud 安全与合规性功能的代管式协作笔记本环境。
启用所需的 API
点击下面的按钮,在您的 Google Cloud 项目中启用本 Codelab 所需的 API:Vertex AI、Dataform 和 Compute Engine。
将 Colab 笔记本复制到 Google Cloud
点击下面的按钮,即可在 Colab Enterprise 中打开教程笔记本。这会在您当前的 Google Cloud 项目中创建 Colab 笔记本的副本,然后您就可以运行该笔记本了。
开始吧!
3. 初始化环境
现在,我们已经创建了 Colab 笔记本,可以执行笔记本中提供的代码了。前几步将安装依赖项并导入必要的库。
运行“使用入门”中的步骤
首先,依次运行“开始使用”部分中的单元格。
注意:您可以通过将鼠标指针悬停在要运行的代码单元上,然后点击 “Run cell”(运行单元)图标来运行单元。
学完本部分后,您将完成以下操作。
- 安装 Google Gen AI SDK for Python
- 导入实验所需的库
- 设置 Google Cloud 项目以使用 Vertex AI
现在,我们来使用 Gemini 2.5 Pro 生成文本
4. 使用 Gemini 生成文本
在本笔记本的此部分中,您将使用 Gemini 2.5 Pro 生成文本补全。
继续在笔记本中执行下一组单元格,并花些时间仔细阅读代码,了解如何使用 Google GenAI SDK。
学完本部分后,您将了解以下内容。
- 如何指定要使用的模型。
- 非流式输出生成与流式输出生成。
- 使用 SDK 的多轮聊天功能。
- 异步调用 SDK。
- 配置模型参数。
- 设置系统指令以自定义模型行为。
- 配置内容安全过滤器。
接下来,我们将介绍如何向 Gemini 发送多模态提示
5. 多模态提示
在本笔记本的此部分中,您将使用 Gemini 2.5 Pro 处理图片和视频。
接下来,在笔记本中执行以下单元格。
学完本部分后,您将了解以下内容。
- 发送包含图片和文本的提示。
- 处理网址中的视频
接下来,我们将生成明确定义且结构化的输出
6. 结构化输出
在代码中使用模型的响应时,请务必从模型中获取一致且可靠的输出。通过受控生成功能,您可以定义回答架构,以指定模型输出的结构、字段名称以及每个字段的预期数据类型。
接下来,在笔记本中执行以下单元格。
接下来,我们将了解如何对模型输出进行归一化
7. 落地
如果您想使用现有知识库或向模型提供实时信息,则应考虑对模型的输出进行归因。
借助 Gemini 和 Vertex AI,您可以将输出结果与 Google 搜索结果相关联,然后与函数响应的输出相关联,最后与代码本身相关联。借助代码执行功能,模型可以生成代码并运行它,从而从结果中学习并迭代以获取最终输出。
接下来,在笔记本中执行以下单元格。
接下来,我们将了解 Gemini 2.5 Pro 的思考能力
8. 正在思考
思考模式对于需要多次制定策略和迭代求解的复杂任务尤其有用。Gemini 2.5 系列模型是思考型模型,能够在给出答复前进行深度思考和推理,从而改进了回答效果和准确性。
接下来,在笔记本中执行以下单元格。这样做时,请注意模型在显示实际输出之前的思考输出。
9. 总结
恭喜!您已学习如何使用 Google Gen AI SDK for Python 充分利用 Gemini 2.5 Pro 的强大功能,包括文本生成、多模态、着陆、结构化输出以及其高级思考功能。现在,您已经掌握了基础知识,可以开始使用该 SDK 构建自己的创新应用了。Gemini 2.5 Pro 拥有强大的思考和推理模式,可开拓新的可能性,并在各种应用场景中实现创新。
其他参考资料
- 请参阅 Google Gen AI SDK 参考文档。
- 探索 Google Cloud 生成式 AI GitHub 制品库中的其他笔记本。
- 在 Model Garden 中探索 AI 模型。