使用 Gemini 和 Nano Banana 检测和编辑视觉对象

1. 概览

在本实验中，您将探索以下任务：

1️⃣ 使用 Gemini 检测图片中的视觉对象
2️⃣ 使用 Nano Banana 提取和恢复视觉对象
3️⃣ 使用 Nano Banana 编辑和转换恢复的对象

以下是您将实现的一些目标示例：

学习内容

如何使用 Gemini 的空间理解功能执行开放词汇对象检测
如何使用自然语言提示提取边界框、字幕和动态标签
如何恢复、清理和拉直变形或复古的视觉对象
如何为图片编辑撰写命令式和描述性提示
如何以创意方式为视觉内容着色，并将其转换为全新的风格
如何将视觉内容“电影化”为逼真的真人电影剧照

所需条件

熟悉如何在笔记本（在 Colab 或任何其他 Jupyter 环境中）中运行 Python
已启用结算功能的 Google Cloud 项目 (Vertex AI) 或 Gemini API 密钥 (Google AI Studio)

ℹ️ 从开始到结束运行此实验的总费用不到 2 美元（生成了 45 张 1K 图像，每张图像包含 1,290 个 token）。

让我们开始吧...

2. 准备工作

如需使用 Gemini API，您有以下两种主要选择：

通过 Google Cloud 项目使用 Vertex AI
通过 Google AI Studio 使用 Gemini API 密钥

🛠️ 选项 1 - 通过 Vertex AI 使用 Gemini API

要求：

Google Cloud 项目
必须为此项目启用 Vertex AI API

🛠️ 选项 2 - 通过 Google AI Studio 使用 Gemini API

要求：

Gemini API 密钥

详细了解如何从 Google AI Studio 获取 Gemini API 密钥。

3. 运行笔记本

选择您偏好的工具来打开笔记本：

🧰 工具 A - 在 Colab 中打开笔记本

🧰 工具 B - 在 Colab Enterprise 或 Vertex AI Workbench 中打开笔记本

💡 如果您已配置包含 Colab Enterprise 或 Vertex AI Workbench 实例的 Google Cloud 云项目，则可能更适合使用此方法。

🧰 工具 C - 从 GitHub 获取笔记本并在您自己的环境中运行

⚠️ 您需要从 GitHub 获取笔记本（或克隆代码库），然后在自己的 Jupyter 环境中运行它。

🗺️ 笔记本目录

为方便浏览，请务必展开并使用目录。示例：

🏁 运行笔记本

您已准备就绪。您现在可以按照笔记本中的说明运行代码了。祝您玩得开心！

4. 恭喜！

恭喜您完成此 Codelab！

了解详情

完成 Generating Consistent Imagery with Gemini Nano Banana Codelab。
如需查看更多实用示例，请参阅 Nano Banana 食谱笔记本。
您可以在 Vertex AI 提示库中探索更多应用场景。
请关注 Vertex AI 版本说明，及时了解最新动态。

如未另行说明，那么本页面中的内容已根据知识共享署名 4.0 许可获得了许可，并且代码示例已根据 Apache 2.0 许可获得了许可。有关详情，请参阅 Google 开发者网站政策。Java 是 Oracle 和/或其关联公司的注册商标。