使用 Gemini 和 Nano Banana 检测和编辑视觉对象

1. 概览

在本实验中,您将探索以下任务:

  • 1️⃣ 使用 Gemini 检测图片中的视觉对象
  • 2️⃣ 使用 Nano Banana 提取和恢复视觉对象
  • 3️⃣ 使用 Nano Banana 编辑和转换恢复的对象

以下是您将实现的一些目标示例:

1f2cadc1fd825c64.png

学习内容

  • 如何使用 Gemini 的空间理解功能执行开放词汇对象检测
  • 如何使用自然语言提示提取边界框、字幕和动态标签
  • 如何恢复、清理和拉直变形或复古的视觉对象
  • 如何为图片编辑撰写命令式和描述性提示
  • 如何以创意方式为视觉内容着色,并将其转换为全新的风格
  • 如何将视觉内容“电影化”为逼真的真人电影剧照

所需条件

  • 熟悉如何在笔记本(在 Colab 或任何其他 Jupyter 环境中)中运行 Python
  • 已启用结算功能的 Google Cloud 项目 (Vertex AI) 或 Gemini API 密钥 (Google AI Studio)

ℹ️ 从开始到结束运行此实验的总费用不到 2 美元(生成了 45 张 1K 图像,每张图像包含 1,290 个 token)。

ed255bd97afbedca.png fc7e616a26c8fa40.png c0b9ecec49c859f2.png fc7e616a26c8fa40.png 8f240cd033d2cc65.png

让我们开始吧...

2. 准备工作

如需使用 Gemini API,您有以下两种主要选择:

  1. 通过 Google Cloud 项目使用 Vertex AI
  2. 通过 Google AI Studio 使用 Gemini API 密钥

🛠️ 选项 1 - 通过 Vertex AI 使用 Gemini API

要求:

  • Google Cloud 项目
  • 必须为此项目启用 Vertex AI API

🛠️ 选项 2 - 通过 Google AI Studio 使用 Gemini API

要求:

  • Gemini API 密钥

详细了解如何从 Google AI Studio 获取 Gemini API 密钥

3. 运行笔记本

选择您偏好的工具来打开笔记本:

🧰 工具 A - 在 Colab 中打开笔记本

🧰 工具 B - 在 Colab Enterprise 或 Vertex AI Workbench 中打开笔记本

💡 如果您已配置包含 Colab Enterprise 或 Vertex AI Workbench 实例的 Google Cloud 云项目,则可能更适合使用此方法。

🧰 工具 C - 从 GitHub 获取笔记本并在您自己的环境中运行

⚠️ 您需要从 GitHub 获取笔记本(或克隆代码库),然后在自己的 Jupyter 环境中运行它。

🗺️ 笔记本目录

为方便浏览,请务必展开并使用目录。示例:

de85f5dcc0fe059e.png

🏁 运行笔记本

您已准备就绪。您现在可以按照笔记本中的说明运行代码了。祝您玩得开心!

4. 恭喜!

e3299284f68f56f4.png

恭喜您完成此 Codelab!

了解详情