Обнаружение и редактирование визуальных объектов с помощью Gemini и Nano Banana

1. Обзор

В этой лабораторной работе вы изучите следующие задачи:

  • 1️⃣ Обнаружение визуальных объектов на изображениях с помощью Gemini
  • 2️⃣ Извлечение и восстановление визуальных объектов с помощью Nano Banana
  • 3️⃣ Редактируйте и преобразуйте восстановленные объекты с помощью Nano Banana

Вот несколько примеров того, чего вы добьетесь:

1f2cadc1fd825c64.png

Что вы узнаете

  • Как выполнить обнаружение объектов с открытым словарем, используя пространственное понимание Gemini.
  • Как извлечь ограничивающие рамки, подписи и динамические метки с помощью подсказок на естественном языке.
  • Как восстанавливать, чистить и выравнивать деформированные или старинные визуальные объекты.
  • Как писать повелительные и описательные подсказки для редактирования изображений
  • Как творчески раскрасить и преобразовать визуальные образы, придав им совершенно новые стили.
  • Как превратить визуальные образы в фотореалистичные кадры из игрового фильма

Что вам понадобится

  • Умение запускать Python в ноутбуке (в Colab или любой другой среде Jupyter).
  • Проект Google Cloud (Vertex AI) или ключ API Gemini (Google AI Studio) с включенной функцией выставления счетов.

ℹ️ Общая стоимость запуска лаборатории от начала до конца составляет менее 2 долларов США (45 сгенерированных изображений по 1000 штук, каждое из которых содержит 1290 токенов).

ed255bd97afbedca.pngfc7e616a26c8fa40.pngc0b9ecec49c859f2.pngfc7e616a26c8fa40.png8f240cd033d2cc65.png

Давайте начнём...

2. Прежде чем начать

Для использования API Gemini у вас есть два основных варианта:

  1. Проект Via Vertex AI в Google Cloud
  2. Через Google AI Studio с использованием ключа API Gemini.

🛠️ Вариант 1 - API Gemini через Vertex AI

Требования:

  • Проект Google Cloud
  • Для этого проекта необходимо включить API Vertex AI.

🛠️ Вариант 2 - API Gemini через Google AI Studio

Требование:

  • Ключ API Gemini

Узнайте больше о получении ключа API Gemini из Google AI Studio .

3. Запустите ноутбук.

Выберите удобный для вас инструмент для открытия блокнота:

🧰 Инструмент A - Открыть блокнот в Colab

🧰 Инструмент B - Откройте блокнот в Colab Enterprise или Vertex AI Workbench

💡 Этот вариант может быть предпочтительнее, если у вас уже настроен проект Google Cloud с использованием экземпляра Colab Enterprise или Vertex AI Workbench.

🧰 Инструмент C — Загрузите ноутбук с GitHub и запустите его в своей среде.

⚠️ Вам потребуется загрузить ноутбук с GitHub (или клонировать репозиторий) и запустить его в собственной среде Jupyter.

🗺️ Содержание блокнота

Для более удобной навигации разверните и воспользуйтесь оглавлением. Пример:

de85f5dcc0fe059e.png

🏁 Запустите ноутбук

Вы готовы. Теперь вы можете следовать инструкциям и запускать блокнот. Приятного времяпровождения!...

4. Поздравляем!

e3299284f68f56f4.png

Поздравляем с завершением практического занятия!

Узнать больше