この Codelab について
1. 概要
はじめに
Gemini 2.5 Pro は、コーディングと世界中の知識を扱う非常に優れたモデルです。
2.5 シリーズでは、Gemini モデルがハイブリッド推論モデルになりました。Gemini 2.5 Pro は、タスク全体に広範な思考を適用し、ツールを使用して回答の精度を最大化できます。
Gemini 2.5 Pro は次のとおりです。
- コーディング、推論、マルチモーダルなど、さまざまな機能で以前のモデルから大幅に改善されています。
- 数学と STEM のベンチマークで最先端のパフォーマンスを実現する、業界をリードする推論。
- コードに最適なモデルで、特にウェブ開発に優れています。
- バランスの取れた性能を維持しつつ、複雑なプロンプトにも特に適しています(LMSys の #1 など)。
学習内容
このチュートリアルでは、Gemini 2.5 Pro モデルで Gemini API と Google Gen AI SDK for Python を使用する方法について説明します。
次のタスクを行います。
- テキスト プロンプトからテキストを生成する
- ストリーミング テキストを生成する
- マルチターン チャットを開始する
- 非同期メソッドを使用する
- モデル パラメータを構成する
- システム指示を設定する
- 安全フィルタを使用する
- 生成制御機能を使用する
- トークンのカウント
- マルチモーダル(音声、コード、ドキュメント、画像、動画)データを処理する
- 自動と手動の関数呼び出しを使用する
- コードの実行
- 思考モードの例
2. 始める前に
前提条件
始める前に、有効な請求先アカウントを持つ Google Cloud プロジェクトが必要です。使用する Google Cloud プロジェクトを選択してください。
この Codelab を実行するには、Colab Enterprise を使用します。Colab Enterprise は、Google Cloud のセキュリティ機能とコンプライアンス機能を備えたコラボレーション指向のマネージド ノートブック環境です。
必要な API を有効にする
下のボタンをクリックして、Google Cloud プロジェクトでこの Codelab に必要な API(Vertex AI、Dataform、Compute Engine)を有効にします。
Colab ノートブックを Google Cloud にコピーする
下のボタンをクリックして、Colab Enterprise でチュートリアル ノートブックを開きます。これにより、現在の Google Cloud プロジェクトに Colab ノートブックのコピーが作成され、ノートブックを実行できるようになります。
では始めましょう。
3. 環境を初期化する
Colab ノートブックを作成したので、ノートブック内に用意されているコードを実行できます。最初の数ステップでは、依存関係をインストールし、必要なライブラリをインポートします。
スタートガイドの手順に沿って操作します
まず、[スタートガイド] セクションのセルを 1 つずつ実行します。
注: セルを実行するには、実行するコードセルの上にマウス ポインタを置いて、 セルの実行アイコンをクリックします。
このセクションの終わりには、次の作業が完了しているはずです。
- Google Gen AI SDK for Python をインストールする
- ラボに必要なライブラリをインポートする
- Vertex AI を使用するように Google Cloud プロジェクトを設定する
Gemini 2.5 Pro を使用してテキストを生成する
4. Gemini を使用してテキストを生成
このノートブックのセクションでは、Gemini 2.5 Pro を使用してテキスト補完を生成します。
ノートブックで次のセルセットを実行します。コードを読み、Google GenAI SDK の使用方法を理解してください。
このセクションを終えると、次のことを学習します。
- 使用するモデルを指定する方法。
- ストリーミング出力とストリーミング出力の生成の違い。
- SDK のマルチターン チャット機能を使用する。
- SDK を非同期で呼び出す。
- モデル パラメータを構成する。
- システム指示を設定してモデルの動作をカスタマイズする。
- コンテンツ セーフティ フィルタの構成。
次に、マルチモーダル プロンプトを Gemini に送信する方法について説明します
5. マルチモーダル プロンプト
このノートブックのセクションでは、Gemini 2.5 Pro を使用して画像と動画を処理します。
ノートブックで次のセルを実行します。
このセクションを終えると、次のことを学習します。
- 画像とテキストで構成されたプロンプトを送信します。
- URL から動画を処理する
次に、明確で構造化された出力を生成します
6. 構造化出力
コードでモデルのレスポンスを使用する場合、モデルから一貫性があり信頼できる出力を取得することが重要です。制御生成を使用すると、レスポンス スキーマを定義して、モデルの出力の構造、フィールド名、各フィールドの想定されるデータ型を指定できます。
ノートブックで次のセルを実行します。
次に、モデルの出力を接地する方法について説明します
7. グラウンディング
既存のナレッジベースを使用する場合や、モデルにリアルタイム情報を提供する場合は、モデルの出力のグラウンディングを検討する必要があります。
Gemini と Vertex AI を使用すると、出力を Google 検索、関数レスポンスの出力、コード自体にグラウンディングできます。コード実行により、モデルはコードを生成して実行し、結果から学習して反復処理を行い、最終的な出力を取得できます。
ノートブックで次のセルを実行します。
次に、Gemini 2.5 Pro の思考能力について説明します
8. 思索中
思考モードは、複数回の戦略立案と反復的な解決を必要とする複雑なタスクに特に役立ちます。Gemini 2.5 の各モデルは思考モデルです。回答する前に思考を通じて推論を行うことができるため、パフォーマンスと精度が向上しています。
ノートブックで次のセルを実行します。その際、モデルが実際の出力を表示する前に、思考中の出力に注目してください。
9. まとめ
これで完了です。Google Gen AI SDK for Python を使用して Gemini 2.5 Pro の機能を活用する方法について学びました。テキスト生成、マルチモーダル、グラウンドング、構造化出力、高度な思考機能について説明しました。これで、SDK を使用して独自の革新的なアプリケーションを構築するための基礎知識が身に付きました。Gemini 2.5 Pro は、強力な思考モードと推論モードを備えており、さまざまなユースケースでイノベーションを促進し、新たな可能性を開きます。
その他の参考情報
- Google Gen AI SDK リファレンス ドキュメントをご覧ください。
- Google Cloud 生成 AI GitHub リポジトリで他のノートブックを確認できます。
- Model Garden で AI モデルを確認する。