ベクトルエンベディングに textembedding-gecko@003 を使用する

残り 7 分

この Codelab について

最終更新: 10月 7, 2024

作成者: Eduardo Godinez

このページは Cloud Translation API によって翻訳されました。

テキストエンベディング

テキストエンベディングとは、テキストデータを数値表現に変換するプロセスです。これらの数値表現（多くの場合はベクトル）は、テキスト内の単語間のセマンティックな意味と関係をキャプチャします。次の状況を想像してみてください。

テキストは、ニュアンスと曖昧さに満ちた複雑な言語のようなものです。

テキストエンベディングは、その言語を、コンピュータが理解して操作できるシンプルな数学的形式に変換します。

テキストエンベディングのメリット

効率的な処理が可能: 数値表現は、生のテキストと比較してコンピュータでの処理がはるかに高速です。これは、検索エンジン、レコメンデーションシステム、機械翻訳などのタスクにとって重要です。
セマンティックな意味の取り込み: エンべディングは単に単語の文字どおりの意味ではありません。単語のコンテキストと単語間の関係を捉え、より詳細な分析を可能にします。
機械学習のパフォーマンスの向上: テキストエンベディングは機械学習モデルの特徴として使用できるため、感情分析、テキスト分類、トピックモデリングなどのタスクのパフォーマンスが向上します。

テキストエンベディングのユースケース

テキストエンベディングは、テキストを数値表現に変換することで、自然言語処理（NLP）のさまざまなアプリケーションを実現します。主なユースケースを次に示します。

1. 検索エンジンと情報検索:

テキストエンベディングを使用すると、検索エンジンはクエリの背後にあるセマンティックな意味を理解し、完全一致するキーワードがない場合でも、関連するドキュメントと照合できます。

検索クエリのエンベディングをドキュメントエンベディングと比較することで、検索エンジンは類似したトピックやコンセプトを含むドキュメントを特定できます。

2. レコメンデーションシステム:

レコメンデーションシステムは、テキストエンベディングを使用して、レビュー、評価、ブラウジング履歴を通じて表現されるユーザーの行動と好みを分析します。

システムは、ユーザーが操作した商品、記事、その他のコンテンツのエンベディングを比較することで、類似のアイテムをおすすめできます。

3. 盗用の検出:

2 つのテキスト部分のエンベディングを比較することで、セマンティック構造に重大な類似性があることから、盗用の可能性を特定できます。

これらはほんの一例にすぎず、テキストエンベディング手法の進化に伴い、可能性はさらに広がっています。エンベディングによってコンピュータが言語をより深く理解できるようになれば、将来的にはさらに革新的なアプリケーションが登場することが期待されます。

textembedding-gecko@003

Textembedding-gecko@003 は、Google Cloud Platform（GCP）の Vertex AI とその一連の AI ツールとサービスによって提供される、事前トレーニング済みのテキストエンベディングモデルの特定のバージョンです。

作成するアプリの概要

この Codelab では、Python スクリプトを作成します。このスクリプトは次のようになります。

Vertex API を使用して textembedding-gecko@003 を呼び出し、テキストをテキストエンベディング（ベクトル）に変換する。
テキストとそのベクトルで構成されたシミュレートされたデータベースを作成する
ベクトルを比較して最も可能性の高いレスポンスを取得することで、シミュレートされたベクトルデータベースに対してクエリを実行します。

学習内容

GCP でテキストエンベディングを使用する方法
textembedding-gecko@003 を呼び出す方法
Workbench でこれを実行する方法
Vertex AI - Workbench を使用してスクリプトを実行する方法

必要なもの

Chrome の最新バージョン
Python に関する知識
Google Cloud プロジェクト
Vertex AI - Workbench へのアクセス

Vertex AI Workbench インスタンスを作成する

Google Cloud コンソールの [プロジェクトセレクタ] ページで、Google Cloud プロジェクトを選択または作成します。

プロジェクトセレクタに移動
Google Cloud プロジェクトの課金が有効になっていることを確認します。
Notebooks API を有効にします。

Vertex AI Workbench インスタンスは、Google Cloud コンソール、gcloud CLI、または Terraform を使用して作成できます。このチュートリアルでは、Google Cloud コンソールを使用して作成します。その他の方法について詳しくは、こちらをご覧ください。

Google Cloud コンソールで、Vertex AI メニューの [ノートブック] セクションからアクセスできるインスタンスページに移動し、[ワークベンチ] をクリックします。
[インスタンス] に移動します。
[新規作成] をクリックします。
[インスタンスを作成] ダイアログの [詳細] セクションで、新しいインスタンスについて次の情報を入力します。

ノートブック名: 新しいインスタンスの名前を入力します。名前の先頭は英字で、それに続く最大 62 文字の英小文字、数字、ハイフン（-）で構成します。末尾は英字または数字にしてください。

リージョンとゾーン: 新しいインスタンスのリージョンとゾーンを選択します。最適なネットワークパフォーマンスを得るには、地理的に最も近いリージョンを選択してください。

GPU のインストールは不要

[ネットワーキング] セクションで、次の情報を入力します。

ネットワーキング: 現在のプロジェクトのネットワーク、またはホストプロジェクトの共有 VPC ネットワーク（構成されている場合）を使用するように、ネットワークオプションを調整します。ホストプロジェクトで共有 VPC を使用している場合は、サービスプロジェクトから Notebooks サービスエージェントに Compute ネットワークユーザーのロール（roles/compute.networkUser）を付与する必要もあります。

[ネットワーク] フィールド: 目的のネットワークを選択します。ネットワークで限定公開の Google アクセスが有効になっているか、インターネットにアクセスできる場合は、VPC ネットワークを選択できます。

[サブネットワーク] フィールドで: 目的のサブネットワークを選択します。デフォルトの設定を選択できます。

[インスタンスプロパティ] はデフォルトの e2-standard-4 のままにします。

[作成] をクリックします。

Vertex AI Workbench がインスタンスを作成し、自動的に起動します。インスタンスを使用する準備が整うと、Vertex AI Workbench で [JupyterLab を開く] が有効になります。それをクリックします。

Python 3 ノートブックを作成する

Jupyterlab のランチャーの [Notebook] セクションで Python3 というロゴのアイコンをクリックします。
「Untitled」という名前と拡張機能「ipynb」で、Jupyter ノートブックが作成されます。
左側のファイルブラウザセクションを使用して名前を変更するか、そのままにすることができます。

これで、ノートブックにコードを配置できます。

3. 必要なライブラリのインポート

インスタンスを作成して Jupyterlab を開いたら、この Codelab に必要なライブラリをすべてインストールする必要があります。

必要なもの:

numpy
pandas
TextEmbeddingInput、TextEmbeddingModel（vertexai.language_models から）

以下のコードをコピーしてセルに貼り付けます。

from vertexai.language_models import TextEmbeddingInput, TextEmbeddingModel

import numpy as np
import pandas as pd

それは次のようになります。

4. シミュレートされたベクトルデータベースを作成する

コードをテストするために、gecko@003 テキストエンベディングモデルで翻訳されたテキストとそれぞれのベクトルで構成されるデータベースを作成します。

ユーザーがテキストを検索してベクトルに変換し、データベースで検索して、最も近似的な結果を返すことが目標です。

ベクトルデータベースには 3 つのレコードを保持します。次のように作成します。

次のコードをコピーして、新しいセルに貼り付けます。

DOCUMENT1 = {
    "title": "Operating the Climate Control System",
    "content": "Your Googlecar has a climate control system that allows you to adjust the temperature and airflow in the car. To operate the climate control system, use the buttons and knobs located on the center console.  Temperature: The temperature knob controls the temperature inside the car. Turn the knob clockwise to increase the temperature or counterclockwise to decrease the temperature. Airflow: The airflow knob controls the amount of airflow inside the car. Turn the knob clockwise to increase the airflow or counterclockwise to decrease the airflow. Fan speed: The fan speed knob controls the speed of the fan. Turn the knob clockwise to increase the fan speed or counterclockwise to decrease the fan speed. Mode: The mode button allows you to select the desired mode. The available modes are: Auto: The car will automatically adjust the temperature and airflow to maintain a comfortable level. Cool: The car will blow cool air into the car. Heat: The car will blow warm air into the car. Defrost: The car will blow warm air onto the windshield to defrost it."}

DOCUMENT2 = {
    "title": "Touchscreen",
    "content": "Your Googlecar has a large touchscreen display that provides access to a variety of features, including navigation, entertainment, and climate control. To use the touchscreen display, simply touch the desired icon.  For example, you can touch the \"Navigation\" icon to get directions to your destination or touch the \"Music\" icon to play your favorite songs."}

DOCUMENT3 = {
    "title": "Shifting Gears",
    "content": "Your Googlecar has an automatic transmission. To shift gears, simply move the shift lever to the desired position.  Park: This position is used when you are parked. The wheels are locked and the car cannot move. Reverse: This position is used to back up. Neutral: This position is used when you are stopped at a light or in traffic. The car is not in gear and will not move unless you press the gas pedal. Drive: This position is used to drive forward. Low: This position is used for driving in snow or other slippery conditions."}

documents = [DOCUMENT1, DOCUMENT2, DOCUMENT3]

df_initial_db = pd.DataFrame(documents)
df_initial_db.columns = ['Title', 'Text']
df_initial_db

次のように表示されます。

コードを分析する

変数 DOCUMENT1、DOCUMENT2、DOCUMENT3 には、タイトルとコンテンツを持つドキュメントをエミュレートする辞書を格納しています。これらの「ドキュメント」はGoogle 製の自動車のシミュレートマニュアルを参照しています

次の行では、これら 3 つのドキュメント（辞書）からリストを作成します。

documents = [DOCUMENT1, DOCUMENT2, DOCUMENT3]

最後に、pandas を使用して、そのリストから df_initial_db という名前のデータフレームを作成します。

df_initial_db = pd.DataFrame(documents)
df_initial_db.columns = ['Title', 'Text']
df_initial_db

5. テキストエンベディングを作成する

次に、シミュレートされたドキュメントデータベース内の各レコードに対して、gecko@003 モデルを使用してテキストエンベディングを取得します。

以下のコードをコピーして、新しいセルに貼り付けます。

def embed_fn(df_input):
    list_embedded_values = []
    for index, row in df_input.iterrows():        
        model = TextEmbeddingModel.from_pretrained("textembedding-gecko@003")
        embeddings = model.get_embeddings([(row['Text'])])        
        list_embedded_values.append(embeddings[0].values)
    df_input['Embedded text'] = list_embedded_values
    return df_input        
                                           
df_embedded_values_db = embed_fn(df_initial_db)
df_embedded_values_db

次のようになります。

コードを分析する

Embed_fn という関数を定義しました。この関数は、エンベディングを実行するテキストを含む pandas データフレームを入力として受け取ります。この関数は、ベクトルとしてエンコードされたテキストを返します。

def embed_fn(df_input):
    list_embedded_values = []
    for index, row in df_input.iterrows():        
        model = TextEmbeddingModel.from_pretrained("textembedding-gecko@003")
        embeddings = model.get_embeddings([(row['Text'])])        
        list_embedded_values.append(embeddings[0].values)
    df_input['Embedded text'] = list_embedded_values
    return df_input

list_embedded_values というリストに、各行のエンコードされたテキストを保存し、追加する場所です。

pandas の iterrows メソッドを使用すると、データフレームのすべての行を反復処理し、Text 列（シミュレートされたデータベースの手動情報を含む）から値を取得できます。

gecko@003 モデルで通常のテキストを送信してそのベクトルを返すには、変数モデルを初期化します。変数モデルを初期化します。ここで、TextEmbeddingModel.from_pretrained 関数を呼び出して、モデルを設定します。

model = TextEmbeddingModel.from_pretrained("textembedding-gecko@003")
embeddings = model.get_embeddings([(row['Text'])])

次に、変数エンベディングで model.get_embeddings 関数を介して送信するテキストのベクトルをキャプチャします。

関数の最後に、データフレーム内に「Embedded text」という新しい列を作成します。これには、gecko@003 モデルに基づいて作成されたベクトルのリストが含まれます。

df_input['Embedded text'] = list_embedded_values
return df_input

最後に、変数 df_embedded_values_db で、シミュレートされたデータベースから元のデータを含むデータフレームと、各行のベクトルのリストを含む新しい列を取得します。

df_embedded_values_db = embed_fn(df_initial_db)
df_embedded_values_db

6. ベクトルデータベースに質問する

データベースにテキストとそのベクトルが追加されたので、質問を投げかけ、データベースに対してクエリを実行し、答えを見つけます。

以下のコードをコピーして、新しいセルに貼り付けます。

question='How do you shift gears in the Google car?'
model = TextEmbeddingModel.from_pretrained("textembedding-gecko@003")
embeddings = model.get_embeddings([(question)])        
text_to_search=embeddings[0].values
len(text_to_search)

結果は次のようになります。

コードを分析しましょう

前のステップの関数と同様に、まずデータベースに対して質問する内容で質問変数を初期化します。

question='How do you shift gears in the Google car?'

次に、モデル変数で TextEmbeddingModel.from_pretrained 関数を介して使用したいモデルを設定します。この場合は gecko@003 モデルです。

model = TextEmbeddingModel.from_pretrained("textembedding-gecko@003")

embeddings 変数で、model.get_embeddings 関数を呼び出し、ベクトルに変換するテキストを渡します。この場合は、質問を渡します。

embeddings = model.get_embeddings([(question)])

最後に、text_to_search 変数には、質問から変換されたベクトルのリストが保持されます。

ベクトルの長さを参照として出力します。

text_to_search=embeddings[0].values
len(text_to_search)

7. ベクトルの比較

これで、シミュレートされたデータベースにあるベクトルのリストと、ベクトルに変換された質問が完成しました。つまり、質問のベクトルとデータベース内のすべてのベクトルを比較して、質問に最も近いベクトルを見つけることで、より正確な回答を得ることができます。

これを実現するには、質問のベクトルとデータベースの各ベクトルの間の距離を測定します。ベクトル間の距離を測定する手法は複数ありますが、この Codelab ではユークリッド距離（L2 ノルム）を使用します。

Python では、numpy 関数を使用してこの操作を実現できます。

以下のコードをコピーして、新しいセルに貼り付けます。

list_embedded_text_from_db = df_embedded_values_db['Embedded text']
shortest_distance=1
for position, embedded_value in enumerate(list_embedded_text_from_db):
    distance=np.linalg.norm((np.array(embedded_value) - np.array(text_to_search)), ord = 2)
    print(distance)
    if distance<shortest_distance:
        shortest_distance=distance
        shortest_position=position
        
print(f'The shortest distance is {shortest_distance} and the position of that value is {shortest_position}')

結果は次のようになります。

コードを分析しましょう

まず、データベースのエンベディングされたテキストまたはベクトルを保持する列をリストに変換し、list_embedded_text_from_db に保存します。

また、実際の最短距離が見つかるまで変数を更新し続けるために、shortest_distance 変数は 1 に初期化されました。

list_embedded_text_from_db = df_embedded_values_db['Embedded text']
shortest_distance=1

次に、for ループを使用して反復処理を行い、質問のベクトルとデータベース上の各ベクトルとの間の距離を取得します。

numpy linalg.norm 関数を使用して距離を計算します。

計算された距離が shortest_distance 変数内の距離よりも短い場合、計算された距離がこの変数に設定されます。

次に、最短距離と、それが見つかったリスト内の位置を取得します。shortest_distance 変数と shortest_position 変数。

for position, embedded_value in enumerate(list_embedded_text_from_db):
    distance=np.linalg.norm((np.array(embedded_value) - np.array(text_to_search)), ord = 2)
    print(distance)
    if distance<shortest_distance:
        shortest_distance=distance
        shortest_position=position

8. 結果

質問とデータベースの距離が最も短いベクトルのリスト内の位置がわかれば、結果を出力できます。

以下のコードをコピーして、新しいセルに貼り付けます。

print("Your question was:\n "+question+ " \nAnd our answer is:\n "+
      df_embedded_values_db.at[shortest_position, 'Title']+": "+
      df_embedded_values_db.at[shortest_position, 'Text'])

実行すると、次のような結果が得られます。

9. 完了

お疲れさまでした。これで、textembedding-gecko@003 モデルを実際のユースケースで使用して、最初のアプリケーションを構築できました。

テキストエンベディングの基礎と、GCP Workbench で gecko003 モデルを使用する方法について学習しました。

これで、学んだ知識をさらに多くのユースケースに適用するために必要な主な手順を理解しました。

次のステップ

以下の Codelab をご覧ください。

AlloyDB AI でベクトルエンベディングを使ってみる

リファレンスドキュメント

誤りを報告

ベクトルエンベディングに textembedding-gecko@003 を使用する

ベクトルエンベディングに textembedding-gecko@003 を使用する

この Codelab について

1. はじめに

テキストエンベディング

テキストエンベディングのメリット

テキストエンベディングのユースケース

textembedding-gecko@003

作成するアプリの概要

学習内容

必要なもの

2. 設定方法

Vertex AI Workbench インスタンスを作成する

Python 3 ノートブックを作成する

3. 必要なライブラリのインポート

4. シミュレートされたベクトルデータベースを作成する

コードを分析する

5. テキストエンベディングを作成する

コードを分析する

6. ベクトルデータベースに質問する

コードを分析しましょう

7. ベクトルの比較

コードを分析しましょう

8. 結果

9. 完了

次のステップ

リファレンスドキュメント

ベクトル エンベディングに textembedding-gecko@003 を使用する

この Codelab について

テキスト エンベディング

テキスト エンベディングのメリット

テキスト エンベディングのユースケース

textembedding-gecko@003

作成するアプリの概要

学習内容

必要なもの

Vertex AI Workbench インスタンスを作成する

Python 3 ノートブックを作成する

コードを分析する

コードを分析する

コードを分析しましょう

コードを分析しましょう

次のステップ

リファレンス ドキュメント

ベクトルエンベディングに textembedding-gecko@003 を使用する

テキストエンベディング

テキストエンベディングのメリット

テキストエンベディングのユースケース

リファレンスドキュメント