Python で Speech-to-Text API を使用する

1. 概要

Speech-to-Text API を使用すると、使いやすい API で高度なニューラルネットワークモデルを適用し、125 以上の言語と方言の音声をテキストに変換できます。

このチュートリアルでは、Python で Speech-to-Text API を使用することに焦点を当てます。

学習内容

環境の設定方法
英語の音声ファイルを文字に変換する方法
単語タイムスタンプを使用して音声ファイルを文字変換する方法
さまざまな言語の音声ファイルを文字に変換する方法

必要なもの

Google Cloud プロジェクト
ブラウザ（Chrome、Firefox など）
Python の使用経験

アンケート

このチュートリアルをどのように使用されますか？

通読のみ

通読して演習を行う

Python のご利用経験はどの程度ありますか？

初心者

中級者

上級者

Google Cloud サービスの使用経験はどの程度ありますか？

初心者

中級者

上級者

2. 設定と要件

セルフペース型の環境設定

Google Cloud Console にログインして、プロジェクトを新規作成するか、既存のプロジェクトを再利用します。Gmail アカウントも Google Workspace アカウントもまだお持ちでない場合は、アカウントを作成してください。

プロジェクト名は、このプロジェクトの参加者に表示される名称です。Google API では使用されない文字列です。いつでも更新できます。
プロジェクト ID は、すべての Google Cloud プロジェクトにおいて一意でなければならず、不変です（設定後は変更できません）。Cloud コンソールでは一意の文字列が自動生成されます。通常は、この内容を意識する必要はありません。ほとんどの Codelab では、プロジェクト ID（通常は PROJECT_ID と識別されます）を参照する必要があります。生成された ID が好みではない場合は、ランダムに別の ID を生成できます。または、ご自身で試して、利用可能かどうかを確認することもできます。このステップ以降は変更できず、プロジェクトを通して同じ ID になります。
なお、3 つ目の値として、一部の API が使用するプロジェクト番号があります。これら 3 つの値について詳しくは、こちらのドキュメントをご覧ください。

次に、Cloud のリソースや API を使用するために、Cloud コンソールで課金を有効にする必要があります。この Codelab の操作をすべて行って、費用が生じたとしても、少額です。このチュートリアルの終了後に請求が発生しないようにリソースをシャットダウンするには、作成したリソースを削除するか、プロジェクトを削除します。Google Cloud の新規ユーザーは、300 米ドル分の無料トライアルプログラムをご利用いただけます。

Cloud Shell の起動

Google Cloud はノートパソコンからリモートで操作できますが、この Codelab では、Cloud Shell（Cloud 上で動作するコマンドライン環境）を使用します。

Cloud Shell をアクティブにする

Cloud Console で、[Cloud Shell をアクティブにする] をクリックします。

Cloud Shell を初めて起動する場合は、その内容を説明する中間画面が表示されます。中間画面が表示された場合は、[続行] をクリックします。

すぐにプロビジョニングが実行され、Cloud Shell に接続されます。

この仮想マシンには、必要な開発ツールがすべて用意されています。仮想マシンは Google Cloud で稼働し、永続的なホームディレクトリが 5 GB 用意されているため、ネットワークのパフォーマンスと認証が大幅に向上しています。このコードラボで行う作業のほとんどはブラウザから実行できます。

Cloud Shell に接続すると、認証が完了しており、プロジェクトに各自のプロジェクト ID が設定されていることがわかります。

Cloud Shell で次のコマンドを実行して、認証されたことを確認します。

gcloud auth list

コマンド出力

 Credentialed Accounts
ACTIVE  ACCOUNT
*       <my_account>@<my_domain.com>

To set the active account, run:
    $ gcloud config set account `ACCOUNT`

Cloud Shell で次のコマンドを実行して、gcloud コマンドがプロジェクトを認識していることを確認します。

gcloud config list project

コマンド出力

[core]
project = <PROJECT_ID>

上記のようになっていない場合は、次のコマンドで設定できます。

gcloud config set project <PROJECT_ID>

コマンド出力

Updated property [core/project].

3. 環境のセットアップ

Speech-to-Text API の使用を開始する前に、Cloud Shell で次のコマンドを実行して API を有効にします。

gcloud services enable speech.googleapis.com

次のように表示されます。

Operation "operations/..." finished successfully.

これで、Speech-to-Text API を使用できるようになりました。

ホームディレクトリに移動します。

cd ~

依存関係を分離する Python 仮想環境を作成します。

virtualenv venv-speech

仮想環境をアクティブにします。

source venv-speech/bin/activate

IPython と Speech-to-Text API クライアントライブラリをインストールします。

pip install ipython google-cloud-speech

次のように表示されます。

...
Installing collected packages: ..., ipython, google-cloud-speech
Successfully installed ... google-cloud-speech-2.25.1 ...

これで、Speech-to-Text API クライアントライブラリを使用する準備が整いました。

次の手順では、前の手順でインストールした IPython というインタラクティブな Python インタープリタを使用します。Cloud Shell で ipython を実行してセッションを開始します。

ipython

次のように表示されます。

Python 3.9.2 (default, Feb 28 2021, 17:03:44)
Type 'copyright', 'credits' or 'license' for more information
IPython 8.18.1 -- An enhanced Interactive Python. Type '?' for help.

In [1]:

これで、最初のリクエストを行う準備が整いました。

4. 音声ファイルを文字起こしする

このセクションでは、英語の音声ファイルを文字起こしします。

次のコードを IPython セッションにコピーします。

from google.cloud import speech


def speech_to_text(
    config: speech.RecognitionConfig,
    audio: speech.RecognitionAudio,
) -> speech.RecognizeResponse:
    client = speech.SpeechClient()

    # Synchronous speech recognition request
    response = client.recognize(config=config, audio=audio)

    return response


def print_response(response: speech.RecognizeResponse):
    for result in response.results:
        print_result(result)


def print_result(result: speech.SpeechRecognitionResult):
    best_alternative = result.alternatives[0]
    print("-" * 80)
    print(f"language_code: {result.language_code}")
    print(f"transcript:    {best_alternative.transcript}")
    print(f"confidence:    {best_alternative.confidence:.0%}")

コードをよく見て、recognize クライアントライブラリメソッドを使用して音声ファイルを文字起こしする方法を確認してください。config パラメータはリクエストの処理方法を示し、audio パラメータは認識する音声データを指定します。

リクエストを送信します。

config = speech.RecognitionConfig(
    language_code="en",
)
audio = speech.RecognitionAudio(
    uri="gs://cloud-samples-data/speech/brooklyn_bridge.flac",
)

response = speech_to_text(config, audio)
print_response(response)

次の出力が表示されます。

--------------------------------------------------------------------------------
language_code: en-us
transcript:    how old is the Brooklyn Bridge
confidence:    98%

句読点の自動挿入を有効にするように構成を更新し、新しいリクエストを送信します。

config.enable_automatic_punctuation = True

response = speech_to_text(config, audio)
print_response(response)

次の出力が表示されます。

--------------------------------------------------------------------------------
language_code: en-us
transcript:    How old is the Brooklyn Bridge?
confidence:    98%

概要

このステップでは、さまざまなパラメータを使用して英語の音声ファイルを文字起こしし、結果を出力しました。詳しくは、音声ファイルの文字変換をご覧ください。

5. 単語のタイムスタンプを取得する

Speech-to-Text は、文字変換された音声の時間オフセット（タイムスタンプ）を検出できます。時間オフセットは、提供された音声で発話された各単語の開始時点と終了時点を示します。時間オフセット値は、音声の開始時点からの経過時間を 100 ミリ秒単位で表します。

単語のタイムスタンプを含む音声ファイルを文字起こしするには、次のコードを IPython セッションにコピーして、コードを更新します。

def print_result(result: speech.SpeechRecognitionResult):
    best_alternative = result.alternatives[0]
    print("-" * 80)
    print(f"language_code: {result.language_code}")
    print(f"transcript:    {best_alternative.transcript}")
    print(f"confidence:    {best_alternative.confidence:.0%}")
    print("-" * 80)
    for word in best_alternative.words:
        start_s = word.start_time.total_seconds()
        end_s = word.end_time.total_seconds()
        print(f"{start_s:>7.3f} | {end_s:>7.3f} | {word.word}")

コードをよく見て、単語のタイムスタンプ*付きで音声ファイルを文字起こしする方法を確認してください。enable_word_time_offsets パラメータは、各単語の時間オフセットを返すように API に指示します（詳細については、ドキュメントをご覧ください）。

リクエストを送信します。

config = speech.RecognitionConfig(
    language_code="en",
    enable_automatic_punctuation=True,
    enable_word_time_offsets=True,
)
audio = speech.RecognitionAudio(
    uri="gs://cloud-samples-data/speech/brooklyn_bridge.flac",
)

response = speech_to_text(config, audio)
print_response(response)

次の出力が表示されます。

--------------------------------------------------------------------------------
language_code: en-us
transcript:    How old is the Brooklyn Bridge?
confidence:    98%
--------------------------------------------------------------------------------
  0.000 |   0.300 | How
  0.300 |   0.600 | old
  0.600 |   0.800 | is
  0.800 |   0.900 | the
  0.900 |   1.100 | Brooklyn
  1.100 |   1.400 | Bridge?

概要

このステップでは、単語のタイムスタンプを使用して英語の音声ファイルを文字起こしし、結果を出力しました。詳しくは、単語のタイムスタンプを取得するをご覧ください。

6. さまざまな言語の文字起こし

Speech-to-Text API は 125 以上の言語と方言を認識します。サポート対象の言語については、こちらをご覧ください。

このセクションでは、フランス語の音声ファイルを文字起こしします。

フランス語の音声ファイルを文字に変換するには、次のコードを IPython セッションにコピーして、コードを更新します。

config = speech.RecognitionConfig(
    language_code="fr-FR",
    enable_automatic_punctuation=True,
    enable_word_time_offsets=True,
)
audio = speech.RecognitionAudio(
    uri="gs://cloud-samples-data/speech/corbeau_renard.flac",
)

response = speech_to_text(config, audio)
print_response(response)

次の出力が表示されます。

--------------------------------------------------------------------------------
language_code: fr-fr
transcript:    Maître corbeau sur un arbre perché Tenait dans son bec un fromage maître Renard par l'odeur alléché lui tint à peu près ce langage et bonjour monsieur du corbeau.
confidence:    94%
--------------------------------------------------------------------------------
  0.000 |   0.700 | Maître
  0.700 |   1.100 | corbeau
  1.100 |   1.300 | sur
  1.300 |   1.600 | un
  1.600 |   1.700 | arbre
  1.700 |   2.000 | perché
  2.000 |   3.000 | Tenait
  3.000 |   3.000 | dans
  3.000 |   3.200 | son
  3.200 |   3.500 | bec
  3.500 |   3.700 | un
  3.700 |   3.800 | fromage
...
 10.800 |  11.800 | monsieur
 11.800 |  11.900 | du
 11.900 |  12.100 | corbeau.

概要

このステップでは、フランス語の音声ファイルを文字に変換し、結果を出力しました。詳しくは、サポート対象の言語をご覧ください。

7. 完了

このラボでは、Python を使用して Speech-to-Text API を使用し、音声ファイルに対してさまざまな種類の文字起こしを行う方法を学びました。

クリーンアップ

開発環境をクリーンアップするには、Cloud Shell で次の操作を行います。

IPython セッションがまだ開いている場合は、シェルに戻ります。exit
Python 仮想環境の使用を停止します。deactivate
仮想環境フォルダ cd ~ ; rm -rf ./venv-speech を削除します。

Google Cloud プロジェクトを削除するには、Cloud Shell で次の操作を行います。

現在のプロジェクト ID を取得します。PROJECT_ID=$(gcloud config get-value core/project)
削除するプロジェクトが echo $PROJECT_ID であることを確認します。
プロジェクトを削除する: gcloud projects delete $PROJECT_ID

詳細

ブラウザでデモをテストする: https://cloud.google.com/speech-to-text
Speech-to-Text のドキュメント: https://cloud.google.com/speech-to-text/docs
Google Cloud 上の Python: https://cloud.google.com/python
Python 用 Cloud クライアントライブラリ: https://github.com/googleapis/google-cloud-python

ライセンス

この作業はクリエイティブ・コモンズの表示 2.0 汎用ライセンスにより使用許諾されています。

Python で Speech-to-Text API を使用する コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

1. 概要

学習内容

必要なもの

アンケート

このチュートリアルをどのように使用されますか？

Python のご利用経験はどの程度ありますか？

Google Cloud サービスの使用経験はどの程度ありますか？

2. 設定と要件

セルフペース型の環境設定

Cloud Shell の起動

Cloud Shell をアクティブにする

3. 環境のセットアップ

4. 音声ファイルを文字起こしする

概要

5. 単語のタイムスタンプを取得する

概要

6. さまざまな言語の文字起こし

概要

7. 完了

クリーンアップ

詳細

ライセンス

Python で Speech-to-Text API を使用する