Node.js での Text-to-Speech API の使用

残り 26 分

この Codelab について

最終更新: 12月 15, 2022

作成者: Anu Srivastava

1. 概要

Google Cloud Text-to-Speech API を使用すると、自然な音声の合成された人間の音声を再生可能な音声としてアプリケーションに組み込むことができます。Text-to-Speech API は、テキストや音声合成マークアップ言語（SSML）で入力されたデータを、MP3 や LINEAR16（WAV ファイルで使用されるエンコード）などの音声データに変換します。

この Codelab では、Node.js での Text-to-Speech API の使用に焦点を当てます。使用可能な音声を一覧表示する方法と、テキストから音声を合成する方法を学びます。

学習内容

Cloud Shell を使用する方法
Text-to-Speech API を有効にする方法
API リクエストを認証する方法
Node.js 用 Google Cloud クライアントライブラリをインストールする方法
利用可能な音声を一覧表示する方法
テキストから音声を合成する方法

必要なもの

Google Cloud Platform プロジェクト
Chrome や Firefox などのブラウザ
Node.js の使用経験

アンケート

<ph type="x-smartling-placeholder">をご覧ください。

このチュートリアルをどのように使用されますか？

通読するのみ通読し、演習を行う

Node.js の使用経験をどのように評価されますか。

初心者中級者上級者

Google Cloud Platform サービスのご利用経験についてどのように評価されますか？

初心者中級上達

セルフペース型の環境設定

Cloud Console にログインし、新しいプロジェクトを作成するか、既存のプロジェクトを再利用します（Gmail アカウントまたは G Suite アカウントをお持ちでない場合は、アカウントを作成する必要があります）。

dMbN6g9RawQj_VXCSYpdYncY-DbaRzr2GbnwoV7jFf1u3avxJtmGPmKpMYgiaMH-qu80a_NJ9p2IIXFppYk8x3wyymZXavjglNLJJhuXieCem56H30hwXtd8PvXGpXJO9gEUDu3cZw

ci9Oe6PgnbNuSYlMyvbXF1JdQyiHoEgnhl4PlV_MFagm2ppzhueRkqX4eLjJllZco_2zCp0V0bpTupUSKji9KkQyWqj11pqit1K1faS1V6aFxLGQdkuzGp4rsQTan7F01iePL5DtqQ

8-tA_Lheyo8SscAVKrGii2coplQp2_D1Iosb2ViABY0UUO1A8cimXUu6Wf1R9zJIRExL5OB2j946aIiFtyKTzxDcNnuznmR45vZ2HMoK3o67jxuoUJCAnqvEX6NgPGFjCVNgASc-lg

プロジェクト ID を忘れないようにしてください。プロジェクト ID はすべての Google Cloud プロジェクトを通じて一意の名前にする必要があります（上記の名前はすでに使用されているので使用できません）。以降、このコードラボでは PROJECT_ID と呼びます。

次に、Google Cloud リソースを使用するために、Cloud Console で課金を有効にする必要があります。

このコードラボを実行しても、費用はほとんどかからないはずです。このチュートリアル以外で請求が発生しないように、リソースのシャットダウン方法を説明する「クリーンアップ」セクションの手順に従うようにしてください。Google Cloud の新規ユーザーは $300 の無料トライアルプログラムをご利用いただけます。

Cloud Shell の起動

Google Cloud はノートパソコンからリモートで操作できますが、この Codelab では、Google Cloud Shell（Cloud 上で動作するコマンドライン環境）を使用します。

Cloud Shell をアクティブにする

Cloud Console で、[Cloud Shell をアクティブにする] をクリックします。

zlNW0HehB_AFW1qZ4AyebSQUdWm95n7TbnOr7UVm3j9dFcg6oWApJRlC0jnU1Mvb-IQp-trP1Px8xKNwt6o3pP6fyih947sEhOFI4IRF0W7WZk6hFqZDUGXQQXrw21GuMm2ecHrbzQ

Cloud Shell を起動したことがない場合、その内容を説明する中間画面が（スクロールしなければ見えない範囲に）が表示されます。その場合は、[続行] をクリックします（以後表示されなくなります）。このワンタイムスクリーンは次のようになります。

kEPbNAo_w5C_pi9QvhFwWwky1cX8hr_xEMGWySNIoMCdi-Djx9AQRqWn-__DmEpC7vKgUtl-feTcv-wBxJ8NwzzAp7mY65-fi2LJo4twUoewT1SUjd6Y3h81RG3rKIkqhoVlFR-G7w

Cloud Shell のプロビジョニングと接続に少し時間がかかる程度です。

pTv5mEKzWMWp5VBrg2eGcuRPv9dLInPToS-mohlrqDASyYGWnZ_SwE-MzOWHe76ZdCSmw0kgWogSJv27lrQE8pvA5OD6P1I47nz8vrAdK7yR1NseZKJvcxAZrPb8wRxoqyTpD-gbhA

この仮想マシンには、必要な開発ツールがすべて準備されています。5 GB の永続ホームディレクトリが用意されており、Google Cloud で稼働するため、ネットワークパフォーマンスが充実しており認証もスムーズです。このコードラボでの作業のほとんどは、ブラウザまたは Chromebook から実行できます。

Cloud Shell に接続すると、すでに認証は完了しており、プロジェクトに各自のプロジェクト ID が設定されていることがわかります。

Cloud Shell で次のコマンドを実行して、認証されたことを確認します。

gcloud auth list

コマンド出力

 Credentialed Accounts
ACTIVE  ACCOUNT
*       <my_account>@<my_domain.com>

To set the active account, run:
    $ gcloud config set account `ACCOUNT`

gcloud config list project

コマンド出力

[core]
project = <PROJECT_ID>

上記のようになっていない場合は、次のコマンドで設定できます。

gcloud config set project <PROJECT_ID>

コマンド出力

Updated property [core/project].

3. Text-to-Speech API を有効にする

Text-to-Speech API を使用するには、API を有効にする必要があります。この API を有効にするには、Cloud Shell で次のコマンドを使用します。

gcloud services enable texttospeech.googleapis.com

Text-to-Speech API にリクエストを送信するには、サービスアカウントを使用する必要があります。サービスアカウントはプロジェクトに属し、Google クライアントの Node.js ライブラリで Text-to-Speech API リクエストを行うために使用されます。ほかのユーザーアカウントと同じように、サービスアカウントはメールアドレスで表されます。このセクションでは、Cloud SDK を使用してサービスアカウントを作成し、サービスアカウントとして認証するために必要な認証情報を作成します。

まず、この Codelab で使用する GOOGLE_CLOUD_PROJECT で環境変数を設定します。

export GOOGLE_CLOUD_PROJECT=$(gcloud config get-value core/project)

次に、Text-to-Speech API にアクセスするための新しいサービスアカウントを作成します。

gcloud iam service-accounts create my-text-to-speech-sa \
  --display-name "my text-to-speech codelab service account"

次に、Node.js コードが新しいサービスアカウントとしてログインするために使用する認証情報を作成します。これらの認証情報を作成し、JSON ファイル「~/key.json」として保存します。次のコマンドを使用します。

gcloud iam service-accounts keys create ~/key.json \
  --iam-account  my-text-to-speech-sa@${GOOGLE_CLOUD_PROJECT}.iam.gserviceaccount.com

最後に、GOOGLE_APPLICATION_CREDENTIALS 環境変数を設定します。この変数は、次のステップで説明する Text-to-Speech API の Node.js ライブラリで使用され、認証情報を検索します。環境変数には、作成した認証情報を保存した JSON ファイルのフルパスを設定する必要があります。

export GOOGLE_APPLICATION_CREDENTIALS="/home/${USER}/key.json"

5. Node.js 用 Google Cloud Text-to-Speech API クライアントライブラリをインストールする

まず、この Text-to-Speech API ラボの実行に使用するプロジェクトを作成し、任意のフォルダで新しい Node.js パッケージを初期化します。

npm init

NPM がプロジェクト構成に関するいくつかの質問（名前やバージョンなど）を行います。各質問に対して、ENTER を押してデフォルト値を受け入れます。デフォルトのエントリポイントは、index.js という名前のファイルです。

次に、Google Cloud Speech ライブラリをプロジェクトにインストールします。

npm install --save @google-cloud/text-to-speech

Google Cloud 向けに Node.js 開発を設定する方法の詳細については、設定ガイドをご覧ください。

これで Text-to-Speech API を使用する準備が整いました。

6. 利用可能な音声を一覧表示する

このセクションでは、まず、音声合成で利用可能な英語の音声の一覧を表示します。

内部の index.js ファイルに移動し、コードを次のように置き換えます。

'use strict';

/**
 * Lists available voices for the specified language.
 *
 * @param {string} languageCode - The language code.
 */
async function listVoices(languageCode) {
  const textToSpeech = require('@google-cloud/text-to-speech');

  const client = new textToSpeech.TextToSpeechClient();

  const [result] = await client.listVoices({languageCode});
  const voices = result.voices;

  voices.forEach((voice) => {
    console.log(`${voice.name} (${voice.ssmlGender}): ${voice.languageCodes}`);
  });
}

listVoices('en');

1 ～ 2 分ほどかけてコードを学習します。アプリを実行します。

node .

次の出力が表示されます。

en-US-Standard-A (MALE): en-US
en-US-Standard-B (MALE): en-US
en-US-Standard-C (FEMALE): en-US
en-US-Standard-D (MALE): en-US
en-US-Standard-E (FEMALE): en-US
en-US-Standard-F (FEMALE): en-US
...

7. テキストから音声を合成する

Text-to-Speech API を使用して、文字列を音声データに変換できます。音声合成の出力は、固有の音声の選択や、出力のピッチ、音量、発話速度、サンプルレートの調節など、さまざまな方法で構成できます。

内部の index.js ファイルに移動し、次のコードを追加します。

/**
 * Sythesizes sample text into an .mp3 file.
 */
async function synthesize() {
  const textToSpeech = require('@google-cloud/text-to-speech');
  const fs = require('fs');
  const util = require('util');

  const client = new textToSpeech.TextToSpeechClient();

  const text = 'This is a demonstration of the Google Cloud Text-to-Speech API';

  const request = {
    input: {text: text},
    voice: {languageCode: 'en-US', ssmlGender: 'NEUTRAL'},
    audioConfig: {audioEncoding: 'MP3'},
  };

  const [response] = await client.synthesizeSpeech(request);
  // Write the binary audio content to a local file
  const writeFile = util.promisify(fs.writeFile);
  await writeFile('output.mp3', response.audioContent, 'binary');
  console.log('Audio content written to file: output.mp3');
}

synthesize();

1 ～ 2 分でコードを学習し、テキストから音声ファイルを作成する方法を確認してください。

node .

次の出力が表示されます。

Audio content written to file "output.mp3"

8. お疲れさまでした

Node.js で Text-to-Speech API を使用し、音声ファイルに対してさまざまな種類の音声文字変換を行う方法を学びました。

クリーンアップ

このクイックスタートで使用するリソースに対して Google Cloud Platform アカウントに課金されないようにするには:

Cloud Platform コンソールに移動します。
シャットダウンするプロジェクトを選択し、[削除] をクリックしますプロジェクトの削除がスケジュールされます。

詳細

Google Cloud Text-to-Speech API: https://cloud.google.com/text-to-speech/docs
Google Cloud Platform での Node.js: https://cloud.google.com/nodejs/
Google Cloud Node.js クライアント: https://googlecloudplatform.github.io/google-cloud-node/

ライセンス

この作業はクリエイティブ・コモンズの表示 2.0 汎用ライセンスにより使用許諾されています。

誤りを報告

Node.js での Text-to-Speech API の使用

Node.js での Text-to-Speech API の使用

この Codelab について

1. 概要

学習内容

必要なもの

アンケート

このチュートリアルをどのように使用されますか？

Node.js の使用経験をどのように評価されますか。

Google Cloud Platform サービスのご利用経験についてどのように評価されますか？

2. 設定と要件

セルフペース型の環境設定

Cloud Shell の起動

Cloud Shell をアクティブにする

3. Text-to-Speech API を有効にする

4. API リクエストを認証する

5. Node.js 用 Google Cloud Text-to-Speech API クライアントライブラリをインストールする

6. 利用可能な音声を一覧表示する

7. テキストから音声を合成する

8. お疲れさまでした

クリーンアップ

詳細

ライセンス