Utilizzo dell'API Text-to-Speech con C#

1. Panoramica

L'API Google Cloud Text-to-Speech (beta) consente agli sviluppatori di includere sintesi vocale dal suono naturale come audio riproducibile nelle loro applicazioni. L'API Text-to-Speech converte il testo o l'input Speech Synthesis Markup Language (SSML) in dati audio in formato MP3 o LINEAR16 (la codifica utilizzata nei file WAV).

In questo codelab, ti concentrerai sull'utilizzo dell'API Text-to-Speech con C#. Scoprirai come elencare le voci disponibili e sintetizzare l'audio dal testo.

Cosa imparerai a fare

  • Come utilizzare Cloud Shell
  • Come abilitare l'API Text-to-Speech
  • Come autenticare le richieste API
  • Come installare la libreria client Google Cloud per C#
  • Come elencare le voci disponibili
  • Come sintetizzare l'audio dal testo

Che cosa ti serve

  • Un progetto Google Cloud
  • Un browser, ad esempio Chrome o Firefox
  • Familiarità con C#

Sondaggio

Come utilizzerai questo tutorial?

Leggilo e basta Leggilo e completa gli esercizi

Come valuteresti la tua esperienza con C#?

Principiante Intermedio Avanzato

Come valuti la tua esperienza di utilizzo dei servizi Google Cloud Platform?

Principiante Intermedio Avanzato

2. Configurazione e requisiti

Configurazione dell'ambiente autonomo

  1. Accedi alla console Google Cloud e crea un nuovo progetto o riutilizzane uno esistente. Se non hai ancora un account Gmail o Google Workspace, devi crearne uno.

295004821bab6a87.png

37d264871000675d.png

96d86d3d5655cdbe.png

  • Il nome del progetto è il nome visualizzato per i partecipanti a questo progetto. È una stringa di caratteri non utilizzata dalle API di Google. Puoi sempre aggiornarlo.
  • L'ID progetto è univoco in tutti i progetti Google Cloud ed è immutabile (non può essere modificato dopo l'impostazione). La console Cloud genera automaticamente una stringa univoca, di solito non ti interessa di cosa si tratta. Nella maggior parte dei codelab, dovrai fare riferimento all'ID progetto (in genere identificato come PROJECT_ID). Se l'ID generato non ti piace, puoi generarne un altro casuale. In alternativa, puoi provare a crearne uno e vedere se è disponibile. Non può essere modificato dopo questo passaggio e rimane per tutta la durata del progetto.
  • Per tua informazione, esiste un terzo valore, un numero di progetto, utilizzato da alcune API. Scopri di più su tutti e tre questi valori nella documentazione.
  1. Successivamente, devi abilitare la fatturazione in Cloud Console per utilizzare le risorse/API Cloud. Completare questo codelab non costa molto, se non nulla. Per arrestare le risorse ed evitare addebiti oltre a quelli previsti in questo tutorial, puoi eliminare le risorse che hai creato o il progetto. I nuovi utenti di Google Cloud possono beneficiare del programma prova senza costi di 300$.

Avvia Cloud Shell

Sebbene Google Cloud possa essere gestito da remoto dal tuo laptop, in questo codelab utilizzerai Google Cloud Shell, un ambiente a riga di comando in esecuzione nel cloud.

Attiva Cloud Shell

  1. Nella console Cloud, fai clic su Attiva Cloud Shell d1264ca30785e435.png.

cb81e7c8e34bc8d.png

Se è la prima volta che avvii Cloud Shell, viene visualizzata una schermata intermedia che ne descrive le funzionalità. Se è stata visualizzata una schermata intermedia, fai clic su Continua.

d95252b003979716.png

Bastano pochi istanti per eseguire il provisioning e connettersi a Cloud Shell.

7833d5e1c5d18f54.png

Questa macchina virtuale è caricata con tutti gli strumenti di sviluppo necessari. Offre una home directory permanente da 5 GB e viene eseguita in Google Cloud, migliorando notevolmente le prestazioni e l'autenticazione della rete. Gran parte del lavoro per questo codelab, se non tutto, può essere svolto con un browser.

Una volta eseguita la connessione a Cloud Shell, dovresti vedere che il tuo account è autenticato e il progetto è impostato sul tuo ID progetto.

  1. Esegui questo comando in Cloud Shell per verificare che l'account sia autenticato:
gcloud auth list

Output comando

 Credentialed Accounts
ACTIVE  ACCOUNT
*       <my_account>@<my_domain.com>

To set the active account, run:
    $ gcloud config set account `ACCOUNT`
  1. Esegui questo comando in Cloud Shell per verificare che il comando gcloud conosca il tuo progetto:
gcloud config list project

Output comando

[core]
project = <PROJECT_ID>

In caso contrario, puoi impostarlo con questo comando:

gcloud config set project <PROJECT_ID>

Output comando

Updated property [core/project].

3. Abilita l'API Text-to-Speech

Prima di poter iniziare a utilizzare l'API Text-to-Speech, devi abilitarla. Puoi abilitare l'API utilizzando il seguente comando in Cloud Shell:

gcloud services enable texttospeech.googleapis.com

4. Installa la libreria client dell'API Google Cloud Text-to-Speech per C#

Innanzitutto, crea una semplice applicazione console C# che utilizzerai per eseguire gli esempi dell'API Text-to-Speech:

dotnet new console -n TextToSpeechApiDemo

Dovresti vedere l'applicazione creata e le dipendenze risolte:

The template "Console Application" was created successfully.
Processing post-creation actions...
...
Restore succeeded.

A questo punto, vai alla cartella TextToSpeechApiDemo:

cd TextToSpeechApiDemo/

e aggiungi il pacchetto NuGet Google.Cloud.TextToSpeech.V1 al progetto:

dotnet add package Google.Cloud.TextToSpeech.V1
info : Adding PackageReference for package 'Google.Cloud.TextToSpeech.V1' into project '/home/atameldev/TextToSpeechDemo/TextToSpeechDemo.csproj'.
log  : Restoring packages for /home/atameldev/TextToSpeechDemo/TextToSpeechDemo.csproj...
...
info : PackageReference for package 'Google.Cloud.TextToSpeech.V1' version '1.0.0-beta01' added to file '/home/atameldev/TextToSpeechDemo/TextToSpeechDemo.csproj'.

Ora puoi utilizzare l'API Text-to-Speech.

5. Elenco voci disponibili

In questa sezione, elencherai innanzitutto tutte le voci disponibili in inglese per la sintesi audio.

Innanzitutto, apri l'editor di codice dalla parte in alto a destra di Cloud Shell:

fd3fc1303e63572.png

Vai al file Program.cs all'interno della cartella TextToSpeechApiDemo e sostituisci il codice con il seguente:

using Google.Cloud.TextToSpeech.V1;
using System;

namespace TextToSpeechApiDemo
{
    class Program
    {
        static void Main(string[] args)
        {
            var client = TextToSpeechClient.Create();
            var response = client.ListVoices("en");
            foreach (var voice in response.Voices)
            {
                Console.WriteLine($"{voice.Name} ({voice.SsmlGender}); Language codes: {string.Join(", ", voice.LanguageCodes)}");
            }
        }
    }
}

Prenditi un minuto o due per studiare il codice*.* Torna a Cloud Shell ed esegui l'app:

dotnet run

Dovresti vedere l'output seguente:

en-US-Wavenet-D (Male); Language codes: en-US
en-AU-Wavenet-A (Female); Language codes: en-AU
en-AU-Wavenet-B (Male); Language codes: en-AU
en-AU-Wavenet-C (Female); Language codes: en-AU
en-AU-Wavenet-D (Male); Language codes: en-AU
en-GB-Wavenet-A (Female); Language codes: en-GB
en-GB-Wavenet-B (Male); Language codes: en-GB
en-GB-Wavenet-C (Female); Language codes: en-GB
...
en-GB-Standard-A (Female); Language codes: en-GB
en-GB-Standard-B (Male); Language codes: en-GB
en-AU-Standard-D (Male); Language codes: en-AU

Riepilogo

In questo passaggio, hai potuto elencare tutte le voci disponibili in inglese per la sintesi audio. Puoi trovare l'elenco completo delle voci disponibili anche nella pagina Voci supportate.

6. Sintetizza audio dal testo

Puoi utilizzare l'API Text-to-Speech per convertire una stringa in dati audio. Puoi configurare l'output della sintesi vocale in vari modi, ad esempio selezionando una voce unica o modulando l'output in base a tono, volume, velocità del parlato e frequenza di campionamento.

Per sintetizzare un file audio dal testo, vai al file Program.cs all'interno della cartella TextToSpeechApiDemo e sostituisci il codice con il seguente:

using Google.Cloud.TextToSpeech.V1;
using System;
using System.IO;

namespace TextToSpeechApiDemo
{
    class Program
    {
        static void Main(string[] args)
        {
            var client = TextToSpeechClient.Create();

            // The input to be synthesized, can be provided as text or SSML.
            var input = new SynthesisInput
            {
                Text = "This is a demonstration of the Google Cloud Text-to-Speech API"
            };

            // Build the voice request.
            var voiceSelection = new VoiceSelectionParams
            {
                LanguageCode = "en-US",
                SsmlGender = SsmlVoiceGender.Female
            };

            // Specify the type of audio file.
            var audioConfig = new AudioConfig
            {
                AudioEncoding = AudioEncoding.Mp3
            };

            // Perform the text-to-speech request.
            var response = client.SynthesizeSpeech(input, voiceSelection, audioConfig);
            
            // Write the response to the output file.
            using (var output = File.Create("output.mp3"))
            {
                response.AudioContent.WriteTo(output);
            }
            Console.WriteLine("Audio content written to file \"output.mp3\"");
        }
    }
}

Dedicati un minuto o due a studiare il codice e a capire come viene utilizzato per creare un file audio dal testo.

Torna a Cloud Shell ed esegui l'app:

dotnet run

Dovresti vedere l'output seguente:

Audio content written to file "output.mp3"

Nell'editor di codice, puoi scaricare il file MP3 e riprodurlo localmente sulla tua macchina.

a4b9578505422dad.png

Riepilogo

In questo passaggio, hai potuto utilizzare l'API Text-to-Speech per convertire una stringa in un file audio MP3. Scopri di più sulla creazione di file audio vocali.

7. Complimenti!

Hai imparato a utilizzare l'API Text-to-Speech utilizzando C# per eseguire diversi tipi di trascrizione su file audio.

Esegui la pulizia

Per evitare che al tuo account Google Cloud Platform vengano addebitate le risorse utilizzate in questa guida rapida, procedi come segue.

  • Vai alla console Cloud Platform.
  • Seleziona il progetto che vuoi chiudere, quindi fai clic su "Elimina" in alto: il progetto verrà pianificato per l'eliminazione.

Scopri di più

Licenza

Questo lavoro è concesso in licenza ai sensi di una licenza Creative Commons Attribution 2.0 Generic.