Como usar a API Speech-to-Text com Python

7 minutos restantes

Sobre este codelab

Último mar. 27, 2024 atualizado

Escrito por Laurent Picard

Esta página foi traduzida pela API Cloud Translation.

1. Visão geral

A API Speech-to-Text permite que os desenvolvedores convertam áudio em texto em mais de 125 idiomas e variantes, aplicando modelos de rede neural avançados em uma API fácil de usar.

Neste tutorial, você vai usar a API Speech-to-Text com Python.

O que você vai aprender

Como configurar seu ambiente
Como transcrever arquivos de áudio em inglês
Como transcrever arquivos de áudio com carimbos de data/hora de palavras
Como transcrever arquivos de áudio em diferentes idiomas

O que é necessário

um projeto do Google Cloud;
Use um navegador, como o Chrome ou o Firefox.
Familiaridade com Python

Pesquisa

Como você vai usar este tutorial?

Apenas leituraLer e fazer os exercícios

Como você classificaria sua experiência com Python?

InicianteIntermediárioProficiente

Como você classificaria sua experiência com os serviços do Google Cloud?

InicianteIntermediárioProficiente

Configuração de ambiente autoguiada

Faça login no Console do Google Cloud e crie um novo projeto ou reutilize um existente. Crie uma conta do Gmail ou do Google Workspace, se ainda não tiver uma.

O Nome do projeto é o nome de exibição para os participantes do projeto. É uma string de caracteres não usada pelas APIs do Google e pode ser atualizada quando você quiser.
O ID do projeto precisa ser exclusivo em todos os projetos do Google Cloud e não pode ser mudado após a definição. O console do Cloud gera automaticamente uma string exclusiva. Em geral, não importa o que seja. Na maioria dos codelabs, é necessário fazer referência ao ID do projeto, normalmente identificado como PROJECT_ID. Se você não gostar do ID gerado, crie outro aleatório. Se preferir, teste o seu e confira se ele está disponível. Ele não pode ser mudado após essa etapa e permanece durante o projeto.
Para sua informação, há um terceiro valor, um Número do projeto, que algumas APIs usam. Saiba mais sobre esses três valores na documentação.

Em seguida, ative o faturamento no console do Cloud para usar os recursos/APIs do Cloud. A execução deste codelab não vai ser muito cara, se tiver algum custo. Para encerrar os recursos e evitar cobranças além deste tutorial, exclua os recursos criados ou exclua o projeto. Novos usuários do Google Cloud estão qualificados para o programa de US$ 300 de avaliação sem custos.

Inicie o Cloud Shell

Embora o Google Cloud possa ser operado remotamente em um laptop, neste codelab você vai usar o Cloud Shell, um ambiente de linha de comando executado no Cloud.

Ativar o Cloud Shell

No Console do Cloud, clique em Ativar o Cloud Shell.

3c1dabeca90e44e5.png.

Se você estiver iniciando o Cloud Shell pela primeira vez, verá uma tela intermediária com a descrição dele. Se aparecer uma tela intermediária, clique em Continuar.

Leva apenas alguns instantes para provisionar e se conectar ao Cloud Shell.

Essa máquina virtual tem todas as ferramentas de desenvolvimento necessárias. Ela oferece um diretório principal persistente de 5 GB, além de ser executada no Google Cloud. Isso aprimora o desempenho e a autenticação da rede. Grande parte do trabalho neste codelab, se não todo, pode ser feito em um navegador.

Depois de se conectar ao Cloud Shell, você verá sua autenticação e o projeto estará configurado com o ID do seu projeto.

Execute o seguinte comando no Cloud Shell para confirmar se a conta está autenticada:

gcloud auth list

Resposta ao comando

 Credentialed Accounts
ACTIVE  ACCOUNT
*       <my_account>@<my_domain.com>

To set the active account, run:
    $ gcloud config set account `ACCOUNT`

Execute o seguinte comando no Cloud Shell para confirmar que o comando gcloud sabe sobre seu projeto:

gcloud config list project

Resposta ao comando

[core]
project = <PROJECT_ID>

Se o projeto não estiver configurado, configure-o usando este comando:

gcloud config set project <PROJECT_ID>

Resposta ao comando

Updated property [core/project].

3. Configuração do ambiente

Antes de começar a usar a API Speech-to-Text, execute o seguinte comando no Cloud Shell para ativá-la:

gcloud services enable speech.googleapis.com

Você verá algo como:

Operation "operations/..." finished successfully.

Agora você pode usar a API Speech-to-Text.

Navegue até seu diretório principal:

cd ~

Crie um ambiente virtual de Python para isolar as dependências:

virtualenv venv-speech

Ative o ambiente virtual:

source venv-speech/bin/activate

Instale o IPython e a biblioteca de cliente da API Speech-to-Text:

pip install ipython google-cloud-speech

Você verá algo como:

...
Installing collected packages: ..., ipython, google-cloud-speech
Successfully installed ... google-cloud-speech-2.25.1 ...

Agora você já pode usar a biblioteca de cliente da API Speech-to-Text.

Nas próximas etapas, você vai usar um interpretador de Python interativo chamado IPython, que foi instalado na etapa anterior. Inicie uma sessão executando ipython no Cloud Shell:

ipython

Você verá algo como:

Python 3.9.2 (default, Feb 28 2021, 17:03:44)
Type 'copyright', 'credits' or 'license' for more information
IPython 8.18.1 -- An enhanced Interactive Python. Type '?' for help.

In [1]:

Você já pode fazer sua primeira solicitação...

4. Transcrever arquivos de áudio

Nesta seção, você vai transcrever um arquivo de áudio em inglês.

Copie o código a seguir na sessão do IPython:

from google.cloud import speech


def speech_to_text(
    config: speech.RecognitionConfig,
    audio: speech.RecognitionAudio,
) -> speech.RecognizeResponse:
    client = speech.SpeechClient()

    # Synchronous speech recognition request
    response = client.recognize(config=config, audio=audio)

    return response


def print_response(response: speech.RecognizeResponse):
    for result in response.results:
        print_result(result)


def print_result(result: speech.SpeechRecognitionResult):
    best_alternative = result.alternatives[0]
    print("-" * 80)
    print(f"language_code: {result.language_code}")
    print(f"transcript:    {best_alternative.transcript}")
    print(f"confidence:    {best_alternative.confidence:.0%}")

Estude o código e confira como ele usa o método da biblioteca de cliente recognize para transcrever um arquivo de áudio*.* O parâmetro config indica como processar a solicitação, e o parâmetro audio especifica os dados de áudio a serem reconhecidos.

Envie uma solicitação:

config = speech.RecognitionConfig(
    language_code="en",
)
audio = speech.RecognitionAudio(
    uri="gs://cloud-samples-data/speech/brooklyn_bridge.flac",
)

response = speech_to_text(config, audio)
print_response(response)

Você verá esta resposta:

--------------------------------------------------------------------------------
language_code: en-us
transcript:    how old is the Brooklyn Bridge
confidence:    98%

Atualize a configuração para ativar a pontuação automática e envie uma nova solicitação:

config.enable_automatic_punctuation = True

response = speech_to_text(config, audio)
print_response(response)

Você verá esta resposta:

--------------------------------------------------------------------------------
language_code: en-us
transcript:    How old is the Brooklyn Bridge?
confidence:    98%

Resumo

Nesta etapa, você conseguiu transcrever um arquivo de áudio em inglês usando diferentes parâmetros e imprimir o resultado. Saiba mais sobre a transcrição de arquivos de áudio.

5. Acessar carimbos de data/hora de palavras

A Speech-to-Text pode detectar ajustes de horário (carimbos de data/hora) para o áudio transcrito. Os ajustes de horário mostram o início e o fim de cada palavra falada no áudio fornecido. Um valor de ajuste de horário representa a quantidade de tempo decorrido desde o início do áudio, em incrementos de 100 ms.

Para transcrever um arquivo de áudio com carimbos de data/hora de palavras, atualize seu código copiando o seguinte na sessão do IPython:

def print_result(result: speech.SpeechRecognitionResult):
    best_alternative = result.alternatives[0]
    print("-" * 80)
    print(f"language_code: {result.language_code}")
    print(f"transcript:    {best_alternative.transcript}")
    print(f"confidence:    {best_alternative.confidence:.0%}")
    print("-" * 80)
    for word in best_alternative.words:
        start_s = word.start_time.total_seconds()
        end_s = word.end_time.total_seconds()
        print(f"{start_s:>7.3f} | {end_s:>7.3f} | {word.word}")

Estude o código e veja como ele transcreve um arquivo de áudio com marcações de tempo de palavras*.* O parâmetro enable_word_time_offsets instrui a API a retornar os ajustes de horário de cada palavra. Consulte o documento para mais detalhes.

Envie uma solicitação:

config = speech.RecognitionConfig(
    language_code="en",
    enable_automatic_punctuation=True,
    enable_word_time_offsets=True,
)
audio = speech.RecognitionAudio(
    uri="gs://cloud-samples-data/speech/brooklyn_bridge.flac",
)

response = speech_to_text(config, audio)
print_response(response)

Você verá esta resposta:

--------------------------------------------------------------------------------
language_code: en-us
transcript:    How old is the Brooklyn Bridge?
confidence:    98%
--------------------------------------------------------------------------------
  0.000 |   0.300 | How
  0.300 |   0.600 | old
  0.600 |   0.800 | is
  0.800 |   0.900 | the
  0.900 |   1.100 | Brooklyn
  1.100 |   1.400 | Bridge?

Resumo

Nesta etapa, você conseguiu transcrever um arquivo de áudio em inglês com carimbos de data/hora e imprimir o resultado. Leia mais sobre como conseguir carimbos de data/hora de palavras.

6. Transcrever idiomas diferentes

A API Speech-to-Text reconhece mais de 125 idiomas e variantes. Confira uma lista de idiomas compatíveis neste link.

Nesta seção, você vai transcrever um arquivo de áudio em francês.

Para transcrever o arquivo de áudio em francês, atualize seu código copiando o seguinte na sessão do IPython:

config = speech.RecognitionConfig(
    language_code="fr-FR",
    enable_automatic_punctuation=True,
    enable_word_time_offsets=True,
)
audio = speech.RecognitionAudio(
    uri="gs://cloud-samples-data/speech/corbeau_renard.flac",
)

response = speech_to_text(config, audio)
print_response(response)

Você verá esta resposta:

--------------------------------------------------------------------------------
language_code: fr-fr
transcript:    Maître corbeau sur un arbre perché Tenait dans son bec un fromage maître Renard par l'odeur alléché lui tint à peu près ce langage et bonjour monsieur du corbeau.
confidence:    94%
--------------------------------------------------------------------------------
  0.000 |   0.700 | Maître
  0.700 |   1.100 | corbeau
  1.100 |   1.300 | sur
  1.300 |   1.600 | un
  1.600 |   1.700 | arbre
  1.700 |   2.000 | perché
  2.000 |   3.000 | Tenait
  3.000 |   3.000 | dans
  3.000 |   3.200 | son
  3.200 |   3.500 | bec
  3.500 |   3.700 | un
  3.700 |   3.800 | fromage
...
 10.800 |  11.800 | monsieur
 11.800 |  11.900 | du
 11.900 |  12.100 | corbeau.

Resumo

Nesta etapa, você conseguiu transcrever um arquivo de áudio em francês e imprimir o resultado. Saiba mais sobre os idiomas compatíveis.

7. Parabéns!

Você aprendeu a usar a API Speech-to-Text com Python para realizar diferentes tipos de transcrição em arquivos de áudio.

Limpar

Para limpar seu ambiente de desenvolvimento, faça o seguinte no Cloud Shell:

Se você ainda estiver na sessão do IPython, volte para o shell: exit
Pare de usar o ambiente virtual do Python: deactivate
Exclua a pasta do ambiente virtual: cd ~ ; rm -rf ./venv-speech

Para excluir seu projeto do Google Cloud usando o Cloud Shell:

Recupere seu ID do projeto atual: PROJECT_ID=$(gcloud config get-value core/project)
Verifique se este é o projeto que você quer excluir: echo $PROJECT_ID
Exclua o projeto: gcloud projects delete $PROJECT_ID

Saiba mais

Teste a demonstração no navegador: https://cloud.google.com/speech-to-text
Documentação da Speech-to-Text: https://cloud.google.com/speech-to-text/docs
Python no Google Cloud: https://cloud.google.com/python
Bibliotecas de cliente do Cloud para Python: https://github.com/googleapis/google-cloud-python

Licença

Este conteúdo está sob a licença Atribuição 2.0 Genérica da Creative Commons.

Informar um erro