Menggunakan Speech-to-Text API dengan Python

1. Ringkasan

Speech-to-Text API memungkinkan developer mengonversi audio menjadi teks dalam lebih dari 125 bahasa dan varian, dengan menerapkan model jaringan neural yang canggih di API yang mudah digunakan.

Dalam tutorial ini, Anda akan berfokus pada penggunaan Speech-to-Text API dengan Python.

Yang akan Anda pelajari

Cara menyiapkan lingkungan Anda
Cara mentranskripsikan file audio dalam bahasa Inggris
Cara mentranskripsikan file audio dengan stempel waktu kata
Cara mentranskripsikan file audio dalam berbagai bahasa

Yang Anda butuhkan

Project Google Cloud
Browser, seperti Chrome atau Firefox
Kemampuan menggunakan Python

Survei

Bagaimana Anda akan menggunakan tutorial ini?

Hanya membacanya

Membacanya dan menyelesaikan latihan

Bagaimana penilaian Anda terhadap pengalaman dengan Python?

Pemula

Menengah

Mahir

Bagaimana penilaian Anda terhadap pengalaman menggunakan layanan Google Cloud?

Pemula

Menengah

Mahir

2. Penyiapan dan persyaratan

Penyiapan lingkungan mandiri

Login ke Google Cloud Console dan buat project baru atau gunakan kembali project yang sudah ada. Jika belum memiliki akun Gmail atau Google Workspace, Anda harus membuatnya.

Project name adalah nama tampilan untuk peserta project ini. String ini adalah string karakter yang tidak digunakan oleh Google API. Anda dapat memperbaruinya kapan saja.
Project ID bersifat unik di semua project Google Cloud dan tidak dapat diubah (tidak dapat diubah setelah ditetapkan). Cloud Console otomatis membuat string unik; biasanya Anda tidak mementingkan kata-katanya. Di sebagian besar codelab, Anda harus merujuk Project ID-nya (umumnya diidentifikasi sebagai PROJECT_ID). Jika tidak suka dengan ID yang dibuat, Anda dapat membuat ID acak lainnya. Atau, Anda dapat mencobanya sendiri, dan lihat apakah ID tersebut tersedia. ID tidak dapat diubah setelah langkah ini dan tersedia selama durasi project.
Sebagai informasi, ada nilai ketiga, Project Number, yang digunakan oleh beberapa API. Pelajari lebih lanjut ketiga nilai ini di dokumentasi.

Selanjutnya, Anda harus mengaktifkan penagihan di Konsol Cloud untuk menggunakan resource/API Cloud. Menjalankan operasi dalam codelab ini tidak akan memakan banyak biaya, bahkan mungkin tidak sama sekali. Guna mematikan resource agar tidak menimbulkan penagihan di luar tutorial ini, Anda dapat menghapus resource yang dibuat atau menghapus project-nya. Pengguna baru Google Cloud memenuhi syarat untuk mengikuti program Uji Coba Gratis senilai $300 USD.

Mulai Cloud Shell

Meskipun Google Cloud dapat dioperasikan dari jarak jauh menggunakan laptop Anda, dalam codelab ini, Anda akan menggunakan Cloud Shell, lingkungan command line yang berjalan di Cloud.

Mengaktifkan Cloud Shell

Dari Cloud Console, klik Aktifkan Cloud Shell .

Jika ini adalah pertama kalinya Anda memulai Cloud Shell, Anda akan melihat layar perantara yang menjelaskan apa itu Cloud Shell. Jika Anda melihat layar perantara, klik Continue.

Perlu waktu beberapa saat untuk menyediakan dan terhubung ke Cloud Shell.

Virtual machine ini dilengkapi dengan semua alat pengembangan yang diperlukan. VM ini menawarkan direktori beranda tetap sebesar 5 GB dan beroperasi di Google Cloud, sehingga sangat meningkatkan performa dan autentikasi jaringan. Sebagian besar pekerjaan Anda dalam codelab ini dapat dilakukan dengan browser.

Setelah terhubung ke Cloud Shell, Anda akan melihat bahwa Anda telah diautentikasi dan project telah ditetapkan ke project ID Anda.

Jalankan perintah berikut di Cloud Shell untuk mengonfirmasi bahwa Anda telah diautentikasi:

gcloud auth list

Output perintah

 Credentialed Accounts
ACTIVE  ACCOUNT
*       <my_account>@<my_domain.com>

To set the active account, run:
    $ gcloud config set account `ACCOUNT`

Jalankan perintah berikut di Cloud Shell untuk mengonfirmasi bahwa perintah gcloud mengetahui project Anda:

gcloud config list project

Output perintah

[core]
project = <PROJECT_ID>

Jika tidak, Anda dapat menyetelnya dengan perintah ini:

gcloud config set project <PROJECT_ID>

Output perintah

Updated property [core/project].

3. Penyiapan lingkungan

Sebelum dapat mulai menggunakan Speech-to-Text API, jalankan perintah berikut di Cloud Shell untuk mengaktifkan API:

gcloud services enable speech.googleapis.com

Anda akan melihat yang seperti ini:

Operation "operations/..." finished successfully.

Sekarang, Anda dapat menggunakan Speech-to-Text API.

Buka direktori utama Anda:

cd ~

Buat lingkungan virtual Python untuk mengisolasi dependensi:

virtualenv venv-speech

Aktifkan lingkungan virtual:

source venv-speech/bin/activate

Instal IPython dan library klien Speech-to-Text API:

pip install ipython google-cloud-speech

Anda akan melihat yang seperti ini:

...
Installing collected packages: ..., ipython, google-cloud-speech
Successfully installed ... google-cloud-speech-2.25.1 ...

Sekarang, Anda siap menggunakan library klien Speech-to-Text API.

Pada langkah berikutnya, Anda akan menggunakan penafsir Python interaktif yang disebut IPython, yang Anda instal pada langkah sebelumnya. Mulai sesi dengan menjalankan ipython di Cloud Shell:

ipython

Anda akan melihat yang seperti ini:

Python 3.9.2 (default, Feb 28 2021, 17:03:44)
Type 'copyright', 'credits' or 'license' for more information
IPython 8.18.1 -- An enhanced Interactive Python. Type '?' for help.

In [1]:

Anda siap membuat permintaan pertama...

4. Mentranskripsikan file audio

Di bagian ini, Anda akan mentranskripsikan file audio berbahasa Inggris.

Salin kode berikut ke sesi IPython Anda:

from google.cloud import speech


def speech_to_text(
    config: speech.RecognitionConfig,
    audio: speech.RecognitionAudio,
) -> speech.RecognizeResponse:
    client = speech.SpeechClient()

    # Synchronous speech recognition request
    response = client.recognize(config=config, audio=audio)

    return response


def print_response(response: speech.RecognizeResponse):
    for result in response.results:
        print_result(result)


def print_result(result: speech.SpeechRecognitionResult):
    best_alternative = result.alternatives[0]
    print("-" * 80)
    print(f"language_code: {result.language_code}")
    print(f"transcript:    {best_alternative.transcript}")
    print(f"confidence:    {best_alternative.confidence:.0%}")

Luangkan waktu untuk mempelajari kode dan melihat cara kode tersebut menggunakan metode library klien recognize untuk mentranskripsikan file audio*.* Parameter config menunjukkan cara memproses permintaan dan parameter audio menentukan data audio yang akan dikenali.

Mengirim permintaan:

config = speech.RecognitionConfig(
    language_code="en",
)
audio = speech.RecognitionAudio(
    uri="gs://cloud-samples-data/speech/brooklyn_bridge.flac",
)

response = speech_to_text(config, audio)
print_response(response)

Anda akan melihat output berikut:

--------------------------------------------------------------------------------
language_code: en-us
transcript:    how old is the Brooklyn Bridge
confidence:    98%

Perbarui konfigurasi untuk mengaktifkan tanda baca otomatis dan mengirim permintaan baru:

config.enable_automatic_punctuation = True

response = speech_to_text(config, audio)
print_response(response)

Anda akan melihat output berikut:

--------------------------------------------------------------------------------
language_code: en-us
transcript:    How old is the Brooklyn Bridge?
confidence:    98%

Ringkasan

Pada langkah ini, Anda dapat mentranskripsikan file audio dalam bahasa Inggris, menggunakan parameter yang berbeda, dan mencetak hasilnya. Anda dapat membaca lebih lanjut cara mentranskripsikan file audio.

5. Mendapatkan stempel waktu kata

Speech-to-Text dapat mendeteksi selisih waktu (stempel waktu) untuk audio yang ditranskripsikan. Selisih waktu menunjukkan awal dan akhir setiap kata yang diucapkan dalam audio yang disediakan. Nilai selisih waktu mewakili jumlah waktu yang telah berlalu dari awal audio, dengan kelipatan 100 md.

Untuk mentranskripsikan file audio dengan stempel waktu kata, perbarui kode Anda dengan menyalin kode berikut ke sesi IPython:

def print_result(result: speech.SpeechRecognitionResult):
    best_alternative = result.alternatives[0]
    print("-" * 80)
    print(f"language_code: {result.language_code}")
    print(f"transcript:    {best_alternative.transcript}")
    print(f"confidence:    {best_alternative.confidence:.0%}")
    print("-" * 80)
    for word in best_alternative.words:
        start_s = word.start_time.total_seconds()
        end_s = word.end_time.total_seconds()
        print(f"{start_s:>7.3f} | {end_s:>7.3f} | {word.word}")

Luangkan waktu sejenak untuk mempelajari kode dan melihat cara kode tersebut mentranskripsikan file audio dengan stempel waktu kata*.* Parameter enable_word_time_offsets memberi tahu API untuk menampilkan selisih waktu untuk setiap kata (lihat dokumen untuk mengetahui detail selengkapnya).

Mengirim permintaan:

config = speech.RecognitionConfig(
    language_code="en",
    enable_automatic_punctuation=True,
    enable_word_time_offsets=True,
)
audio = speech.RecognitionAudio(
    uri="gs://cloud-samples-data/speech/brooklyn_bridge.flac",
)

response = speech_to_text(config, audio)
print_response(response)

Anda akan melihat output berikut:

--------------------------------------------------------------------------------
language_code: en-us
transcript:    How old is the Brooklyn Bridge?
confidence:    98%
--------------------------------------------------------------------------------
  0.000 |   0.300 | How
  0.300 |   0.600 | old
  0.600 |   0.800 | is
  0.800 |   0.900 | the
  0.900 |   1.100 | Brooklyn
  1.100 |   1.400 | Bridge?

Ringkasan

Pada langkah ini, Anda dapat mentranskripsikan file audio dalam bahasa Inggris dengan stempel waktu kata dan mencetak hasilnya. Baca selengkapnya tentang mendapatkan stempel waktu kata.

6. Mentranskripsikan bahasa yang berbeda

Speech-to-Text API mengenali lebih dari 125 bahasa dan varian. Anda dapat menemukan daftar bahasa yang didukung di sini.

Di bagian ini, Anda akan mentranskripsikan file audio berbahasa Prancis.

Untuk mentranskripsikan file audio berbahasa Prancis, perbarui kode Anda dengan menyalin kode berikut ke sesi IPython:

config = speech.RecognitionConfig(
    language_code="fr-FR",
    enable_automatic_punctuation=True,
    enable_word_time_offsets=True,
)
audio = speech.RecognitionAudio(
    uri="gs://cloud-samples-data/speech/corbeau_renard.flac",
)

response = speech_to_text(config, audio)
print_response(response)

Anda akan melihat output berikut:

--------------------------------------------------------------------------------
language_code: fr-fr
transcript:    Maître corbeau sur un arbre perché Tenait dans son bec un fromage maître Renard par l'odeur alléché lui tint à peu près ce langage et bonjour monsieur du corbeau.
confidence:    94%
--------------------------------------------------------------------------------
  0.000 |   0.700 | Maître
  0.700 |   1.100 | corbeau
  1.100 |   1.300 | sur
  1.300 |   1.600 | un
  1.600 |   1.700 | arbre
  1.700 |   2.000 | perché
  2.000 |   3.000 | Tenait
  3.000 |   3.000 | dans
  3.000 |   3.200 | son
  3.200 |   3.500 | bec
  3.500 |   3.700 | un
  3.700 |   3.800 | fromage
...
 10.800 |  11.800 | monsieur
 11.800 |  11.900 | du
 11.900 |  12.100 | corbeau.

Ringkasan

Pada langkah ini, Anda dapat mentranskripsikan file audio berbahasa Prancis dan mencetak hasilnya. Anda dapat membaca lebih lanjut bahasa yang didukung.

7. Selamat!

Anda telah mempelajari cara menggunakan Speech-to-Text API menggunakan Python untuk melakukan berbagai jenis transkripsi pada file audio.

Pembersihan

Untuk membersihkan lingkungan pengembangan Anda, dari Cloud Shell:

Jika Anda masih berada di sesi IPython, kembali ke shell: exit
Berhenti menggunakan lingkungan virtual Python: deactivate
Hapus folder lingkungan virtual Anda: cd ~ ; rm -rf ./venv-speech

Untuk menghapus project Google Cloud Anda, dari Cloud Shell:

Ambil project ID Anda saat ini: PROJECT_ID=$(gcloud config get-value core/project)
Pastikan ini adalah project yang ingin Anda hapus: echo $PROJECT_ID
Menghapus project: gcloud projects delete $PROJECT_ID

Pelajari lebih lanjut

Uji demo di browser Anda: https://cloud.google.com/speech-to-text
Dokumentasi Speech-to-Text: https://cloud.google.com/speech-to-text/docs
Python di Google Cloud: https://cloud.google.com/python
Library Klien Cloud untuk Python: https://github.com/googleapis/google-cloud-python

Lisensi

Karya ini dilisensikan berdasarkan Lisensi Umum Creative Commons Attribution 2.0.

Menggunakan Speech-to-Text API dengan Python Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.

1. Ringkasan

Yang akan Anda pelajari

Yang Anda butuhkan

Survei

Bagaimana Anda akan menggunakan tutorial ini?

Bagaimana penilaian Anda terhadap pengalaman dengan Python?

Bagaimana penilaian Anda terhadap pengalaman menggunakan layanan Google Cloud?

2. Penyiapan dan persyaratan

Penyiapan lingkungan mandiri

Mulai Cloud Shell

Mengaktifkan Cloud Shell

3. Penyiapan lingkungan

4. Mentranskripsikan file audio

Ringkasan

5. Mendapatkan stempel waktu kata

Ringkasan

6. Mentranskripsikan bahasa yang berbeda

Ringkasan

7. Selamat!

Pembersihan

Pelajari lebih lanjut

Lisensi

Menggunakan Speech-to-Text API dengan Python