استخدام واجهة برمجة تطبيقات Speech-to-Text API من خلال لغة بايثون

الدقائق المتبقية: 7

لمحة عن هذا الدرس التطبيقي حول الترميز

تاريخ التعديل الأخير: مارس 27, 2024

تأليف: Laurent Picard

تمت ترجمة هذه الصفحة بواسطة Cloud Translation API‏.

1. نظرة عامة

تتيح واجهة برمجة التطبيقات Speech-to-Text API للمطوّرين تحويل الصوت إلى نص بأكثر من 125 لغة ومتغيّرًا، وذلك من خلال تطبيق نماذج شبكة عصبية فعّالة على واجهة برمجة تطبيقات سهلة الاستخدام.

في هذا البرنامج التعليمي، ستركز على استخدام واجهة برمجة تطبيقات Speech-to-Text API باستخدام لغة بايثون.

المعلومات التي ستطّلع عليها

كيفية إعداد البيئة
كيفية تحويل الصوت إلى نص في الملفات الصوتية باللغة الإنجليزية
كيفية تحويل الصوت إلى نص في الملفات الصوتية التي تتضمّن الطوابع الزمنية للكلمات
كيفية تحويل الصوت إلى نص في الملفات الصوتية بلغات مختلفة

المتطلبات

مشروع على Google Cloud
متصفح، مثل Chrome أو Firefox
الإلمام باستخدام بايثون

استطلاع

كيف ستستخدم هذا البرنامج التعليمي؟

القراءة فقطاقرأها وأكمِل التمارين

كيف تقيّم تجربتك مع Python؟

حديثمتوسطبارع

كيف تقيّم تجربتك مع خدمات Google Cloud؟

حديثمتوسطبارع

إعداد بيئة ذاتية

سجِّل الدخول إلى Google Cloud Console وأنشئ مشروعًا جديدًا أو أعِد استخدام مشروع حالي. إذا لم يكن لديك حساب على Gmail أو Google Workspace، عليك إنشاء حساب.

اسم المشروع هو الاسم المعروض للمشاركين في هذا المشروع. وهي سلسلة أحرف لا تستخدمها Google APIs. ويمكنك تعديلها في أي وقت.
يكون رقم تعريف المشروع فريدًا في جميع مشاريع Google Cloud وغير قابل للتغيير (لا يمكن تغييره بعد تحديده). تنشئ Cloud Console سلسلة فريدة تلقائيًا. فعادةً لا تهتم بما هو. في معظم الدروس التطبيقية حول الترميز، يجب الإشارة إلى رقم تعريف المشروع (الذي يتم تحديده عادةً على أنّه PROJECT_ID). وإذا لم يعجبك رقم التعريف الذي تم إنشاؤه، يمكنك إنشاء رقم تعريف عشوائي آخر. ويمكنك بدلاً من ذلك تجربة طلبك الخاص ومعرفة ما إذا كان متاحًا. ولا يمكن تغييره بعد هذه الخطوة ويبقى طوال مدة المشروع.
لمعلوماتك، هناك قيمة ثالثة، وهي رقم المشروع، الذي تستخدمه بعض واجهات برمجة التطبيقات. اطّلِع على مزيد من المعلومات حول هذه القيم الثلاث في المستندات.

بعد ذلك، عليك تفعيل الفوترة في Cloud Console لاستخدام الموارد/واجهات برمجة التطبيقات في Cloud. لن يؤدي إكمال هذا الدرس التطبيقي حول الترميز إلى فرض أي تكاليف، إن وُجدت. لإيقاف تشغيل الموارد لتجنب تحمُّل الفواتير إلى ما هو أبعد من هذا البرنامج التعليمي، يمكنك حذف الموارد التي أنشأتها أو حذف المشروع. يكون مستخدمو Google Cloud الجدد مؤهَّلون للانضمام إلى برنامج فترة تجريبية مجانية بقيمة 300 دولار أمريكي.

بدء Cloud Shell

يمكنك إدارة Google Cloud عن بُعد من الكمبيوتر المحمول، إلا أنّك ستستخدم في هذا الدرس التطبيقي Cloud Shell، وهي بيئة سطر أوامر يتم تشغيلها في السحابة الإلكترونية.

تفعيل Cloud Shell

من Cloud Console، انقر على تفعيل Cloud Shell .

إذا كانت هذه هي المرة الأولى التي تبدأ فيها Cloud Shell، ستظهر لك شاشة وسيطة تصف ماهيتها. إذا ظهرت لك شاشة وسيطة، انقر على متابعة.

من المفترَض أن تستغرق عملية توفير المتطلبات اللازمة والاتصال بخدمة Cloud Shell بضع دقائق فقط.

يتم تحميل هذا الجهاز الافتراضي مع جميع أدوات التطوير اللازمة. وتوفّر هذه الشبكة دليلاً رئيسيًا دائمًا بسعة 5 غيغابايت ويتم تشغيله في Google Cloud، ما يحسّن بشكل كبير من أداء الشبكة والمصادقة. يمكنك تنفيذ معظم عملك، إن لم يكن كلّه، في هذا الدرس التطبيقي حول الترميز باستخدام متصفّح.

بعد الربط بخدمة Cloud Shell، من المفترض أن تتأكّد من أنّه تمّت مصادقتك وأنّ المشروع مضبوط على رقم تعريف مشروعك.

شغِّل الأمر التالي في Cloud Shell لتأكيد مصادقتك:

gcloud auth list

مخرجات الأمر

 Credentialed Accounts
ACTIVE  ACCOUNT
*       <my_account>@<my_domain.com>

To set the active account, run:
    $ gcloud config set account `ACCOUNT`

شغّل الأمر التالي في Cloud Shell للتأكد من معرفة الأمر gcloud بمشروعك:

gcloud config list project

مخرجات الأمر

[core]
project = <PROJECT_ID>

إذا لم يكن كذلك، يمكنك تعيينه من خلال هذا الأمر:

gcloud config set project <PROJECT_ID>

مخرجات الأمر

Updated property [core/project].

3. إعداد البيئة

قبل أن تتمكن من البدء في استخدام واجهة برمجة تطبيقات Speech-to-Text API، شغِّل الأمر التالي في Cloud Shell لتفعيل واجهة برمجة التطبيقات:

gcloud services enable speech.googleapis.com

ينبغي أن تظهر لك على النحو التالي:

Operation "operations/..." finished successfully.

يمكنك الآن استخدام واجهة برمجة التطبيقات Speech-to-Text API.

انتقِل إلى الدليل الرئيسي:

cd ~

أنشئ بيئة بايثون افتراضية لعزل التبعيات:

virtualenv venv-speech

تفعيل البيئة الافتراضية:

source venv-speech/bin/activate

تثبيت IPython ومكتبة برامج واجهة برمجة التطبيقات Speech-to-Text API:

pip install ipython google-cloud-speech

ينبغي أن تظهر لك على النحو التالي:

...
Installing collected packages: ..., ipython, google-cloud-speech
Successfully installed ... google-cloud-speech-2.25.1 ...

أنت الآن جاهز لاستخدام مكتبة برامج واجهة برمجة التطبيقات Speech-to-Text API.

في الخطوات التالية، ستستخدم مترجمًا تفاعليًا بلغة Python يُسمى IPython، وقد تم تثبيته في الخطوة السابقة. يمكنك بدء جلسة من خلال تشغيل ipython في Cloud Shell:

ipython

ينبغي أن تظهر لك على النحو التالي:

Python 3.9.2 (default, Feb 28 2021, 17:03:44)
Type 'copyright', 'credits' or 'license' for more information
IPython 8.18.1 -- An enhanced Interactive Python. Type '?' for help.

In [1]:

أنت على استعداد لتقديم طلبك الأول...

4. تحويل الملفات الصوتية إلى نص

في هذا القسم، سيتم تحويل الصوت إلى نص في ملف صوتي باللغة الإنجليزية.

انسخ الرمز التالي إلى جلسة IPython:

from google.cloud import speech


def speech_to_text(
    config: speech.RecognitionConfig,
    audio: speech.RecognitionAudio,
) -> speech.RecognizeResponse:
    client = speech.SpeechClient()

    # Synchronous speech recognition request
    response = client.recognize(config=config, audio=audio)

    return response


def print_response(response: speech.RecognizeResponse):
    for result in response.results:
        print_result(result)


def print_result(result: speech.SpeechRecognitionResult):
    best_alternative = result.alternatives[0]
    print("-" * 80)
    print(f"language_code: {result.language_code}")
    print(f"transcript:    {best_alternative.transcript}")
    print(f"confidence:    {best_alternative.confidence:.0%}")

خصِّص بعض الوقت لدراسة الرمز البرمجي والتعرّف على كيفية استخدامه طريقة مكتبة برامج recognize لتحويل الصوت إلى نص في ملف صوتي*.* تشير المَعلمة config إلى كيفية معالجة الطلب، وتحدّد المَعلمة audio البيانات الصوتية التي يجب التعرّف عليها.

إرسال طلب:

config = speech.RecognitionConfig(
    language_code="en",
)
audio = speech.RecognitionAudio(
    uri="gs://cloud-samples-data/speech/brooklyn_bridge.flac",
)

response = speech_to_text(config, audio)
print_response(response)

من المفترض أن يظهر لك الناتج التالي:

--------------------------------------------------------------------------------
language_code: en-us
transcript:    how old is the Brooklyn Bridge
confidence:    98%

تعديل الإعدادات لتفعيل علامات الترقيم التلقائية وإرسال طلب جديد:

config.enable_automatic_punctuation = True

response = speech_to_text(config, audio)
print_response(response)

من المفترض أن يظهر لك الناتج التالي:

--------------------------------------------------------------------------------
language_code: en-us
transcript:    How old is the Brooklyn Bridge?
confidence:    98%

ملخّص

في هذه الخطوة، تمكّنت من تحويل الصوت إلى نص في ملف صوتي باللغة الإنجليزية باستخدام معلَمات مختلفة، وطباعة النتيجة. يمكنك قراءة المزيد حول تحويل الملفات الصوتية إلى نص.

5. الحصول على الطوابع الزمنية للكلمات

يمكن لميزة "تحويل الكلام إلى نص" رصد الفروقات الزمنية (الطوابع الزمنية) للمحتوى الصوتي المحوّل. تعرض الفواصل الزمنية بداية ونهاية كل كلمة منطوقة في الصوت المُقدَّم. تمثّل قيمة معادلة الوقت مقدار الوقت المنقضي من بداية الصوت، بزيادات تبلغ 100 ملي ثانية.

لتحويل ملف صوتي يتضمّن الطوابع الزمنية للكلمات، عليك تعديل الرمز عن طريق نسخ ما يلي إلى جلسة IPython:

def print_result(result: speech.SpeechRecognitionResult):
    best_alternative = result.alternatives[0]
    print("-" * 80)
    print(f"language_code: {result.language_code}")
    print(f"transcript:    {best_alternative.transcript}")
    print(f"confidence:    {best_alternative.confidence:.0%}")
    print("-" * 80)
    for word in best_alternative.words:
        start_s = word.start_time.total_seconds()
        end_s = word.end_time.total_seconds()
        print(f"{start_s:>7.3f} | {end_s:>7.3f} | {word.word}")

خصِّص بعض الوقت لدراسة الرمز البرمجي والتعرّف على كيفية تحويله إلى نص من ملف صوتي يتضمّن الطوابع الزمنية للكلمات*.* تطلب المَعلمة enable_word_time_offsets من واجهة برمجة التطبيقات عرض الفواصل الزمنية لكل كلمة (يُرجى الاطّلاع على المستند للحصول على مزيد من التفاصيل).

إرسال طلب:

config = speech.RecognitionConfig(
    language_code="en",
    enable_automatic_punctuation=True,
    enable_word_time_offsets=True,
)
audio = speech.RecognitionAudio(
    uri="gs://cloud-samples-data/speech/brooklyn_bridge.flac",
)

response = speech_to_text(config, audio)
print_response(response)

من المفترض أن يظهر لك الناتج التالي:

--------------------------------------------------------------------------------
language_code: en-us
transcript:    How old is the Brooklyn Bridge?
confidence:    98%
--------------------------------------------------------------------------------
  0.000 |   0.300 | How
  0.300 |   0.600 | old
  0.600 |   0.800 | is
  0.800 |   0.900 | the
  0.900 |   1.100 | Brooklyn
  1.100 |   1.400 | Bridge?

ملخّص

في هذه الخطوة، تمكّنت من تحويل الصوت إلى نص في ملف صوتي باللغة الإنجليزية يتضمّن الطوابع الزمنية للكلمات وطباعة النتيجة. مزيد من المعلومات حول الحصول على الطوابع الزمنية للكلمات

6. تحويل الصوت إلى نص بلغات مختلفة

تتعرّف واجهة برمجة التطبيقات Speech-to-Text API على أكثر من 125 لغة ومتغيّرًا. يمكنك العثور على قائمة باللغات المتوافقة هنا.

في هذا القسم، سيتم تحويل الصوت إلى نص في ملف صوتي فرنسي.

لتحويل الملف الصوتي الفرنسي، يمكنك تعديل الرمز عن طريق نسخ ما يلي إلى جلسة IPython:

config = speech.RecognitionConfig(
    language_code="fr-FR",
    enable_automatic_punctuation=True,
    enable_word_time_offsets=True,
)
audio = speech.RecognitionAudio(
    uri="gs://cloud-samples-data/speech/corbeau_renard.flac",
)

response = speech_to_text(config, audio)
print_response(response)

من المفترض أن يظهر لك الناتج التالي:

--------------------------------------------------------------------------------
language_code: fr-fr
transcript:    Maître corbeau sur un arbre perché Tenait dans son bec un fromage maître Renard par l'odeur alléché lui tint à peu près ce langage et bonjour monsieur du corbeau.
confidence:    94%
--------------------------------------------------------------------------------
  0.000 |   0.700 | Maître
  0.700 |   1.100 | corbeau
  1.100 |   1.300 | sur
  1.300 |   1.600 | un
  1.600 |   1.700 | arbre
  1.700 |   2.000 | perché
  2.000 |   3.000 | Tenait
  3.000 |   3.000 | dans
  3.000 |   3.200 | son
  3.200 |   3.500 | bec
  3.500 |   3.700 | un
  3.700 |   3.800 | fromage
...
 10.800 |  11.800 | monsieur
 11.800 |  11.900 | du
 11.900 |  12.100 | corbeau.

ملخّص

في هذه الخطوة، تمكّنت من تحويل الصوت في ملف صوتي فرنسي إلى نص وطباعة النتيجة. يمكنك الاطّلاع على المزيد من المعلومات حول اللغات المعتمَدة.

7. تهانينا!

لقد تعلمت كيفية استخدام واجهة برمجة تطبيقات Speech-to-Text API باستخدام Python لتنفيذ أنواع مختلفة من تحويل الصوت إلى نص في الملفات الصوتية.

تَنظيم

لتنظيف بيئة التطوير، من Cloud Shell:

إذا كنت لا تزال في جلسة IPython، يُرجى الرجوع إلى واجهة الأوامر: exit
التوقف عن استخدام بيئة Python الافتراضية: deactivate
حذف مجلد البيئة الافتراضية: cd ~ ; rm -rf ./venv-speech

لحذف مشروعك على Google Cloud، اتّبِع الخطوات التالية من Cloud Shell:

استرداد رقم تعريف مشروعك الحالي: PROJECT_ID=$(gcloud config get-value core/project)
تأكَّد من أنّ هذا هو المشروع الذي تريد حذفه: echo $PROJECT_ID.
حذف المشروع: gcloud projects delete $PROJECT_ID

مزيد من المعلومات

لاختبار العرض التوضيحي في المتصفّح: https://cloud.google.com/speech-to-text
المستندات المتعلّقة بميزة "تحويل الكلام إلى نص": https://cloud.google.com/speech-to-text/docs
Python على Google Cloud: https://cloud.google.com/python
مكتبات عميل Cloud للغة Python: https://github.com/googleapis/google-cloud-python

الترخيص

هذا العمل مرخّص بموجب رخصة المشاع الإبداعي 2.0 مع نسب العمل إلى مؤلف عام.

الإبلاغ عن خطأ