Эта страница переведена с помощью Cloud Translation API.

Использование API преобразования речи в текст с Python

1. Обзор

API преобразования речи в текст позволяет разработчикам конвертировать аудио в текст на более чем 125 языках и их вариантах, используя мощные модели нейронных сетей в удобном для использования API.

В этом руководстве вы сосредоточитесь на использовании API преобразования речи в текст с помощью Python.

Что вы узнаете

Как настроить свою среду
Как расшифровать аудиофайлы на английском языке
Как расшифровать аудиофайлы с помощью временных меток.
Как расшифровать аудиофайлы на разных языках

Что вам понадобится

Проект Google Cloud
Браузер, например Chrome или Firefox.
Знание языка Python

Опрос

Как вы будете использовать этот учебный материал?

Прочитайте только от начала до конца.

Прочитайте текст и выполните упражнения.

Как бы вы оценили свой опыт работы с Python?

Новичок

Средний

Профессионал

Как бы вы оценили свой опыт использования сервисов Google Cloud?

Новичок

Средний

Профессионал

2. Настройка и требования

Настройка среды для самостоятельного обучения

Войдите в консоль Google Cloud и создайте новый проект или используйте существующий. Если у вас еще нет учетной записи Gmail или Google Workspace, вам необходимо ее создать .

Название проекта — это отображаемое имя участников данного проекта. Это строка символов, не используемая API Google. Вы всегда можете его изменить.
Идентификатор проекта уникален для всех проектов Google Cloud и является неизменяемым (его нельзя изменить после установки). Консоль Cloud автоматически генерирует уникальную строку; обычно вам неважно, какая она. В большинстве практических заданий вам потребуется указать идентификатор вашего проекта (обычно обозначается как PROJECT_ID ). Если сгенерированный идентификатор вас не устраивает, вы можете сгенерировать другой случайный идентификатор. В качестве альтернативы вы можете попробовать свой собственный и посмотреть, доступен ли он. После этого шага его нельзя изменить, и он сохраняется на протяжении всего проекта.
К вашему сведению, существует третье значение — номер проекта , которое используется некоторыми API. Подробнее обо всех трех значениях можно узнать в документации .

Далее вам потребуется включить оплату в консоли Cloud для использования ресурсов/API Cloud. Выполнение этого практического задания не потребует больших затрат, если вообще потребует. Чтобы отключить ресурсы и избежать дополнительных расходов после завершения этого урока, вы можете удалить созданные ресурсы или удалить проект. Новые пользователи Google Cloud имеют право на бесплатную пробную версию стоимостью 300 долларов США .

Запустить Cloud Shell

Хотя Google Cloud можно управлять удаленно с ноутбука, в этом практическом занятии вы будете использовать Cloud Shell — среду командной строки, работающую в облаке.

Активировать Cloud Shell

В консоли Cloud нажмите «Активировать Cloud Shell» . .

Если вы запускаете Cloud Shell впервые, вам будет показан промежуточный экран с описанием его возможностей. Если вам был показан промежуточный экран, нажмите «Продолжить» .

Подготовка и подключение к Cloud Shell займут всего несколько минут.

Эта виртуальная машина оснащена всеми необходимыми инструментами разработки. Она предоставляет постоянный домашний каталог объемом 5 ГБ и работает в облаке Google, что значительно повышает производительность сети и аутентификацию. Большая часть, если не вся, ваша работа в этом практическом задании может быть выполнена с помощью браузера.

После подключения к Cloud Shell вы увидите, что прошли аутентификацию и что проект настроен на ваш идентификатор проекта.

Выполните следующую команду в Cloud Shell, чтобы подтвердить свою аутентификацию:

gcloud auth list

вывод команды

 Credentialed Accounts
ACTIVE  ACCOUNT
*       <my_account>@<my_domain.com>

To set the active account, run:
    $ gcloud config set account `ACCOUNT`

Выполните следующую команду в Cloud Shell, чтобы убедиться, что команда gcloud знает о вашем проекте:

gcloud config list project

вывод команды

[core]
project = <PROJECT_ID>

Если это не так, вы можете установить это с помощью следующей команды:

gcloud config set project <PROJECT_ID>

вывод команды

Updated property [core/project].

3. Настройка среды

Прежде чем начать использовать API преобразования речи в текст, выполните следующую команду в Cloud Shell, чтобы включить API:

gcloud services enable speech.googleapis.com

Вы должны увидеть что-то подобное:

Operation "operations/..." finished successfully.

Теперь вы можете использовать API преобразования речи в текст!

Перейдите в свою домашнюю директорию:

cd ~

Создайте виртуальное окружение Python для изоляции зависимостей:

virtualenv venv-speech

Активируйте виртуальную среду:

source venv-speech/bin/activate

Установите IPython и клиентскую библиотеку Speech-to-Text API:

pip install ipython google-cloud-speech

Вы должны увидеть что-то подобное:

...
Installing collected packages: ..., ipython, google-cloud-speech
Successfully installed ... google-cloud-speech-2.25.1 ...

Теперь вы готовы использовать клиентскую библиотеку API преобразования речи в текст!

На следующих шагах вы будете использовать интерактивный интерпретатор Python под названием IPython , который вы установили на предыдущем шаге. Чтобы начать сессию, запустите ipython в Cloud Shell:

ipython

Вы должны увидеть что-то подобное:

Python 3.9.2 (default, Feb 28 2021, 17:03:44)
Type 'copyright', 'credits' or 'license' for more information
IPython 8.18.1 -- An enhanced Interactive Python. Type '?' for help.

In [1]:

Вы готовы отправить свой первый запрос...

4. Расшифровка аудиофайлов

В этом разделе вам предстоит расшифровать аудиофайл на английском языке.

Скопируйте следующий код в свою сессию IPython:

from google.cloud import speech


def speech_to_text(
    config: speech.RecognitionConfig,
    audio: speech.RecognitionAudio,
) -> speech.RecognizeResponse:
    client = speech.SpeechClient()

    # Synchronous speech recognition request
    response = client.recognize(config=config, audio=audio)

    return response


def print_response(response: speech.RecognizeResponse):
    for result in response.results:
        print_result(result)


def print_result(result: speech.SpeechRecognitionResult):
    best_alternative = result.alternatives[0]
    print("-" * 80)
    print(f"language_code: {result.language_code}")
    print(f"transcript:    {best_alternative.transcript}")
    print(f"confidence:    {best_alternative.confidence:.0%}")

Уделите немного времени изучению кода и посмотрите, как он использует метод клиентской библиотеки recognize для транскрипции аудиофайла*. Параметр config указывает, как обрабатывать запрос, а параметр audio задает аудиоданные, которые необходимо распознать.

Отправить запрос:

config = speech.RecognitionConfig(
    language_code="en",
)
audio = speech.RecognitionAudio(
    uri="gs://cloud-samples-data/speech/brooklyn_bridge.flac",
)

response = speech_to_text(config, audio)
print_response(response)

Вы должны увидеть следующий результат:

--------------------------------------------------------------------------------
language_code: en-us
transcript:    how old is the Brooklyn Bridge
confidence:    98%

Обновите конфигурацию, чтобы включить автоматическую пунктуацию, и отправьте новый запрос:

config.enable_automatic_punctuation = True

response = speech_to_text(config, audio)
print_response(response)

Вы должны увидеть следующий результат:

--------------------------------------------------------------------------------
language_code: en-us
transcript:    How old is the Brooklyn Bridge?
confidence:    98%

Краткое содержание

На этом этапе вы смогли расшифровать аудиофайл на английском языке, используя различные параметры, и распечатать результат. Подробнее о расшифровке аудиофайлов можно прочитать здесь.

5. Получение временных меток слов.

Функция преобразования речи в текст может определять временные смещения (временные метки) в расшифрованном аудио. Временные смещения показывают начало и конец каждого произнесенного слова в предоставленном аудиофайле. Значение временного смещения представляет собой количество времени, прошедшее с начала аудиофайла, с шагом в 100 мс.

Чтобы расшифровать аудиофайл с указанием временных меток слов, обновите свой код, скопировав следующий фрагмент в сессию IPython:

def print_result(result: speech.SpeechRecognitionResult):
    best_alternative = result.alternatives[0]
    print("-" * 80)
    print(f"language_code: {result.language_code}")
    print(f"transcript:    {best_alternative.transcript}")
    print(f"confidence:    {best_alternative.confidence:.0%}")
    print("-" * 80)
    for word in best_alternative.words:
        start_s = word.start_time.total_seconds()
        end_s = word.end_time.total_seconds()
        print(f"{start_s:>7.3f} | {end_s:>7.3f} | {word.word}")

Уделите немного времени изучению кода и посмотрите, как он расшифровывает аудиофайл с временными метками слов*.* Параметр enable_word_time_offsets указывает API возвращать временные смещения для каждого слова (подробнее см. в документации ).

Отправить запрос:

config = speech.RecognitionConfig(
    language_code="en",
    enable_automatic_punctuation=True,
    enable_word_time_offsets=True,
)
audio = speech.RecognitionAudio(
    uri="gs://cloud-samples-data/speech/brooklyn_bridge.flac",
)

response = speech_to_text(config, audio)
print_response(response)

Вы должны увидеть следующий результат:

--------------------------------------------------------------------------------
language_code: en-us
transcript:    How old is the Brooklyn Bridge?
confidence:    98%
--------------------------------------------------------------------------------
  0.000 |   0.300 | How
  0.300 |   0.600 | old
  0.600 |   0.800 | is
  0.800 |   0.900 | the
  0.900 |   1.100 | Brooklyn
  1.100 |   1.400 | Bridge?

Краткое содержание

На этом этапе вы смогли расшифровать аудиофайл на английском языке, добавив временные метки к словам, и распечатать результат. Подробнее о получении временных меток к словам можно прочитать здесь.

6. Транскрибирование на разных языках.

API преобразования речи в текст распознает более 125 языков и их вариантов! Список поддерживаемых языков можно найти здесь .

В этом разделе вам предстоит расшифровать аудиофайл на французском языке.

Для расшифровки французского аудиофайла обновите свой код, скопировав следующий фрагмент в сессию IPython:

config = speech.RecognitionConfig(
    language_code="fr-FR",
    enable_automatic_punctuation=True,
    enable_word_time_offsets=True,
)
audio = speech.RecognitionAudio(
    uri="gs://cloud-samples-data/speech/corbeau_renard.flac",
)

response = speech_to_text(config, audio)
print_response(response)

Вы должны увидеть следующий результат:

--------------------------------------------------------------------------------
language_code: fr-fr
transcript:    Maître corbeau sur un arbre perché Tenait dans son bec un fromage maître Renard par l'odeur alléché lui tint à peu près ce langage et bonjour monsieur du corbeau.
confidence:    94%
--------------------------------------------------------------------------------
  0.000 |   0.700 | Maître
  0.700 |   1.100 | corbeau
  1.100 |   1.300 | sur
  1.300 |   1.600 | un
  1.600 |   1.700 | arbre
  1.700 |   2.000 | perché
  2.000 |   3.000 | Tenait
  3.000 |   3.000 | dans
  3.000 |   3.200 | son
  3.200 |   3.500 | bec
  3.500 |   3.700 | un
  3.700 |   3.800 | fromage
...
 10.800 |  11.800 | monsieur
 11.800 |  11.900 | du
 11.900 |  12.100 | corbeau.

Краткое содержание

На этом этапе вы смогли расшифровать французский аудиофайл и распечатать результат. Подробнее о поддерживаемых языках можно узнать здесь.

7. Поздравляем!

Вы научились использовать API преобразования речи в текст на языке Python для выполнения различных видов транскрипции аудиофайлов!

Уборка

Для очистки среды разработки используйте Cloud Shell:

Если вы всё ещё находитесь в сессии IPython, вернитесь в командную оболочку: exit
Прекратите использование виртуальной среды Python: deactivate
Удалите папку виртуального окружения: cd ~ ; rm -rf ./venv-speech

Чтобы удалить свой проект Google Cloud, используйте Cloud Shell:

Получите текущий идентификатор проекта: PROJECT_ID=$(gcloud config get-value core/project)
Убедитесь, что это именно тот проект, который вы хотите удалить: echo $PROJECT_ID
Удалите проект: gcloud projects delete $PROJECT_ID

Узнать больше

Протестируйте демоверсию в своем браузере: https://cloud.google.com/speech-to-text
Документация по преобразованию речи в текст: https://cloud.google.com/speech-to-text/docs
Python в Google Cloud: https://cloud.google.com/python
Клиентские библиотеки для облачных сервисов на Python: https://github.com/googleapis/google-cloud-python

Лицензия

Данная работа распространяется под лицензией Creative Commons Attribution 2.0 Generic.

Использование API преобразования речи в текст с Python Оптимизируйте свои подборки Сохраняйте и классифицируйте контент в соответствии со своими настройками.

1. Обзор

Что вы узнаете

Что вам понадобится

Опрос

Как вы будете использовать этот учебный материал?

Как бы вы оценили свой опыт работы с Python?

Как бы вы оценили свой опыт использования сервисов Google Cloud?

2. Настройка и требования

Настройка среды для самостоятельного обучения

Запустить Cloud Shell

Активировать Cloud Shell

3. Настройка среды

4. Расшифровка аудиофайлов

Краткое содержание

5. Получение временных меток слов.

Краткое содержание

6. Транскрибирование на разных языках.

Краткое содержание

7. Поздравляем!

Уборка

Узнать больше

Лицензия

Использование API преобразования речи в текст с Python