Sử dụng API Chuyển văn bản sang lời nói bằng C#

1. Tổng quan

Google Cloud Text-to-Speech API (Bản thử nghiệm) cho phép nhà phát triển đưa lời nói nhân tạo tự nhiên vào ứng dụng của họ dưới dạng âm thanh có thể phát. API Chuyển văn bản sang lời nói chuyển đổi văn bản hoặc dữ liệu đầu vào Ngôn ngữ đánh dấu tổng hợp lời nói (SSML) thành dữ liệu âm thanh như MP3 hoặc LINEAR16 (phương thức mã hoá được dùng trong tệp WAV).

Trong lớp học lập trình này, bạn sẽ tập trung vào việc sử dụng API Chuyển văn bản sang lời nói bằng C#. Bạn sẽ tìm hiểu cách liệt kê các giọng nói hiện có và tổng hợp âm thanh từ văn bản.

Kiến thức bạn sẽ học được

  • Cách sử dụng Cloud Shell
  • Cách bật API Chuyển văn bản sang lời nói
  • Cách xác thực các yêu cầu API
  • Cách cài đặt thư viện ứng dụng Google Cloud cho C#
  • Cách liệt kê các giọng nói có sẵn
  • Cách tổng hợp âm thanh từ văn bản

Bạn cần có

  • Một dự án trên Google Cloud Platform
  • Một trình duyệt, chẳng hạn như Chrome hoặc Firefox
  • Quen thuộc với việc sử dụng C#

Bản khảo sát

Bạn sẽ sử dụng hướng dẫn này như thế nào?

Chỉ đọc Đọc và hoàn thành bài tập

Bạn đánh giá thế nào về trải nghiệm của mình với C#?

Người mới bắt đầu Trung cấp Thành thạo

Bạn đánh giá thế nào về trải nghiệm sử dụng các dịch vụ của Google Cloud Platform?

Người mới bắt đầu Trung cấp Thành thạo

2. Thiết lập và yêu cầu

Thiết lập môi trường theo tốc độ của riêng bạn

  1. Đăng nhập vào Google Cloud Console rồi tạo một dự án mới hoặc sử dụng lại một dự án hiện có. Nếu chưa có tài khoản Gmail hoặc Google Workspace, bạn phải tạo một tài khoản.

295004821bab6a87.png

37d264871000675d.png

96d86d3d5655cdbe.png

  • Tên dự án là tên hiển thị của những người tham gia dự án này. Đây là một chuỗi ký tự mà các API của Google không sử dụng. Bạn luôn có thể cập nhật thông tin này.
  • Mã dự án là mã duy nhất trên tất cả các dự án trên Google Cloud và không thể thay đổi (bạn không thể thay đổi mã này sau khi đã đặt). Cloud Console sẽ tự động tạo một chuỗi duy nhất; thường thì bạn không cần quan tâm đến chuỗi này. Trong hầu hết các lớp học lập trình, bạn sẽ cần tham chiếu đến Mã dự án (thường được xác định là PROJECT_ID). Nếu không thích mã nhận dạng được tạo, bạn có thể tạo một mã nhận dạng ngẫu nhiên khác. Hoặc bạn có thể thử tên người dùng của riêng mình để xem tên đó có được chấp nhận hay không. Bạn không thể thay đổi tên này sau bước này và tên này sẽ tồn tại trong suốt thời gian của dự án.
  • Để bạn nắm được thông tin, có một giá trị thứ ba là Số dự án mà một số API sử dụng. Tìm hiểu thêm về cả 3 giá trị này trong tài liệu.
  1. Tiếp theo, bạn cần bật tính năng thanh toán trong Cloud Console để sử dụng các tài nguyên/API trên đám mây. Việc thực hiện lớp học lập trình này sẽ không tốn nhiều chi phí, nếu có. Để tắt các tài nguyên nhằm tránh bị tính phí ngoài phạm vi hướng dẫn này, bạn có thể xoá các tài nguyên đã tạo hoặc xoá dự án. Người dùng mới của Google Cloud đủ điều kiện tham gia chương trình Dùng thử miễn phí trị giá 300 USD.

Khởi động Cloud Shell

Mặc dù có thể vận hành Google Cloud từ xa trên máy tính xách tay, nhưng trong lớp học lập trình này, bạn sẽ sử dụng Google Cloud Shell, một môi trường dòng lệnh chạy trên Cloud.

Kích hoạt Cloud Shell

  1. Trong Cloud Console, hãy nhấp vào Kích hoạt Cloud Shell d1264ca30785e435.png.

cb81e7c8e34bc8d.png

Nếu đây là lần đầu tiên bạn khởi động Cloud Shell, bạn sẽ thấy một màn hình trung gian mô tả về Cloud Shell. Nếu bạn thấy màn hình trung gian, hãy nhấp vào Tiếp tục.

d95252b003979716.png

Quá trình cung cấp và kết nối với Cloud Shell chỉ mất vài giây.

7833d5e1c5d18f54.png

Máy ảo này được trang bị tất cả các công cụ phát triển cần thiết. Nền tảng này cung cấp một thư mục chính có dung lượng 5 GB và chạy trong Google Cloud, giúp tăng cường đáng kể hiệu suất mạng và hoạt động xác thực. Bạn có thể thực hiện hầu hết, nếu không muốn nói là tất cả, công việc của mình trong lớp học lập trình này bằng trình duyệt.

Sau khi kết nối với Cloud Shell, bạn sẽ thấy rằng mình đã được xác thực và dự án được đặt thành mã dự án của bạn.

  1. Chạy lệnh sau trong Cloud Shell để xác nhận rằng bạn đã được xác thực:
gcloud auth list

Đầu ra của lệnh

 Credentialed Accounts
ACTIVE  ACCOUNT
*       <my_account>@<my_domain.com>

To set the active account, run:
    $ gcloud config set account `ACCOUNT`
  1. Chạy lệnh sau trong Cloud Shell để xác nhận rằng lệnh gcloud biết về dự án của bạn:
gcloud config list project

Đầu ra của lệnh

[core]
project = <PROJECT_ID>

Nếu không, bạn có thể đặt nó bằng lệnh sau:

gcloud config set project <PROJECT_ID>

Đầu ra của lệnh

Updated property [core/project].

3. Bật Text-to-Speech API

Bạn phải bật Text-to-Speech API trước khi có thể bắt đầu sử dụng API này. Bạn có thể bật API bằng cách sử dụng lệnh sau trong Cloud Shell:

gcloud services enable texttospeech.googleapis.com

4. Cài đặt thư viện ứng dụng API Chuyển văn bản sang lời nói của Google Cloud cho C#

Trước tiên, hãy tạo một ứng dụng bảng điều khiển C# đơn giản mà bạn sẽ dùng để chạy các mẫu API Chuyển văn bản sang lời nói:

dotnet new console -n TextToSpeechApiDemo

Bạn sẽ thấy ứng dụng được tạo và các phần phụ thuộc được phân giải:

The template "Console Application" was created successfully.
Processing post-creation actions...
...
Restore succeeded.

Tiếp theo, hãy chuyển đến thư mục TextToSpeechApiDemo:

cd TextToSpeechApiDemo/

Và thêm gói Google.Cloud.TextToSpeech.V1 NuGet vào dự án:

dotnet add package Google.Cloud.TextToSpeech.V1
info : Adding PackageReference for package 'Google.Cloud.TextToSpeech.V1' into project '/home/atameldev/TextToSpeechDemo/TextToSpeechDemo.csproj'.
log  : Restoring packages for /home/atameldev/TextToSpeechDemo/TextToSpeechDemo.csproj...
...
info : PackageReference for package 'Google.Cloud.TextToSpeech.V1' version '1.0.0-beta01' added to file '/home/atameldev/TextToSpeechDemo/TextToSpeechDemo.csproj'.

Giờ đây, bạn đã sẵn sàng sử dụng Text-to-Speech API!

5. Liệt kê các giọng nói có sẵn

Trong phần này, trước tiên, bạn sẽ liệt kê tất cả các giọng nói có sẵn bằng tiếng Anh để tổng hợp âm thanh.

Trước tiên, hãy mở trình soạn thảo mã ở phía trên cùng bên phải của Cloud Shell:

fd3fc1303e63572.png

Chuyển đến tệp Program.cs bên trong thư mục TextToSpeechApiDemo rồi thay thế mã bằng đoạn mã sau:

using Google.Cloud.TextToSpeech.V1;
using System;

namespace TextToSpeechApiDemo
{
    class Program
    {
        static void Main(string[] args)
        {
            var client = TextToSpeechClient.Create();
            var response = client.ListVoices("en");
            foreach (var voice in response.Voices)
            {
                Console.WriteLine($"{voice.Name} ({voice.SsmlGender}); Language codes: {string.Join(", ", voice.LanguageCodes)}");
            }
        }
    }
}

Dành một hoặc hai phút để nghiên cứu mã này*.* Trong Cloud Shell, hãy chạy ứng dụng:

dotnet run

Bạn sẽ thấy kết quả sau đây:

en-US-Wavenet-D (Male); Language codes: en-US
en-AU-Wavenet-A (Female); Language codes: en-AU
en-AU-Wavenet-B (Male); Language codes: en-AU
en-AU-Wavenet-C (Female); Language codes: en-AU
en-AU-Wavenet-D (Male); Language codes: en-AU
en-GB-Wavenet-A (Female); Language codes: en-GB
en-GB-Wavenet-B (Male); Language codes: en-GB
en-GB-Wavenet-C (Female); Language codes: en-GB
...
en-GB-Standard-A (Female); Language codes: en-GB
en-GB-Standard-B (Male); Language codes: en-GB
en-AU-Standard-D (Male); Language codes: en-AU

Tóm tắt

Ở bước này, bạn có thể liệt kê tất cả các giọng nói có sẵn bằng tiếng Anh để tổng hợp âm thanh. Bạn cũng có thể xem danh sách đầy đủ các giọng nói có trên trang Các giọng nói được hỗ trợ.

6. Tổng hợp âm thanh từ văn bản

Bạn có thể sử dụng Text-to-Speech API để chuyển đổi một chuỗi thành dữ liệu âm thanh. Bạn có thể định cấu hình đầu ra của tính năng tổng hợp lời nói theo nhiều cách, bao gồm cả việc chọn một giọng nói riêng hoặc điều chỉnh đầu ra về cao độ, âm lượng, tốc độ nói và tốc độ lấy mẫu.

Để tổng hợp một tệp âm thanh từ văn bản, hãy chuyển đến tệp Program.cs bên trong thư mục TextToSpeechApiDemo rồi thay thế mã bằng đoạn mã sau:

using Google.Cloud.TextToSpeech.V1;
using System;
using System.IO;

namespace TextToSpeechApiDemo
{
    class Program
    {
        static void Main(string[] args)
        {
            var client = TextToSpeechClient.Create();

            // The input to be synthesized, can be provided as text or SSML.
            var input = new SynthesisInput
            {
                Text = "This is a demonstration of the Google Cloud Text-to-Speech API"
            };

            // Build the voice request.
            var voiceSelection = new VoiceSelectionParams
            {
                LanguageCode = "en-US",
                SsmlGender = SsmlVoiceGender.Female
            };

            // Specify the type of audio file.
            var audioConfig = new AudioConfig
            {
                AudioEncoding = AudioEncoding.Mp3
            };

            // Perform the text-to-speech request.
            var response = client.SynthesizeSpeech(input, voiceSelection, audioConfig);
            
            // Write the response to the output file.
            using (var output = File.Create("output.mp3"))
            {
                response.AudioContent.WriteTo(output);
            }
            Console.WriteLine("Audio content written to file \"output.mp3\"");
        }
    }
}

Dành một hoặc hai phút để nghiên cứu mã và xem cách mã này được dùng để tạo tệp âm thanh từ văn bản*.*

Trong Cloud Shell, hãy chạy ứng dụng:

dotnet run

Bạn sẽ thấy kết quả sau đây:

Audio content written to file "output.mp3"

Trong trình soạn thảo mã, bạn có thể tải tệp mp3 xuống và phát tệp đó trên máy cục bộ.

a4b9578505422dad.png

Tóm tắt

Trong bước này, bạn có thể sử dụng Text-to-Speech API để chuyển đổi một chuỗi thành tệp âm thanh mp3. Đọc thêm về cách Tạo tệp âm thanh giọng nói.

7. Xin chúc mừng!

Bạn đã tìm hiểu cách sử dụng API Chuyển văn bản sang lời nói bằng C# để thực hiện nhiều loại bản chép lời trên các tệp âm thanh!

Dọn dẹp

Để tránh bị tính phí cho tài khoản Google Cloud Platform đối với các tài nguyên được dùng trong hướng dẫn bắt đầu nhanh này, hãy làm như sau:

  • Truy cập vào Cloud Platform Console.
  • Chọn dự án mà bạn muốn tắt, sau đó nhấp vào "Xoá" ở trên cùng: thao tác này sẽ lên lịch xoá dự án.

Tìm hiểu thêm

Giấy phép

Tác phẩm này được cấp phép theo giấy phép Ghi công theo Creative Commons 2.0 Chung.