1. Tổng quan
API Chuyển văn bản sang lời nói của Google Cloud cho phép nhà phát triển thêm lời nói nhân tạo, nghe tự nhiên của con người vào các ứng dụng. API Chuyển văn bản sang lời nói sẽ chuyển đổi dữ liệu đầu vào ở dạng văn bản hoặc Ngôn ngữ đánh dấu tổng hợp lời nói (SSML) thành dữ liệu âm thanh như MP3 hoặc LINEAR16 (phương thức mã hoá dùng trong tệp WAV).
Trong lớp học lập trình này, bạn sẽ tập trung vào việc sử dụng API Chuyển văn bản sang lời nói bằng Node.js. Bạn sẽ tìm hiểu cách liệt kê các giọng nói có sẵn và tổng hợp âm thanh từ văn bản.
Kiến thức bạn sẽ học được
- Cách sử dụng Cloud Shell
- Cách bật API Chuyển văn bản sang lời nói
- Cách xác thực yêu cầu API
- Cách cài đặt thư viện ứng dụng Google Cloud cho Node.js
- Cách liệt kê những giọng nói có sẵn
- Cách tổng hợp âm thanh từ văn bản
Bạn cần có
- Một dự án trên Google Cloud Platform
- Một trình duyệt, chẳng hạn như Chrome hoặc Firefox
- Quen thuộc với Node.js
Khảo sát
Bạn sẽ sử dụng hướng dẫn này như thế nào?
Bạn đánh giá trải nghiệm của bạn với Node.js như thế nào?
Bạn đánh giá trải nghiệm sử dụng các dịch vụ của Google Cloud Platform như thế nào?
2. Thiết lập và yêu cầu
Thiết lập môi trường theo tiến độ riêng
- Đăng nhập vào Cloud Console rồi tạo dự án mới hoặc sử dụng lại dự án hiện có. (Nếu chưa có tài khoản Gmail hoặc G Suite, bạn phải tạo một tài khoản.)
Xin lưu ý rằng mã dự án là một tên riêng biệt trong tất cả dự án Google Cloud (tên ở trên đã được sử dụng nên sẽ không phù hợp với bạn!). Lớp này sẽ được đề cập sau trong lớp học lập trình này là PROJECT_ID
.
- Tiếp theo, bạn sẽ cần bật tính năng thanh toán trong Cloud Console để sử dụng tài nguyên của Google Cloud.
Việc chạy qua lớp học lập trình này sẽ không tốn nhiều chi phí. Hãy nhớ làm theo mọi hướng dẫn trong phần "Dọn dẹp" sẽ tư vấn cho bạn cách tắt tài nguyên để bạn không phải chịu thanh toán ngoài hướng dẫn này. Người dùng mới của Google Cloud đủ điều kiện tham gia chương trình Dùng thử miễn phí 300 USD.
Khởi động Cloud Shell
Mặc dù bạn có thể vận hành Google Cloud từ xa trên máy tính xách tay, nhưng trong lớp học lập trình này, bạn sẽ sử dụng Google Cloud Shell, một môi trường dòng lệnh chạy trong Đám mây.
Kích hoạt Cloud Shell
- Trong Cloud Console, hãy nhấp vào Kích hoạt Cloud Shell
.
Nếu trước đây chưa từng khởi động Cloud Shell, bạn sẽ được trình bày một màn hình trung gian (dưới màn hình đầu tiên) mô tả về ứng dụng này. Nếu trường hợp đó xảy ra, hãy nhấp vào Tiếp tục (và bạn sẽ không thấy thông báo đó nữa). Màn hình một lần đó sẽ có dạng như sau:
Quá trình cấp phép và kết nối với Cloud Shell chỉ mất vài phút.
Máy ảo này chứa tất cả các công cụ phát triển mà bạn cần. Dịch vụ này cung cấp thư mục gốc 5 GB ổn định và chạy trong Google Cloud, giúp nâng cao đáng kể hiệu suất và khả năng xác thực của mạng. Trong lớp học lập trình này, đa số mọi người đều có thể thực hiện chỉ bằng một trình duyệt hoặc Chromebook.
Sau khi kết nối với Cloud Shell, bạn sẽ thấy mình đã được xác thực và dự án đã được đặt thành mã dự án.
- Chạy lệnh sau trong Cloud Shell để xác nhận rằng bạn đã được xác thực:
gcloud auth list
Kết quả lệnh
Credentialed Accounts ACTIVE ACCOUNT * <my_account>@<my_domain.com> To set the active account, run: $ gcloud config set account `ACCOUNT`
gcloud config list project
Kết quả lệnh
[core] project = <PROJECT_ID>
Nếu chưa, bạn có thể thiết lập chế độ này bằng lệnh sau:
gcloud config set project <PROJECT_ID>
Kết quả lệnh
Updated property [core/project].
3. Bật API chuyển văn bản sang lời nói
Bạn phải bật API thì mới có thể bắt đầu sử dụng API Chuyển văn bản sang lời nói. Bạn có thể bật API này bằng cách dùng lệnh sau trong Cloud Shell:
gcloud services enable texttospeech.googleapis.com
4. Xác thực các yêu cầu API
Để gửi yêu cầu tới API Chuyển văn bản sang lời nói, bạn cần sử dụng Tài khoản dịch vụ. Tài khoản dịch vụ thuộc về dự án của bạn và tài khoản này được thư viện Node.js của ứng dụng Google sử dụng để tạo các yêu cầu API chuyển văn bản sang lời nói. Giống như mọi tài khoản người dùng khác, tài khoản dịch vụ được đại diện bằng địa chỉ email. Trong phần này, bạn sẽ sử dụng Cloud SDK để tạo một tài khoản dịch vụ, sau đó tạo thông tin xác thực mà bạn cần để xác thực là tài khoản dịch vụ.
Trước tiên, hãy đặt một biến môi trường bằng GOOGLE_CLOUD_PROJECT
mà bạn sẽ sử dụng trong suốt lớp học lập trình này:
export GOOGLE_CLOUD_PROJECT=$(gcloud config get-value core/project)
Tiếp theo, hãy tạo một tài khoản dịch vụ mới để truy cập API Chuyển văn bản sang lời nói bằng cách sử dụng:
gcloud iam service-accounts create my-text-to-speech-sa \
--display-name "my text-to-speech codelab service account"
Tiếp theo, hãy tạo thông tin đăng nhập mà mã Node.js sẽ sử dụng để đăng nhập làm tài khoản dịch vụ mới của bạn. Tạo các thông tin đăng nhập này và lưu dưới dạng tệp JSON "~/key.json" bằng cách dùng lệnh sau:
gcloud iam service-accounts keys create ~/key.json \
--iam-account my-text-to-speech-sa@${GOOGLE_CLOUD_PROJECT}.iam.gserviceaccount.com
Cuối cùng, hãy đặt biến môi trường GOOGLE_APPLICATION_CREDENTIALS
(được thư viện Node.js của API Chuyển văn bản sang lời nói sử dụng) để tìm thông tin đăng nhập của bạn. Bạn phải đặt biến môi trường thành đường dẫn đầy đủ của tệp JSON chứa thông tin đăng nhập mà bạn đã tạo bằng cách sử dụng:
export GOOGLE_APPLICATION_CREDENTIALS="/home/${USER}/key.json"
5. Cài đặt thư viện ứng dụng API chuyển văn bản sang lời nói của Google Cloud cho Node.js
Trước tiên, hãy tạo một dự án mà bạn sẽ sử dụng để chạy phòng thí nghiệm API Văn bản sang lời nói này, khởi chạy gói Node.js mới trong thư mục bạn chọn:
npm init
Đối tác phân bổ giá trị gia tăng đặt ra một số câu hỏi về cấu hình dự án, chẳng hạn như tên và phiên bản. Đối với mỗi câu hỏi, hãy nhấn ENTER
để chấp nhận các giá trị mặc định. Điểm truy cập mặc định là tệp có tên index.js
.
Tiếp theo, hãy cài đặt thư viện Google Cloud Speech cho dự án:
npm install --save @google-cloud/text-to-speech
Để được hướng dẫn thêm về cách thiết lập quy trình phát triển Node.js cho Google Cloud, vui lòng xem Hướng dẫn thiết lập.
Bây giờ, bạn đã sẵn sàng sử dụng API Chuyển văn bản sang lời nói!
6. Liệt kê những giọng nói có sẵn
Trong phần này, trước tiên, bạn sẽ liệt kê tất cả giọng nói hiện có bằng tiếng Anh để tổng hợp âm thanh.
Chuyển đến tệp index.js
bên trong và thay thế mã bằng đoạn mã sau:
'use strict';
/**
* Lists available voices for the specified language.
*
* @param {string} languageCode - The language code.
*/
async function listVoices(languageCode) {
const textToSpeech = require('@google-cloud/text-to-speech');
const client = new textToSpeech.TextToSpeechClient();
const [result] = await client.listVoices({languageCode});
const voices = result.voices;
voices.forEach((voice) => {
console.log(`${voice.name} (${voice.ssmlGender}): ${voice.languageCodes}`);
});
}
listVoices('en');
Hãy dành một hoặc hai phút để nghiên cứu mã. Chạy ứng dụng:
node .
Bạn sẽ thấy kết quả sau đây:
en-US-Standard-A (MALE): en-US
en-US-Standard-B (MALE): en-US
en-US-Standard-C (FEMALE): en-US
en-US-Standard-D (MALE): en-US
en-US-Standard-E (FEMALE): en-US
en-US-Standard-F (FEMALE): en-US
...
7. Tổng hợp âm thanh từ văn bản
Bạn có thể sử dụng API Chuyển văn bản sang lời nói để chuyển đổi một chuỗi thành dữ liệu âm thanh. Bạn có thể định cấu hình đầu ra của tổng hợp giọng nói theo nhiều cách, bao gồm chọn một giọng nói duy nhất hoặc điều chỉnh đầu ra về cao độ, âm lượng, tốc độ nói và tốc độ lấy mẫu.
Chuyển đến tệp index.js
bên trong và nối đoạn mã sau:
/**
* Sythesizes sample text into an .mp3 file.
*/
async function synthesize() {
const textToSpeech = require('@google-cloud/text-to-speech');
const fs = require('fs');
const util = require('util');
const client = new textToSpeech.TextToSpeechClient();
const text = 'This is a demonstration of the Google Cloud Text-to-Speech API';
const request = {
input: {text: text},
voice: {languageCode: 'en-US', ssmlGender: 'NEUTRAL'},
audioConfig: {audioEncoding: 'MP3'},
};
const [response] = await client.synthesizeSpeech(request);
// Write the binary audio content to a local file
const writeFile = util.promisify(fs.writeFile);
await writeFile('output.mp3', response.audioContent, 'binary');
console.log('Audio content written to file: output.mp3');
}
synthesize();
Hãy dành vài phút để nghiên cứu mã và xem cách mã này được sử dụng để tạo tệp âm thanh từ văn bản.
node .
Bạn sẽ thấy kết quả sau đây:
Audio content written to file "output.mp3"
8. Xin chúc mừng!
Bạn đã tìm hiểu cách sử dụng API Chuyển văn bản sang lời nói bằng Node.js để thực hiện nhiều loại bản chép lời trên tệp âm thanh!
Dọn dẹp
Để tránh bị tính phí vào tài khoản Google Cloud Platform cho các tài nguyên được sử dụng trong hướng dẫn bắt đầu nhanh này, hãy làm như sau:
- Truy cập vào Bảng điều khiển Cloud Platform.
- Chọn dự án bạn muốn tắt, sau đó nhấp vào "Xoá" ở trên cùng: thao tác này sẽ lên lịch xoá dự án.
Tìm hiểu thêm
- API chuyển văn bản sang lời nói của Google Cloud: https://cloud.google.com/text-to-speech/docs
- Node.js trên Google Cloud Platform: https://cloud.google.com/nodejs/
- Ứng dụng Node.js của Google Cloud: https://googlecloudplatform.github.io/google-cloud-node/
Giấy phép
Tác phẩm này được cấp phép theo Giấy phép chung Ghi nhận tác giả Creative Commons 2.0.