此页面由 Cloud Translation API 翻译。

如何在 Cloud Run 作业上运行批量推理

1. 简介

概览

在此 Codelab 中，您将使用 Cloud Run 作业，通过 Meta 的 Llama 3.2-1b LLM 和 vLLM 运行批量推理，而这些 LLM 和 vLLM 由 Cloud Run 作业 GPU 提供支持。您将使用 Cloud Run 卷装载将结果直接写入 Cloud Storage。

学习内容

如何使用 Cloud Run 作业 GPU 执行批量推理
如何使用 Cloud Run 卷装载写入 Cloud Storage

2. 准备工作

启用 API

在开始使用此 Codelab 之前，请运行以下命令来启用以下 API：

gcloud services enable run.googleapis.com \
    cloudbuild.googleapis.com \
    secretmanager.googleapis.com \
    artifactregistry.googleapis.com

GPU 配额

为受支持的区域申请增加配额。配额为 nvidia_l4_gpu_allocation_no_zonal_redundancy，位于 Cloud Run Admin API 下。

注意：如果您使用的是新项目，从启用 API 到此页面显示配额可能需要几分钟时间。

Hugging Face

此 Codelab 使用 Hugging Face 上托管的模型。如需获取此模型，请申请具有“读取”权限的 Hugging Face 用户访问令牌。您稍后会将其引用为 YOUR_HF_TOKEN。

您还需要同意使用条款才能使用该模型：https://huggingface.co/meta-llama/Llama-3.2-1B

3. 设置和要求

本部分包含有关如何设置以下资源的说明：

IAM 服务账号和关联的 IAM 权限。
Secret Manager Secret，用于存储您的 Hugging Face 令牌。
用于存储推理结果的 Cloud Storage 存储分区。

如需设置所需资源，请按以下步骤操作：

为此 Codelab 设置环境变量：

export PROJECT_ID=<your_project_id>
export REGION=<your_region>
export HF_TOKEN=<YOUR_HF_TOKEN>

export SERVICE_ACCOUNT=inference-service-account
export SERVICE_ACCOUNT_EMAIL=${SERVICE_ACCOUNT}@${PROJECT_ID}.iam.gserviceaccount.com
export SECRET_ID=hugging-face-token
export BUCKET_NAME=inference-codelab-${PROJECT_ID}

通过运行以下命令创建服务账号：

gcloud iam service-accounts create ${SERVICE_ACCOUNT} \
  --display-name="Service account for batch inference codelab"

使用 Secret Manager 存储 Hugging Face 访问令牌：

gcloud secrets create $SECRET_ID \
      --replication-policy="automatic"

printf $HF_TOKEN | gcloud secrets versions add $SECRET_ID --data-file=-

向您的服务账号授予 Secret Manager Secret Accessor 角色：

gcloud secrets add-iam-policy-binding $SECRET_ID \
  --member serviceAccount:$SERVICE_ACCOUNT_EMAIL \
  --role='roles/secretmanager.secretAccessor'

创建一个用于托管微调模型的存储分区：

gcloud storage buckets create -l us-central1 gs://${BUCKET_NAME}

向您的服务账号授予对相应存储分区的访问权限：

gcloud storage buckets add-iam-policy-binding gs://$BUCKET_NAME \
  --member=serviceAccount:$SERVICE_ACCOUNT_EMAIL \
  --role=roles/storage.objectAdmin

创建 Artifact Registry 制品库以存储容器映像。如果您之前在项目中使用了 Cloud Run 源代码部署，请跳过此步骤。

gcloud artifacts repositories create cloud-run-source-deploy \
    --repository-format=docker \
    --location=$REGION \
    --project=$PROJECT_ID

4. 创建 Cloud Run 作业

在本部分中，您将创建执行以下操作的代码：

从 Hugging Face 导入 Llama 模型
对模型执行批量推理。作业在此过程中使用单个 L4 GPU。
将结果写入本地磁盘。通过卷装载写入 Cloud Storage。

如需创建 Cloud Run 作业和 Dockerfile，请按以下步骤操作：

创建一个目录来托管微调作业代码：

mkdir codelab-inference-job
cd codelab-inference-job

创建名为 main.py 的文件

# SPDX-License-Identifier: Apache-2.0
from vllm import LLM, SamplingParams

# Sample prompts.
prompts = [
    "Cloud Run is",
    "The future of AI is",
    "The capital of Germany is",
    "python as a programming language is",
]
# Create a sampling params object.
sampling_params = SamplingParams(temperature=0.8, top_p=0.95)

# Create an LLM.
llm = LLM(model="meta-llama/Llama-3.2-1B")
# Generate texts from the prompts. The output is a list of RequestOutput objects
# that contain the prompt, generated text, and other information.
outputs = llm.generate(prompts, sampling_params)

# Save the outputs to disk
with open("/results/output.txt", "w") as f:
    for output in outputs:
        prompt = output.prompt
        generated_text = output.outputs[0].text
        f.write(f"Prompt: {prompt!r}, Generated text: {generated_text!r}\n")

print(f"Wrote {len(outputs)} to disk.")

创建 Dockerfile：

FROM python:3.12
ADD main.py .
RUN python -m pip install --upgrade pip setuptools
RUN pip install vllm
CMD ["python", "./main.py"]

5. 部署和执行作业

在此步骤中，您将使用 Cloud Run 源代码部署创建 Cloud Run 作业，然后执行该作业。此步骤还包括用于存储结果的 Cloud Run 卷装载标志。

创建 Cloud Run 作业：

gcloud run jobs deploy inference-job \
  --region $REGION \
  --source . \
  --gpu=1 \
  --set-secrets HF_TOKEN=${SECRET_ID}:latest \
  --add-volume name=results,type=cloud-storage,bucket=${BUCKET_NAME} \
  --add-volume-mount volume=results,mount-path=/results \
  --service-account $SERVICE_ACCOUNT_EMAIL

此命令会从源代码构建映像并部署作业。此操作需要一些时间才能完成。

执行作业：
```
gcloud run jobs execute inference-job --region $REGION --async
```
作业需要几分钟才能完成。您可以使用上一个命令的输出中提供的链接来查看状态。

确认成功

如需确认作业已成功执行，请查看作业的日志，如最后一个命令的输出所示。

检查 Cloud Storage 存储分区中的结果：

在控制台中：

前往 Cloud Storage。
选择以 inference-codelab 开头的存储分区。
选择 output.txt。
点击要求验证身份的网址，即可在浏览器中查看相应内容。

文件内容应为四个提示及其输出。

6. 恭喜！

恭喜您完成此 Codelab！

建议您查看 Cloud Run 文档。

所学内容

如何使用 Cloud Run 作业 GPU 执行批量推理
如何使用 Cloud Run 卷装载写入 Cloud Storage

7. 清理

如需删除 Cloud Run 作业，请前往 Cloud Run Cloud 控制台 (https://console.cloud.google.com/run)，然后删除 inference-job 作业。

如需删除整个项目，请前往管理资源，选择您在第 2 步中创建的项目，然后选择“删除”。如果您删除项目，则需要在 Cloud SDK 中更改项目。您可以运行 gcloud projects list 查看所有可用项目的列表。

如何在 Cloud Run 作业上运行批量推理 使用集合让一切井井有条 根据您的偏好保存内容并对其进行分类。