এই কোডল্যাব সম্পর্কে
1. ভূমিকা
ওভারভিউ
এই কোডল্যাবে, আপনি শিখবেন কিভাবে একটি ক্লাউড রান ফাংশনের জন্য সাইডকারে একটি gemma3:4b মডেল হোস্ট করতে হয়। যখন একটি ফাইল একটি ক্লাউড স্টোরেজ বালতিতে আপলোড করা হয়, তখন এটি ক্লাউড রান ফাংশনটিকে ট্রিগার করবে। ফাংশনটি সারসংক্ষেপের জন্য সাইডকারে ফাইলের বিষয়বস্তু Gemma 3 এ পাঠাবে।
আপনি কি শিখবেন
- জিপিইউ ব্যবহার করে সাইডকারে হোস্ট করা একটি ক্লাউড রান ফাংশন এবং একটি এলএলএম ব্যবহার করে কীভাবে অনুমান করা যায়
- মডেলটির দ্রুত আপলোড এবং পরিবেশনের জন্য একটি ক্লাউড রান GPU-এর জন্য সরাসরি ভিপিসি এগ্রেস কনফিগারেশন কীভাবে ব্যবহার করবেন
- আপনার হোস্ট করা ওল্লামা মডেলের সাথে ইন্টারফেস করতে কীভাবে জেনকিট ব্যবহার করবেন
2. আপনি শুরু করার আগে
GPUs বৈশিষ্ট্য ব্যবহার করতে, আপনাকে একটি সমর্থিত অঞ্চলের জন্য একটি কোটা বৃদ্ধির অনুরোধ করতে হবে৷ প্রয়োজন কোটা হল nvidia_l4_gpu_allocation_no_zonal_redundancy, যা Cloud Run Admin API-এর অধীনে। এখানে কোটা অনুরোধ করার সরাসরি লিঙ্ক ।
3. সেটআপ এবং প্রয়োজনীয়তা
এই কোডল্যাব জুড়ে ব্যবহার করা হবে এমন পরিবেশ ভেরিয়েবল সেট করুন।
PROJECT_ID=<YOUR_PROJECT_ID>
REGION=<YOUR_REGION>
AR_REPO=codelab-crf-sidecar-gpu
FUNCTION_NAME=crf-sidecar-gpu
BUCKET_GEMMA_NAME=$PROJECT_ID-codelab-crf-sidecar-gpu-gemma3
BUCKET_DOCS_NAME=$PROJECT_ID-codelab-crf-sidecar-gpu-docs
SERVICE_ACCOUNT="crf-sidecar-gpu"
SERVICE_ACCOUNT_ADDRESS=$SERVICE_ACCOUNT@$PROJECT_ID.iam.gserviceaccount.com
IMAGE_SIDECAR=$REGION-docker.pkg.dev/$PROJECT_ID/$AR_REPO/ollama-gemma3
এই কমান্ডটি চালিয়ে পরিষেবা অ্যাকাউন্ট তৈরি করুন:
gcloud iam service-accounts create $SERVICE_ACCOUNT \
--display-name="SA for codelab crf sidecar with gpu"
ক্লাউড রান ফাংশন চালু করার জন্য ইভেন্টর্ক ট্রিগারের পরিষেবা অ্যাকাউন্ট হিসাবে ক্লাউড রান ফাংশনের পরিচয় হিসাবে ব্যবহৃত এই একই পরিষেবা অ্যাকাউন্টটি আমরা ব্যবহার করব। আপনি চাইলে Eventarc-এর জন্য আলাদা SA তৈরি করতে পারেন।
gcloud projects add-iam-policy-binding $PROJECT_ID \
--member=serviceAccount:$SERVICE_ACCOUNT_ADDRESS \
--role=roles/run.invoker
এছাড়াও Eventarc ইভেন্টগুলি পেতে পরিষেবা অ্যাকাউন্ট অ্যাক্সেস মঞ্জুর করুন৷
gcloud projects add-iam-policy-binding $PROJECT_ID \
--member="serviceAccount:$SERVICE_ACCOUNT_ADDRESS" \
--role="roles/eventarc.eventReceiver"
একটি বালতি তৈরি করুন যা আপনার সুন্দর মডেলকে হোস্ট করবে। এই কোডল্যাব একটি আঞ্চলিক বালতি ব্যবহার করে। আপনি পাশাপাশি একটি বহু-আঞ্চলিক বালতি ব্যবহার করতে পারেন।
gsutil mb -l $REGION gs://$BUCKET_GEMMA_NAME
এবং তারপর বালতিতে এসএ অ্যাক্সেস দিন।
gcloud storage buckets add-iam-policy-binding gs://$BUCKET_GEMMA_NAME \
--member=serviceAccount:$SERVICE_ACCOUNT_ADDRESS \
--role=roles/storage.objectAdmin
এখন একটি আঞ্চলিক বালতি তৈরি করুন যা আপনি যে নথিগুলিকে সংক্ষিপ্ত করতে চান তা সংরক্ষণ করবে৷ আপনি একটি বহু-আঞ্চলিক বালতিও ব্যবহার করতে পারেন, যদি আপনি সেই অনুযায়ী Eventarc ট্রিগার আপডেট করেন (এই কোডল্যাবের শেষে দেখানো হয়েছে)।
gsutil mb -l $REGION gs://$BUCKET_DOCS_NAME
এবং তারপর Gemma 3 বালতিতে SA অ্যাক্সেস দিন।
gcloud storage buckets add-iam-policy-binding gs://$BUCKET_GEMMA_NAME \
--member=serviceAccount:$SERVICE_ACCOUNT_ADDRESS \
--role=roles/storage.objectAdmin
এবং ডক্স বালতি।
gcloud storage buckets add-iam-policy-binding gs://$BUCKET_DOCS_NAME \
--member=serviceAccount:$SERVICE_ACCOUNT_ADDRESS \
--role=roles/storage.objectAdmin
ওল্লামা ছবির জন্য একটি আর্টিফ্যাক্ট রেজিস্ট্রি সংগ্রহস্থল তৈরি করুন যা সাইডকারে ব্যবহার করা হবে
gcloud artifacts repositories create $AR_REPO \
--repository-format=docker \
--location=$REGION \
--description="codelab for CR function and gpu sidecar" \
--project=$PROJECT_ID
4. Gemma 3 মডেলটি ডাউনলোড করুন
প্রথমে, আপনি ollama থেকে Gemma 3 4b মডেলটি ডাউনলোড করতে চাইবেন। আপনি ollama ইনস্টল করে এবং তারপর স্থানীয়ভাবে gemma3:4b মডেলটি চালিয়ে এটি করতে পারেন।
curl -fsSL https://ollama.com/install.sh | sh
ollama serve
এখন একটি পৃথক টার্মিনাল উইন্ডোতে, মডেলটি টানতে নিচের কমান্ডটি চালান। আপনি যদি ক্লাউড শেল ব্যবহার করেন, আপনি উপরের ডানদিকের মেনু বারে প্লাস আইকনে ক্লিক করে একটি অতিরিক্ত টার্মিনাল উইন্ডো খুলতে পারেন।
ollama run gemma3:4b
একবার ওল্লামা চালু হলে, নির্দ্বিধায় মডেলটিকে কিছু প্রশ্ন জিজ্ঞাসা করুন, যেমন
"why is the sky blue?"
ওল্লামার সাথে চ্যাট করা হয়ে গেলে, আপনি দৌড়ে চ্যাট থেকে বেরিয়ে আসতে পারেন
/bye
তারপর, প্রথম টার্মিনাল উইন্ডোতে, স্থানীয়ভাবে ওল্লামা পরিবেশন বন্ধ করতে নিম্নলিখিত কমান্ডটি চালান
# on Linux / Cloud Shell press Ctrl^C or equivalent for your shell
আপনি এখানে আপনার অপারেটিং সিস্টেমের উপর নির্ভর করে ওল্লামা মডেলগুলি কোথায় ডাউনলোড করেন তা খুঁজে পেতে পারেন।
https://github.com/ollama/ollama/blob/main/docs/faq.md#where-are-models-stored
আপনি যদি ক্লাউড ওয়ার্কস্টেশন ব্যবহার করেন, তাহলে আপনি এখানে ডাউনলোড করা ওল্লামা মডেলগুলি খুঁজে পেতে পারেন /home/$USER/.ollama/models
নিশ্চিত করুন যে আপনার মডেলগুলি এখানে হোস্ট করা হয়েছে:
ls /home/$USER/.ollama/models
এখন আপনার GCS বালতিতে gemma3:4b মডেলটি সরান
gsutil cp -r /home/$USER/.ollama/models gs://$BUCKET_GEMMA_NAME
5. ক্লাউড রান ফাংশন তৈরি করুন
আপনার সোর্স কোডের জন্য একটি রুট ফোল্ডার তৈরি করুন।
mkdir codelab-crf-sidecar-gpu &&
cd codelab-crf-sidecar-gpu &&
mkdir cr-function &&
mkdir ollama-gemma3 &&
cd cr-function
src নামে একটি সাবফোল্ডার তৈরি করুন। ফোল্ডারের ভিতরে, index.ts নামে একটি ফাইল তৈরি করুন
mkdir src &&
touch src/index.ts
নিম্নলিখিত কোড সহ index.ts আপডেট করুন:
//import util from 'util';
import { cloudEvent, CloudEvent } from "@google-cloud/functions-framework";
import { StorageObjectData } from "@google/events/cloud/storage/v1/StorageObjectData";
import { Storage } from "@google-cloud/storage";
// Initialize the Cloud Storage client
const storage = new Storage();
import { genkit } from 'genkit';
import { ollama } from 'genkitx-ollama';
const ai = genkit({
plugins: [
ollama({
models: [
{
name: 'gemma3:4b',
type: 'generate', // type: 'chat' | 'generate' | undefined
},
],
serverAddress: 'http://127.0.0.1:11434', // default local address
}),
],
});
// Register a CloudEvent callback with the Functions Framework that will
// be triggered by Cloud Storage.
//functions.cloudEvent('helloGCS', await cloudEvent => {
cloudEvent("gcs-cloudevent", async (cloudevent: CloudEvent<StorageObjectData>) => {
console.log("---------------\nProcessing for ", cloudevent.subject, "\n---------------");
if (cloudevent.data) {
const data = cloudevent.data;
if (data && data.bucket && data.name) {
const bucketName = cloudevent.data.bucket;
const fileName = cloudevent.data.name;
const filePath = `${cloudevent.data.bucket}/${cloudevent.data.name}`;
console.log(`Attempting to download: ${filePath}`);
try {
// Get a reference to the bucket
const bucket = storage.bucket(bucketName!);
// Get a reference to the file
const file = bucket.file(fileName!);
// Download the file's contents
const [content] = await file.download();
// 'content' is a Buffer. Convert it to a string.
const fileContent = content.toString('utf8');
console.log(`Sending file to Gemma 3 for summarization`);
const { text } = await ai.generate({
model: 'ollama/gemma3:4b',
prompt: `Summarize the following document in just a few sentences ${fileContent}`,
});
console.log(text);
} catch (error: any) {
console.error('An error occurred:', error.message);
}
} else {
console.warn("CloudEvent bucket name is missing!", cloudevent);
}
} else {
console.warn("CloudEvent data is missing!", cloudevent);
}
});
এখন রুট ডিরেক্টরি crf-sidecar-gpu
এ, নিম্নলিখিত বিষয়বস্তু সহ package.json
নামে একটি ফাইল তৈরি করুন:
{
"main": "lib/index.js",
"name": "ingress-crf-genkit",
"version": "1.0.0",
"scripts": {
"build": "tsc"
},
"keywords": [],
"author": "",
"license": "ISC",
"description": "",
"dependencies": {
"@google-cloud/functions-framework": "^3.4.0",
"@google-cloud/storage": "^7.0.0",
"genkit": "^1.1.0",
"genkitx-ollama": "^1.1.0",
"@google/events": "^5.4.0"
},
"devDependencies": {
"typescript": "^5.5.2"
}
}
নিম্নলিখিত বিষয়বস্তু সহ রুট ডিরেক্টরি স্তরে একটি tsconfig.json
তৈরি করুন:
{
"compileOnSave": true,
"include": [
"src"
],
"compilerOptions": {
"module": "commonjs",
"noImplicitReturns": true,
"outDir": "lib",
"sourceMap": true,
"strict": true,
"target": "es2017",
"skipLibCheck": true,
"esModuleInterop": true
}
}
6. ফাংশন স্থাপন করুন
এই ধাপে, আপনি নিম্নলিখিত কমান্ডটি চালিয়ে ক্লাউড রান ফাংশন স্থাপন করবেন।
দ্রষ্টব্য: সর্বাধিক দৃষ্টান্তগুলি আপনার GPU কোটার থেকে কম বা সমান সংখ্যায় সেট করা উচিত।
gcloud beta run deploy $FUNCTION_NAME \
--region $REGION \
--function gcs-cloudevent \
--base-image nodejs22 \
--source . \
--no-allow-unauthenticated \
--max-instances 2 # this should be less than or equal to your GPU quota
7. সাইডকার তৈরি করুন
আপনি https://cloud.google.com/run/docs/tutorials/gpu-gemma-with-ollama-এ ক্লাউড রান পরিষেবার মধ্যে ওল্লামা হোস্ট করার বিষয়ে আরও জানতে পারেন
আপনার সাইডকারের জন্য ডিরেক্টরিতে যান:
cd ../ollama-gemma3
নিম্নলিখিত বিষয়বস্তু সহ একটি Dockerfile
ফাইল তৈরি করুন:
FROM ollama/ollama:latest
# Listen on all interfaces, port 11434
ENV OLLAMA_HOST 0.0.0.0:11434
# Store model weight files in /models
ENV OLLAMA_MODELS /models
# Reduce logging verbosity
ENV OLLAMA_DEBUG false
# Never unload model weights from the GPU
ENV OLLAMA_KEEP_ALIVE -1
# Store the model weights in the container image
ENV MODEL gemma3:4b
RUN ollama serve & sleep 5 && ollama pull $MODEL
# Start Ollama
ENTRYPOINT ["ollama", "serve"]
ইমেজ তৈরি করুন
gcloud builds submit \
--tag $REGION-docker.pkg.dev/$PROJECT_ID/$AR_REPO/ollama-gemma3 \
--machine-type e2-highcpu-32
8. সাইডকার দিয়ে ফাংশন আপডেট করুন
একটি বিদ্যমান পরিষেবা, চাকরি বা ফাংশনে একটি সাইডকার যোগ করতে, আপনি সাইডকার ধারণ করতে YAML ফাইল আপডেট করতে পারেন।
ক্লাউড রান ফাংশনের জন্য YAML পুনরুদ্ধার করুন যা আপনি এইমাত্র চালানোর মাধ্যমে স্থাপন করেছেন:
gcloud run services describe $FUNCTION_NAME --format=export > add-sidecar-service.yaml
এখন নিম্নরূপ YAML আপডেট করে CRf এ সাইডকার যোগ করুন:
- নিচের YAML খণ্ডটি সরাসরি
runtimeClassName: run.googleapis.com/linux-base-image-update
লাইন।-image
প্রবেশ ধারক আইটেমের সাথে সারিবদ্ধ হওয়া উচিত-image
- image: YOUR_IMAGE_SIDECAR:latest
name: gemma-sidecar
env:
- name: OLLAMA_FLASH_ATTENTION
value: '1'
resources:
limits:
cpu: 6000m
nvidia.com/gpu: '1'
memory: 16Gi
volumeMounts:
- name: gcs-1
mountPath: /root/.ollama
startupProbe:
failureThreshold: 2
httpGet:
path: /
port: 11434
initialDelaySeconds: 60
periodSeconds: 60
timeoutSeconds: 60
nodeSelector:
run.googleapis.com/accelerator: nvidia-l4
volumes:
- csi:
driver: gcsfuse.run.googleapis.com
volumeAttributes:
bucketName: YOUR_BUCKET_GEMMA_NAME
name: gcs-1
- আপনার পরিবেশ ভেরিয়েবলের সাথে YAML ফ্র্যাগমেন্ট আপডেট করতে নিম্নলিখিত কমান্ডটি চালান:
sed -i "s|YOUR_IMAGE_SIDECAR|$IMAGE_SIDECAR|; s|YOUR_BUCKET_GEMMA_NAME|$BUCKET_GEMMA_NAME|" add-sidecar-service.yaml
আপনার সম্পূর্ণ YAML ফাইলটি এইরকম দেখতে হবে:
##############################################
# DO NOT COPY - For illustration purposes only
##############################################
apiVersion: serving.knative.dev/v1
kind: Service
metadata:
annotations:
run.googleapis.com/build-base-image: us-central1-docker.pkg.dev/serverless-runtimes/google-22/runtimes/nodejs22
run.googleapis.com/build-enable-automatic-updates: 'true'
run.googleapis.com/build-function-target: gcs-cloudevent
run.googleapis.com/build-id: f0122905-a556-4000-ace4-5c004a9f9ec6
run.googleapis.com/build-image-uri:<YOUR_IMAGE_CRF>
run.googleapis.com/build-name: <YOUR_BUILD_NAME>
run.googleapis.com/build-source-location: <YOUR_SOURCE_LOCATION>
run.googleapis.com/ingress: all
run.googleapis.com/ingress-status: all
run.googleapis.com/urls: '["<YOUR_CLOUD_RUN_FUNCTION_URLS"]'
labels:
cloud.googleapis.com/location: <YOUR_REGION>
name: <YOUR_FUNCTION_NAME>
namespace: '392295011265'
spec:
template:
metadata:
annotations:
autoscaling.knative.dev/maxScale: '4'
run.googleapis.com/base-images: '{"":"us-central1-docker.pkg.dev/serverless-runtimes/google-22/runtimes/nodejs22"}'
run.googleapis.com/client-name: gcloud
run.googleapis.com/client-version: 514.0.0
run.googleapis.com/startup-cpu-boost: 'true'
labels:
client.knative.dev/nonce: hzhhrhheyd
run.googleapis.com/startupProbeType: Default
spec:
containerConcurrency: 80
containers:
- image: <YOUR_FUNCTION_IMAGE>
ports:
- containerPort: 8080
name: http1
resources:
limits:
cpu: 1000m
memory: 512Mi
startupProbe:
failureThreshold: 1
periodSeconds: 240
tcpSocket:
port: 8080
timeoutSeconds: 240
- image: <YOUR_SIDECAR_IMAGE>:latest
name: gemma-sidecar
env:
- name: OLLAMA_FLASH_ATTENTION
value: '1'
resources:
limits:
cpu: 6000m
nvidia.com/gpu: '1'
memory: 16Gi
volumeMounts:
- name: gcs-1
mountPath: /root/.ollama
startupProbe:
failureThreshold: 2
httpGet:
path: /
port: 11434
initialDelaySeconds: 60
periodSeconds: 60
timeoutSeconds: 60
nodeSelector:
run.googleapis.com/accelerator: nvidia-l4
volumes:
- csi:
driver: gcsfuse.run.googleapis.com
volumeAttributes:
bucketName: <YOUR_BUCKET_NAME>
name: gcs-1
runtimeClassName: run.googleapis.com/linux-base-image-update
serviceAccountName: <YOUR_SA_ADDRESS>
timeoutSeconds: 300
traffic:
- latestRevision: true
percent: 100
##############################################
# DO NOT COPY - For illustration purposes only
##############################################
এখন নিম্নলিখিত কমান্ডটি চালিয়ে সাইডকারের সাথে ফাংশনটি আপডেট করুন।
gcloud run services replace add-sidecar-service.yaml
অবশেষে, ফাংশনের জন্য ইভেন্টারক ট্রিগার তৈরি করুন। এই কমান্ডটি এটিকে ফাংশনে যুক্ত করে।
দ্রষ্টব্য: আপনি যদি একটি বহু-আঞ্চলিক বালতি তৈরি করেন তবে আপনি --location
প্যারামিটার পরিবর্তন করতে চাইবেন
gcloud eventarc triggers create my-crf-summary-trigger \
--location=$REGION \
--destination-run-service=$FUNCTION_NAME \
--destination-run-region=$REGION \
--event-filters="type=google.cloud.storage.object.v1.finalized" \
--event-filters="bucket=$BUCKET_DOCS_NAME" \
--service-account=$SERVICE_ACCOUNT_ADDRESS
9. আপনার ফাংশন পরীক্ষা করুন
সারসংক্ষেপের জন্য একটি সাধারণ পাঠ্য ফাইল আপলোড করুন। সারসংক্ষেপ কি জানি না? কুকুরের ইতিহাসের দ্রুত 1-2 পৃষ্ঠার বিবরণের জন্য মিথুনকে জিজ্ঞাসা করুন! তারপর সেই প্লেইন টেক্সট ফাইলটি আপনার $BUCKET_DOCS_NAME
বালতিতে আপলোড করুন Gemma3:4b মডেলের জন্য ফাংশন লগগুলিতে একটি সারাংশ লেখার জন্য।
লগগুলিতে, আপনি নিম্নলিখিতগুলির মতো কিছু দেখতে পাবেন:
---------------
Processing for objects/dogs.txt
---------------
Attempting to download: <YOUR_PROJECT_ID>-codelab-crf-sidecar-gpu-docs/dogs.txt
Sending file to Gemma 3 for summarization
...
Here's a concise summary of the document "Humanity's Best Friend":
The dog's domestication, beginning roughly 20,000-40,000 years ago, represents a unique, deeply intertwined evolutionary partnership with humans, predating the domestication of any other animal
<...>
solidifying their long-standing role as humanity's best friend.
10. সমস্যা সমাধান
টাইপ করার জন্য এখানে কিছু ত্রুটি রয়েছে যা আপনি সম্মুখীন হতে পারেন:
- যদি আপনি একটি ত্রুটি পান যে
PORT 8080 is in use
, তাহলে নিশ্চিত করুন যে আপনার ওল্লামা সাইডকারের জন্য আপনার ডকারফাইল পোর্ট 11434 ব্যবহার করছে। এছাড়াও নিশ্চিত করুন যে আপনার এআর রেপোতে একাধিক ওল্লামা ছবি থাকলে আপনি সঠিক সাইডকার ইমেজ ব্যবহার করছেন। ক্লাউড রান ফাংশনটি পোর্ট 8080-এ কাজ করে এবং আপনি যদি সাইডকার হিসেবে একটি ভিন্ন ওল্লামা ইমেজ ব্যবহার করেন যা 8080-এও পরিবেশন করা হয়, তাহলে আপনি এই ত্রুটির মধ্যে পড়বেন। - যদি আপনি ত্রুটি
failed to build: (error ID: 7485c5b6): function.js does not exist
, নিশ্চিত করুন যে আপনার package.json এবং tsconfig.json ফাইলগুলি src ডিরেক্টরির মতো একই স্তরে রয়েছে৷ - যদি আপনি ত্রুটি পান
ERROR: (gcloud.run.services.replace) spec.template.spec.node_selector: Max instances must be set to 4 or fewer in order to set GPU requirements.
, আপনার YAML ফাইলে,autoscaling.knative.dev/maxScale: '100'
থেকে 1 বা আপনার GPU কোটার থেকে কম বা সমান কিছুতে পরিবর্তন করুন।