Introduzione a Vector Search 2.0

1. Introduzione

Ultimo aggiornamento: 2026-03-04

La ricerca vettoriale, o database vettoriale, è diventata una tecnologia fondamentale per i moderni sistemi di AI. Rappresentando i dati come embedding ad alta dimensionalità che acquisiscono il significato semantico, alimenta tutto, dalla ricerca semantica che comprende l'intento dell'utente ai motori di suggerimenti che mostrano contenuti pertinenti, fino alla Retrieval-Augmented Generation (RAG) e agli agenti di AI che basano le risposte degli LLM su informazioni reali e aggiornate. Le principali aziende tecnologiche, tra cui Google, si affidano a questa tecnologia su larga scala per elaborare miliardi di ricerche, consigli e grounding ogni giorno.

Tuttavia, creare una ricerca vettoriale pronta per la produzione rimane una sfida. Google ha recentemente rilasciato Vertex AI Vector Search 2.0 per risolvere questo problema. Si tratta di un servizio completamente gestito progettato per eliminare la complessità operativa e di progettazione che rallenta i team.

Perché la ricerca vettoriale è più difficile di quanto sembri

Il concetto è semplice. L'implementazione? È qui che le cose si complicano.

La generazione di embedding. La ricerca vettoriale richiede la conversione dei dati in rappresentazioni numeriche (incorporamenti) che acquisiscono il significato semantico. Ciò significa che devi chiamare un'API di embedding, raggruppare le richieste in batch, gestire i limiti di frequenza e archiviare i vettori. Ogni volta che i dati cambiano, esegui nuovamente la pipeline. È l'infrastruttura che devi creare prima ancora di poter iniziare la ricerca.

Feature Store. Molti prodotti di ricerca vettoriale forniscono solo un indice vettoriale che restituisce un elenco di ID articolo per ogni ricerca. Per mostrare agli utenti i risultati di ricerca completi, devi disporre di un feature store o di un archivio chiave-valore separato per recuperare i dati effettivi degli articoli (nomi, prezzi, categorie, URL delle immagini in millisecondi) passando questi ID. In molti casi, devi anche implementare filtri complessi sulle funzionalità degli articoli, come prezzo, categoria o disponibilità. Ciò significa creare e gestire due servizi diversi: uno per la ricerca vettoriale e uno per il recupero e il filtraggio dei dati. Ogni aggiornamento e query richiede l'accesso e la sincronizzazione di entrambi i sistemi.

Ottimizzazione dell'indice. Per creare indici ANN (approximate nearest neighbor) con milioni di elementi, devi prendere decisioni esperte per ottenere il miglior rendimento: quanti elementi deve contenere ogni nodo dell'indice? Quale percentuale dell'indice deve essere scansionata per query per bilanciare il richiamo rispetto alla latenza? Quale dimensione dello shard corrisponde al tuo set di dati? Si tratta di decisioni relative all'infrastruttura ML che non hanno nulla a che fare con il tuo prodotto.

La ricerca ibrida. La ricerca semantica eccelle nella comprensione dell'intento: trova"Board Shorts " quando gli utenti cercano "outfit da uomo per la spiaggia". Tuttavia, non funziona con i codici prodotto come "SKU-12345" che non hanno un significato semantico e ha difficoltà con i termini o i nomi dei brand di nuova coniazione che il modello di incorporamento non ha mai visto. La ricerca per parole chiave gestisce questi casi, ma non tiene conto del contesto semantico. Gli utenti hanno bisogno di entrambi, motivo per cui la ricerca ibrida è diventata essenziale. La sua creazione, tuttavia, è tutt'altro che banale. Oltre al motore di ricerca vettoriale, ti serve un motore di ricerca a testo intero con tokenizzazione, indici invertiti o incorporamenti sparsi. Dopodiché devi eseguire query parallele su entrambi i motori, normalizzare i diversi sistemi di punteggio e unire i risultati con tecniche come Reciprocal Rank Fusion.

Come Vector Search 2.0 risolve questi problemi

Vector Search 2.0 su Google Cloud affronta direttamente ognuna di queste sfide:

In questo workshop creeremo una ricerca ibrida completamente gestita utilizzando 10.000 prodotti di moda del set di dati di e-commerce TheLook.

Che cos'è Vector Search 2.0?

Vector Search 2.0 è il database vettoriale completamente gestito e con ottimizzazione automatica di Google Cloud basato sull'algoritmo ScaNN (Scalable Nearest Neighbors) di Google, la stessa tecnologia alla base della Ricerca Google, di YouTube e di Google Play.

Fattori chiave di differenziazione

Indicizzazione zero a indice su scala di miliardi: inizia subito a sviluppare con un tempo di indicizzazione pari a zero utilizzando kNN (k-Nearest Neighbors), poi scala a miliardi di vettori con una latenza di millisecondi con gli indici ANN (Approximate Nearest Neighbor) su scala Google per la produzione, il tutto con la stessa API e lo stesso set di dati
Archiviazione unificata dei dati: archivia sia gli incorporamenti vettoriali sia i dati forniti dagli utenti insieme (non è necessario un database o un feature store separato)
Incorporamenti automatici: genera automaticamente incorporamenti semantici utilizzando i modelli di incorporamento Vertex AI
Ricerca a testo intero integrata: fornisce una ricerca a testo intero integrata senza la necessità di generare autonomamente incorporamenti sparsi. Puoi anche scegliere di utilizzare i tuoi embedding sparsi (ad es. BM25, SPLADE) con la ricerca vettoriale per una ricerca a testo intero personalizzata.
Ricerca ibrida: combina la ricerca semantica e quella basata su parole chiave/token in un'unica query con il ranking intelligente RRF
Self-Tuning: prestazioni ottimizzate automaticamente senza configurazione manuale
Pronto per l'uso aziendale: scalabilità, sicurezza e conformità integrate

Architettura di base

Vector Search 2.0 è composto da tre componenti principali:

Raccolte: contenitori con schema applicato per i tuoi dati
Oggetti dati: singoli elementi con dati e incorporamenti vettoriali
Indici: ricerca istantanea del vicino più prossimo nei tuoi dati con kNN. Per la ricerca del vicino più prossimo a bassa latenza, utilizza un indice ANN.

Inizia rapidamente: utilizza k-NN immediatamente senza tempi di configurazione, ideale per lo sviluppo e i piccoli set di dati
Scalabilità per la produzione: utilizza gli indici ANN per la ricerca su miliardi di dati con latenza inferiore al secondo grazie all'algoritmo ScaNN

Esaminiamo ogni concetto con esempi pratici.

2. Creazione della ricerca di moda TheLook

Immagina che un cliente arrivi sul tuo sito di e-commerce e digiti "qualcosa di carino per una vacanza al mare". Con la ricerca tradizionale per parole chiave, non ottengono risultati: nessun prodotto nel tuo catalogo contiene queste parole esatte. Frustrati, se ne vanno.

Ora immagina un'esperienza diversa. La stessa query restituisce vestiti estivi, copricostumi e pantaloncini morbidi, ovvero prodotti che corrispondono perfettamente a ciò che il cliente aveva in mente, anche se nessuno contiene la parola "spiaggia" nei titoli. È l'esperienza che consente la ricerca vettoriale.

Per dimostrare come Vector Search 2.0 lo rende possibile, creeremo un sistema di ricerca di prodotti utilizzando TheLook, un set di dati di e-commerce realistico con 30.000 articoli di moda in 26 categorie. Ogni prodotto ha attributi che troveresti in qualsiasi catalogo reale:

Le sfide di ricerca che risolveremo

I clienti reali non eseguono ricerche nel modo in cui si aspettano i database. Le persone cercano nel modo in cui pensano:

Vector Search 2.0 risolve tutte e quattro le sfide con un'architettura unificata.

Architettura dei dati di Vector Search 2.0

Prima di addentrarci nel codice, vediamo come Vector Search 2.0 organizza i tuoi dati. L'architettura si basa su tre concetti chiave: raccolte, oggetti dati e indici.

Una raccolta definisce la struttura dei dati, ovvero i campi che vuoi archiviare e quelli che devono essere incorporati. Gli oggetti di dati sono gli elementi effettivi (prodotti, documenti, immagini) archiviati in una raccolta, ognuno con i propri dati e vettori generati automaticamente o i tuoi vettori. Un indice ottimizza le query su larga scala, consentendo una latenza di millisecondi su miliardi di elementi. Puoi iniziare lo sviluppo senza un indice con tempi di configurazione pari a zero, quindi aggiungerne uno quando hai bisogno di prestazioni di produzione.

Creazione della ricerca di TheLook: passo dopo passo

Ora creiamo un sistema di ricerca dei prodotti funzionante. Caricheremo 10.000 articoli di moda da TheLook, attiveremo gli incorporamenti automatici ed eseguiremo ricerche semantiche, per parole chiave e ibride, il tutto in circa 50 righe di codice.

Apri il notebook: Introduction to Vertex AI Vector Search 2.0

Ricerca ibrida in azione

Vector Search 2.0 supporta tre modalità di ricerca: ricerca semantica (comprende l'intento tramite gli embedding), ricerca di testo (corrispondenza delle parole chiave) e ricerca ibrida (che combina entrambe). La ricerca ibrida offre i risultati migliori per la maggior parte dei casi d'uso: la ricerca semantica trova "Board Shorts" quando gli utenti cercano "outfit da uomo per la spiaggia", mentre la ricerca di testo garantisce che non vengano perse corrispondenze esatte come i codici prodotto.

Perché gli incorporamenti del tipo di attività sono importanti

Nota i parametri task_type nel codice riportato sopra: RETRIEVAL_DOCUMENT durante l'indicizzazione dei prodotti e QUESTION_ANSWERING durante la ricerca. Non si tratta di un'operazione arbitraria, ma di una tecnica fondamentale per migliorare la qualità della ricerca consentendo al modello di incorporamento di funzionare come un modello di raccomandazione.

La maggior parte dei casi d'uso della ricerca vettoriale si basa su una semplice corrispondenza di somiglianza, ma spesso non riesce a fornire una qualità di ricerca a livello di produzione perché le domande e le risposte non sono intrinsecamente simili nello spazio di incorporamento. "What's good for a beach vacation?" (Cosa va bene per una vacanza al mare?) e "Board Shorts" (Pantaloncini da surf) hanno semantiche diverse, ma devono corrispondere. Gli embedding dei tipi di attività risolvono questo problema ottimizzando il modello di embedding per le relazioni asimmetriche: i documenti vengono incorporati in modo diverso rispetto alle query, creando uno spazio di embedding in cui i risultati pertinenti si raggruppano, aggiungendo la funzionalità di raccomandazione, ovvero la possibilità di trovare elementi pertinenti in base all'intento dell'utente.

L'utilizzo di incorporamenti specifici per attività può migliorare la qualità della ricerca del 30-40% rispetto agli incorporamenti generici. Per un approfondimento su come funziona, consulta il notebook sull'incorporamento del tipo di attività.

Da zero a miliardi di utenti

Per la produzione su larga scala, Vector Search 2.0 offre indici ANN (Approximate Nearest Neighbor) basati sull'algoritmo ScaNN (Scalable Nearest Neighbors) di Google, la stessa tecnologia alla base della Ricerca Google, YouTube e Google Play. ANN sacrifica una piccola quantità di precisione (~99%) per ottenere un enorme aumento di velocità: latenza inferiore a 10 ms anche con miliardi di vettori.

Il quadro completo

In soli cinque passaggi, di cui i primi quattro richiedono circa 5 minuti, abbiamo creato un sistema di ricerca dei prodotti pronto per la produzione:

Vector Search 2.0 elimina la complessità dell'infrastruttura che in genere rallenta l'adozione della ricerca vettoriale. Tu ti concentri sul tuo prodotto, mentre la piattaforma gestisce incorporamenti, indicizzazione e scalabilità.

3. Complimenti

Congratulazioni, hai creato la tua prima applicazione con Vector Search 2.0.

Introduzione a Vector Search 2.0 Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.