MAISON CODE .
/ Tech · AI · Search · Computer Vision · E-commerce

Ricerca visiva: trovare prodotti senza parole

La ricerca testuale fallisce quando l'utente non conosce il nome del prodotto. La ricerca visiva utilizzando gli incorporamenti vettoriali consente agli utenti di fare acquisti con la propria fotocamera.

AB
Alex B.
Ricerca visiva: trovare prodotti senza parole

Perché Maison Code ne parla

In Maison Code Paris, agiamo come la coscienza architettonica dei nostri clienti. Spesso ereditiamo stack “moderni” costruiti senza una comprensione fondamentale della scala.

Discutiamo di questo argomento perché rappresenta un punto di svolta critico nella maturità ingegneristica. Implementarlo correttamente differenzia un MVP fragile da una piattaforma resiliente di livello aziendale.

Il divario nel vocabolario

Il problema fondamentale della ricerca e-commerce è il Vocabulary Gap. Un utente desidera un prodotto specifico. Si tratta di un “divano beige moderno della metà del secolo con bottoni capitonnè e gambe in legno affusolate”. Cercano “divano beige”. Ottengono 5.000 risultati. La maggior parte sono enormi poltrone reclinabili imbottite o sezionali in pelle. Non conoscono la parola “Tufted”. Non conoscono “Metà secolo”. Non conoscono “Tapered”. Se non riescono a descriverlo, non riescono a trovarlo. E se non riescono a trovarlo, non possono comprarlo. Ricerca visiva supera questa barriera. L’utente carica una foto (da Pinterest, Instagram o dal proprio soggiorno). L’intelligenza artificiale trova “Prodotti simili a questo”. Ignora completamente il linguaggio. Corrisponde alla Somiglianza visiva semantica. “Voglio questo.” -> “Ecco quello.”

Perché Maison Code parla della ricerca visiva

Noi di Maison Code lavoriamo con marchi di fascia alta di moda e arredamento per la casa. Queste industrie sono puramente visive. “Voglio un vestito che si abbini a queste scarpe.” “Voglio una lampada che si abbini a questo tappeto.” La ricerca testuale è terribile in questo. “Vestito blu” restituisce 10.000 abiti. Implementiamo motori di ricerca visiva per aumentare la conversione. Quando un utente riesce a trovare esattamente ciò che immaginava, i tassi di conversione triplicano. Utilizziamo database vettoriali (Pinecone, Weaviate) e modelli multimodali (OpenAI CLIP) per costruire queste esperienze. Non è fantascienza; è ingegneria accessibile.

Come funziona: incorporamenti di vettori

I computer non “vedono” le immagini. Vedono griglie di pixel. Il confronto dei pixel (pixel per pixel) non riesce. Se sposti la fotocamera di 1 pollice a sinistra, ogni pixel cambia. Dobbiamo confrontare Significato. Inserisci Incorporamenti. Utilizziamo una rete neurale addestrata su milioni di coppie immagine-testo (ad esempio, CLIP - Contrastive Language-Image Pre-Training di OpenAI). Inseriamo un’immagine nella rete. Genera un Vettore. Questo è un elenco di numeri in virgola mobile (ad esempio, dimensioni 512 o 1024). “[0,89, -0,12, 0,45, …]”. Questo vettore rappresenta il “Concetto” dell’immagine.

  • I vettori per “Immagini di gatti” puntano in una direzione.
  • I vettori per “Immagini di cani” puntano in un altro.
  • I vettori per “Immagini di divani beige” sono raggruppati insieme. Distanza = Somiglianza. Se la distanza (Somiglianza coseno) tra due vettori è piccola, le immagini sono visivamente simili.

Passaggi di implementazione

La costruzione di un motore di ricerca visiva prevede due fasi:

Fase 1: Indicizzazione (offline)

  1. Inserimento catalogo: prendi tutte le 10.000 immagini di prodotti dal tuo database.
  2. Generazione di incorporamento: esegui ciascuna immagine attraverso il modello CLIP. (Costo: frazioni di centesimo tramite API).
  3. Archiviazione: salva la coppia (ProductID, Vector) in un Database vettoriale (Pinecone).
  4. Metadati: allega metadati (prezzo, categoria, stato delle scorte) al vettore in modo da poterli filtrare in seguito.

Fase 2: interrogazione (online)

  1. Input utente: l’utente fa clic su “Icona fotocamera” e carica la foto di un vestito.
  2. Incorporamento: esegui questa Immagine query tramite lo stesso modello CLIP. Ottieni il vettore di query.
  3. Cerca: invia il vettore di query a Pinecone. “Trova i 10 vettori più vicini a questo.”
  4. Recupero: Pinecone restituisce 10 ID prodotto in millisecondi.
  5. Riclassificazione: (facoltativo) modificare la classifica in base alla logica aziendale (promuovere articoli ad alto margine).
  6. Display: mostra i prodotti all’utente.

Ricerca testo-immagine (Magia multimodale)

La magia di CLIP è che associa Testo e Immagini agli spazi. Puoi cercare il testo: “Un abito per un matrimonio estivo in giardino”. Il modello converte questo testo in un vettore. Confronti questo vettore di testo con i tuoi vettori di immagine. Funziona! Trova immagini che “sembrano” un matrimonio estivo (fiori, tessuti leggeri, pastelli) anche se la descrizione del prodotto non ha mai usato quelle parole. Questo risolve il “problema dei sinonimi”. L’utente cerca “Sneakers”. Li chiami “Allenatori”. I vettori sono vicini. La ricerca funziona.

Casi d’uso

  1. “Acquista il look”: L’utente carica una foto dell’outfit di un influencer. Il sistema rileva più oggetti: Cappello, Camicia, Pantaloni, Scarpe. Esegue una ricerca per ciascun oggetto nel tuo catalogo. “Non abbiamo la maglietta Gucci esatta, ma ecco la nostra corrispondenza più vicina per € 50.” Questo è il motore “Alternativa conveniente”.

  2. “Completa il set” (raccomandazioni): L’utente sta guardando un tavolo da pranzo. Il sistema cerca “Sedie” visivamente compatibili (stesso tono di legno, stessa epoca di design) utilizzando la distanza vettoriale. “Ecco le sedie che si abbinano a questo tavolo.”

  3. Da offline a online (O2O): L’utente si trova in un negozio fisico. Vedono una vite che devono sostituire. Scattano una foto. L’app identifica l’esatto codice prodotto dalla firma visiva. Ottimo per B2B/industriale.

Il punto di vista dello scettico

“È una trovata. Le persone usano semplicemente la barra di ricerca.” Contropunto: Per “Pesca subacquea” (voglio iPhone 15 Pro), sì, il testo è più veloce. Per “Discovery” (voglio un bel vestito), la visuale è migliore. Pinterest, ASOS e Google Lens hanno dimostrato la domanda. La generazione Z effettua prima la ricerca con le immagini. Se ignori la ricerca visiva, stai ignorando la prossima generazione di acquirenti.

Domande frequenti

D: È costoso? R: No. L’API OpenAI Embeddings è molto economica. Pinecone ha un livello gratuito. Puoi creare un POC per € 0. Gestirlo su larga scala (milioni di utenti) costa denaro, ma l’ottimizzazione del tasso di conversione (CRO) lo ripaga 10 volte.

D: Funziona con prodotti non visivi? R: No. Non utilizzarlo per libri (le copertine non verificano il contenuto) o dispositivi elettronici (le parti interne sono importanti, non l’involucro della scatola nera). Usalo per moda, arredamento, gioielli, arte.

D: E la precisione? R: È sorprendentemente buono. A volte fallisce su “Contesto”. Si potrebbe pensare che una “immagine di una tigre” sia un “peluche della tigre”. Correzione: prefiltro per categoria. Se l’utente si trova nella sezione “Home”, escludi “Giocattoli”.

Conclusione

La ricerca sta andando oltre le parole chiave. Stiamo entrando nell’era semantica. Comunichiamo con le immagini. La ricerca visiva rende il tuo catalogo rilevabile in modo umano. Trasforma la fotocamera in una tastiera. Smetti di costringere gli utenti a indovinare i nomi dei tuoi prodotti. Lascia che ti mostrino quello che vogliono.

13. Caso di studio: ASOS Style Match

ASOS è il pioniere. Il loro pulsante “Style Match” ti consente di caricare una foto di una celebrità. Restituisce articoli simili dal loro catalogo. Lo stack tecnologico è esattamente quello che abbiamo descritto: App mobile -> Ritaglia interfaccia utente -> Ricerca vettoriale -> API prodotto. Aumenta il tempo di coinvolgimento del 400%. Gli utenti trattano l’app come un “giocattolo” o uno “stilista”, non solo come un negozio. Questa “gamificazione della ricerca” è l’arma segreta delle app ad alta fidelizzazione.

14. Riduzione della dimensione vettoriale (PCA)

I vettori sono grandi (1536 float32). Per risparmiare RAM, utilizziamo PCA (analisi dei componenti principali). Riduciamo le dimensioni da 1536 a 256. Perdiamo pochissima precisione (forse il 2%), ma guadagniamo 6 volte in velocità e costi di archiviazione. Questo ci permette di eseguire la ricerca direttamente sul telefono dell’utente (Client-Side Vector Search) per i cataloghi offline, senza colpire il server.

15. Conclusione

L’interfaccia utente è importante. Non basta inserire un pulsante “Carica”. Costruisci una Lente.

  1. Feed telecamera live: sovrapponi un frame “Scanner”.
  2. Rilevamento oggetti: disegna riquadri di delimitazione attorno agli oggetti riconosciuti (scarpe, borse) in tempo reale (utilizzando TensorFlow.js).
  3. Tocca per cercare: l’utente tocca la borsa. La ricerca scatta. Sembra una realtà aumentata (AR), non un caricatore di file. Coinvolge l’utente in una “modalità di scoperta”.

14. La strategia Pinterest

Pinterest ha dimostrato che la scoperta visiva funziona. Usano la ricerca “Torcia elettrica”. Mentre scorri, trovano pin visivamente simili. Applichiamo questo all’e-commerce. “Ti è piaciuta questa lampada? Ecco altre 5 lampade con la stessa atmosfera (Curvatura, Materiale, Colore).” Mantiene l’utente nella “tana del coniglio” del tuo catalogo, aumentando il tempo sul sito e il valore medio dell’ordine.

15. Conclusione

Se i tuoi utenti si lamentano dei risultati di ricerca (“Ho digitato X ma non l’ho trovato”) o il tuo catalogo è altamente visivo, Maison Code può implementare AI Visual Search. Integriamo database vettoriali, modelli di visione artificiale e il tuo PIM esistente per creare un’esperienza di scoperta di nuova generazione.


Assumi i nostri architetti.