MAISON CODE .
/ Tech · AI · Search · Computer Vision · E-commerce

Recherche visuelle : trouver des produits sans mots

La recherche de texte échoue lorsque l'utilisateur ne connaît pas le nom du produit. La recherche visuelle utilisant Vector Embeddings permet aux utilisateurs de faire des achats avec leur appareil photo.

AB
Alex B.
Recherche visuelle : trouver des produits sans mots

Pourquoi Maison Code en parle

Chez Maison Code Paris, nous agissons comme la conscience architecturale de nos clients. Nous héritons souvent de stacks “modernes” construites sans compréhension fondamentale de l’échelle.

Nous abordons ce sujet car il représente un point de pivot critique dans la maturité de l’ingénierie. Une mise en œuvre correcte différencie un MVP fragile d’une plateforme résiliente de niveau entreprise.

L’écart du vocabulaire

Le problème fondamental de la recherche de commerce électronique est le écart de vocabulaire. Un utilisateur souhaite un produit spécifique. Il s’agit d’un “canapé beige moderne du milieu du siècle avec des boutons capitonnés et des pieds effilés en bois”. Ils recherchent « canapé beige ». Ils obtiennent 5 000 résultats. La plupart sont d’énormes fauteuils inclinables rembourrés ou des sections en cuir. Ils ne connaissent pas le mot « Tufted ». Ils ne connaissent pas le “Mid-Century”. Ils ne connaissent pas “Tapered”. S’ils ne peuvent pas le décrire, ils ne peuvent pas le trouver. Et s’ils ne le trouvent pas, ils ne peuvent pas l’acheter. Visual Search brise cette barrière. L’utilisateur télécharge une photo (depuis Pinterest, Instagram ou son salon). L’IA trouve des « produits qui ressemblent à ceci ». Il contourne complètement le langage. Cela correspond à la similarité visuelle sémantique. “Je veux ça.” -> “Voici ça.”

Pourquoi Maison Code discute de la recherche visuelle

Chez Maison Code, nous travaillons avec des marques haut de gamme Mode et Home Decor. Ces industries sont purement visuelles. “Je veux une robe qui va avec ces chaussures.” “Je veux une lampe assortie à ce tapis.” La recherche de texte est terrible à ce sujet. “Robe bleue” renvoie 10 000 robes. Nous mettons en œuvre des moteurs de recherche visuelle pour augmenter la conversion. Lorsqu’un utilisateur peut trouver exactement ce qu’il envisage, les taux de conversion triplent. Nous utilisons des bases de données vectorielles (Pinecone, Weaviate) et des modèles multimodaux (OpenAI CLIP) pour créer ces expériences. Ce n’est pas de la science-fiction ; c’est une ingénierie accessible.

Comment ça marche : intégrations vectorielles

Les ordinateurs ne « voient » pas les images. Ils voient des grilles de pixels. La comparaison des pixels (pixel par pixel) échoue. Si vous déplacez la caméra de 1 pouce vers la gauche, chaque pixel change. Nous devons comparer Signification. Saisissez Intégrations. Nous utilisons un réseau neuronal formé sur des millions de paires image-texte (par exemple, CLIP - Contrastive Language-Image Pre-Training d’OpenAI). Nous introduisons une image dans le réseau. Il génère un Vecteur. Il s’agit d’une liste de nombres à virgule flottante (par exemple, 512 ou 1024 dimensions). [0,89, -0,12, 0,45, ...] Ce vecteur représente le “Concept” de l’image.

  • Les vecteurs pour « Images de chats » pointent dans une direction.
  • Les vecteurs pour “Images de chiens” pointent dans un autre.
  • Les vecteurs pour les « Images de canapés beiges » se regroupent. Distance = Similitude. Si la distance (similarité cosinus) entre deux vecteurs est petite, les images sont visuellement similaires.

Étapes de mise en œuvre

La création d’un moteur de recherche visuelle implique deux phases :

Phase 1 : Indexation (Hors ligne)

  1. Ingestion de catalogue : récupérez les 10 000 images de produits de votre base de données.
  2. Génération d’intégration : exécutez chaque image via le modèle CLIP. (Coût : fractions de centime via API).
  3. Stockage : Enregistrez la paire (ProductID, Vector) dans une Base de données vectorielles (Pinecone).
  4. Métadonnées : attachez des métadonnées (prix, catégorie, état du stock) au vecteur afin de pouvoir filtrer ultérieurement.

Phase 2 : Requête (en ligne)

  1. Saisie de l’utilisateur : l’utilisateur clique sur « Icône de l’appareil photo » et télécharge une photo d’une robe.
  2. Intégration : exécutez cette image de requête via le même modèle CLIP. Obtenez le vecteur de requête.
  3. Recherche : envoyez le vecteur de requête à Pinecone. “Trouvez les 10 vecteurs les plus proches de celui-ci.”
  4. Récupération : Pinecone renvoie 10 ID de produit en millisecondes.
  5. Reclassement : (Facultatif) Ajustez le classement en fonction de la logique métier (Promouvoir les articles à marge élevée).
  6. Affichage : Montrez les produits à l’utilisateur.

Recherche texte-image (magie multimodale)

La magie de CLIP est qu’il mappe Texte et Images aux espaces. Vous pouvez rechercher le texte : “Une robe pour un mariage d’été dans un jardin”. Le modèle convertit ce texte en vecteur. Vous comparez ce vecteur de texte à vos vecteurs d’images. Ça marche! Il trouve des images qui « ressemblent » à un mariage d’été (Fleurs, Tissus clairs, Pastels) même si la description du produit n’utilise jamais ces mots. Cela résout le « problème des synonymes ». L’utilisateur recherche “Baskets”. Vous les appelez des « Formateurs ». Les vecteurs sont proches. La recherche fonctionne.

Cas d’utilisation

  1. “Achetez le look” : L’utilisateur télécharge une photo de la tenue d’un influenceur. Le système détecte plusieurs objets : chapeau, chemise, pantalon, chaussures. Il effectue une recherche pour chaque objet dans votre catalogue. “Nous n’avons pas exactement la chemise Gucci, mais voici notre correspondance la plus proche pour 50 €.” Il s’agit du moteur « Alternative abordable ».

  2. « Compléter l’ensemble » (Recommandations) : L’utilisateur regarde une table à manger. Le système recherche des « Chaises » visuellement compatibles (même ton de bois, même époque de conception) en utilisant la distance vectorielle. “Voici des chaises assorties à cette table.”

  3. Hors ligne vers en ligne (O2O) : L’utilisateur se trouve dans un magasin physique. Ils voient une vis qu’ils doivent remplacer. Ils prennent une photo. L’application identifie le numéro de pièce exact à partir de la signature visuelle. Idéal pour le B2B/Industriel.

Le point de vue du sceptique

“C’est un gadget. Les gens utilisent simplement la barre de recherche.” Contre-point : Pour « Spearfishing » (je veux un iPhone 15 Pro), oui, le texte est plus rapide. Pour “Découverte” (je veux une jolie robe), le visuel est meilleur. Pinterest, ASOS et Google Lens ont prouvé la demande. La génération Z recherche d’abord avec des images. Si vous ignorez la recherche visuelle, vous ignorez la prochaine génération d’acheteurs.

##FAQ

Q : Est-ce cher ? R : Non. L’API OpenAI Embeddings est très bon marché. Pinecone a un niveau gratuit. Vous pouvez créer un POC pour 0 €. L’exécuter à grande échelle (des millions d’utilisateurs) coûte de l’argent, mais l’optimisation du taux de conversion (CRO) le paie 10 fois plus.

Q : Est-ce que cela fonctionne pour les produits non visuels ? R : Non. Ne l’utilisez pas pour les livres (les couvertures ne vérifient pas le contenu) ou pour l’électronique (les éléments internes comptent, pas le boîtier de la boîte noire). Utilisez-le pour la mode, la décoration, les bijoux, l’art.

Q : Qu’en est-il de la précision ? R : C’est étonnamment bon. Parfois, cela échoue sur “Contexte”. On pourrait penser qu’une « image d’un tigre » est un « jouet en peluche tigre ». Correction : pré-filtrer par catégorie. Si l’utilisateur se trouve dans la section « Accueil », excluez « Jouets ».

Conclusion

La recherche va au-delà des mots-clés. Nous entrons dans l’ère sémantique. Nous communiquons avec des images. Visual Search rend votre catalogue visible de manière humaine. Il transforme l’appareil photo en clavier. Arrêtez de forcer les utilisateurs à deviner les noms de vos produits. Laissez-les vous montrer ce qu’ils veulent.

13. Étude de cas : correspondance de style ASOS

ASOS est le pionnier. Leur bouton “Style Match” vous permet de télécharger une photo d’une célébrité. Il renvoie des éléments similaires de leur catalogue. La pile technologique correspond exactement à ce que nous avons décrit : application mobile -> interface utilisateur de recadrage -> recherche de vecteurs -> API de produit. Il augmente le temps d’engagement de 400 %. Les utilisateurs traitent l’application comme un « jouet » ou un « styliste », et pas seulement comme un magasin. Cette « gamification de la recherche » est l’arme secrète des applications à haute rétention.

14. Réduction de la dimension vectorielle (PCA)

Les vecteurs sont gros (1536 float32). Pour économiser de la RAM, nous utilisons PCA (Principal Component Analysis). Nous réduisons les dimensions de 1536 à 256. On perd très peu de précision (peut-être 2%), mais on gagne 6x en vitesse et en coût de stockage. Cela nous permet d’exécuter la recherche directement sur le téléphone de l’utilisateur (Client-Side Vector Search) pour les catalogues hors ligne, sans accéder au serveur.

15. Conclusion

L’interface utilisateur est importante. Vous ne vous contentez pas de mettre un bouton « Télécharger ». Vous créez un Lens.

  1. Flux de caméra en direct : superposez un cadre “Scanner”.
  2. Détection d’objets : dessinez des cadres de délimitation autour des éléments reconnus (chaussures, sacs) en temps réel (à l’aide de TensorFlow.js).
  3. Appuyez pour rechercher : l’utilisateur appuie sur le sac. La recherche se déclenche. Cela ressemble à de la réalité augmentée (RA), et non à un téléchargeur de fichiers. Il engage l’utilisateur dans un “Mode Découverte”.

14. La stratégie Pinterest

Pinterest a prouvé que la découverte visuelle fonctionne. Ils utilisent la recherche “Flashlight”. Au fur et à mesure que vous faites défiler, ils trouvent des épingles visuellement similaires. Nous appliquons cela au commerce électronique. “Vous avez aimé cette lampe ? Voici 5 autres lampes avec la même vibe (Courbure, Matière, Couleur).” Il maintient l’utilisateur dans le « trou du lapin » de votre catalogue, augmentant ainsi le temps passé sur le site et la valeur moyenne des commandes.

15. Conclusion

Si vos utilisateurs se plaignent des résultats de recherche (“J’ai tapé X mais je ne l’ai pas trouvé”) ou si votre catalogue est très visuel, Maison Code peut mettre en œuvre la recherche visuelle IA. Nous intégrons des bases de données vectorielles, des modèles de vision par ordinateur et votre PIM existant pour créer une expérience de découverte de nouvelle génération.


Engagez nos Architectes.