MAISON CODE .
/ Tech · AI · Search · Computer Vision · E-commerce

Visuelle Suche: Produkte ohne Worte finden

Die Textsuche schlägt fehl, wenn der Benutzer den Namen des Produkts nicht kennt. Mit der visuellen Suche mithilfe von Vector Embeddings können Benutzer mit ihrer Kamera einkaufen.

AB
Alex B.
Visuelle Suche: Produkte ohne Worte finden

Warum Maison Code darüber spricht

Bei Maison Code Paris fungieren wir als das architektonische Gewissen unserer Kunden. Wir übernehmen oft „moderne“ Stacks, die ohne grundlegendes Verständnis für Skalierung gebaut wurden.

Wir diskutieren dieses Thema, weil es einen kritischen Wendepunkt in der technischen Reife darstellt. Die korrekte Implementierung unterscheidet ein fragiles MVP von einer widerstandsfähigen Plattform auf Unternehmensniveau.

Die Wortschatzlücke

Das grundlegende Problem der E-Commerce-Suche ist die Vokabularlücke. Ein Benutzer möchte ein bestimmtes Produkt. Es handelt sich um ein „beiges modernes Mid-Century-Sofa mit getufteten Knöpfen und konischen Holzbeinen“. Sie suchen nach „beige Couch“. Sie erhalten 5.000 Ergebnisse. Bei den meisten handelt es sich um massive, gepolsterte Liegesessel oder Ledersessel. Sie kennen das Wort „Tufted“ nicht. Sie kennen „Mid-Century“ nicht. Sie kennen „Tapered“ nicht. Wenn sie es nicht beschreiben können, können sie es nicht finden. Und wenn sie es nicht finden, können sie es nicht kaufen. Visual Search durchbricht diese Barriere. Der Benutzer lädt ein Foto hoch (von Pinterest, Instagram oder seinem Wohnzimmer). Die KI findet „Produkte, die so aussehen“. Es umgeht die Sprache vollständig. Es entspricht Semantische visuelle Ähnlichkeit. „Ich will das.“ -> „Hier ist das.“

Warum Maison Code die visuelle Suche diskutiert

Bei Maison Code arbeiten wir mit hochwertigen Marken aus den Bereichen Mode und Wohnkultur zusammen. Diese Branchen sind rein visueller Natur. „Ich möchte ein Kleid, das zu diesen Schuhen passt.“ „Ich möchte eine Lampe, die zu diesem Teppich passt.“ Die Textsuche ist hier schrecklich. „Blaues Kleid“ gibt 10.000 Kleider zurück. Wir implementieren visuelle Suchmaschinen, um die Konvertierung zu steigern. Wenn ein Benutzer genau das findet, was er sich vorgestellt hat, verdreifachen sich die Conversion-Raten. Wir verwenden Vektordatenbanken (Pinecone, Weaviate) und Multimodale Modelle (OpenAI CLIP), um diese Erfahrungen zu erstellen. Es ist keine Science-Fiction; es ist zugängliche Technik.

So funktioniert es: Vektoreinbettungen

Computer „sehen“ keine Bilder. Sie sehen Pixelgitter. Der Pixelvergleich (Pixel für Pixel) schlägt fehl. Wenn Sie die Kamera um 1 Zoll nach links verschieben, ändert sich jedes Pixel. Wir müssen die Bedeutung vergleichen. Geben Sie Einbettungen ein. Wir verwenden ein neuronales Netzwerk, das auf Millionen von Bild-Text-Paaren trainiert wurde (z. B. CLIP von OpenAI – Contrastive Language-Image Pre-Training). Wir speisen ein Bild ins Netzwerk ein. Es gibt einen Vektor aus. Dies ist eine Liste von Gleitkommazahlen (z. B. 512 oder 1024 Dimensionen). „[0,89, -0,12, 0,45, …]“. Dieser Vektor stellt das „Konzept“ des Bildes dar.

  • Vektoren für „Bilder von Katzen“ zeigen in eine Richtung.
  • Vektoren für „Bilder von Hunden“ weisen auf ein anderes hin.
  • Vektoren für „Bilder von beigen Sofas“ gruppieren sich. Abstand = Ähnlichkeit. Wenn der Abstand (Kosinusähnlichkeit) zwischen zwei Vektoren klein ist, sind die Bilder optisch ähnlich.

Implementierungsschritte

Der Aufbau einer visuellen Suchmaschine umfasst zwei Phasen:

Phase 1: Indizierung (Offline)

  1. Katalogaufnahme: Nehmen Sie alle 10.000 Produktbilder aus Ihrer Datenbank.
  2. Einbettungsgenerierung: Führen Sie jedes Bild durch das CLIP-Modell. (Kosten: Bruchteile eines Cents über API).
  3. Speicher: Speichern Sie das Paar „(ProductID, Vector)“ in einer Vektordatenbank (Pinecone).
  4. Metadaten: Hängen Sie Metadaten (Preis, Kategorie, Lagerstatus) an den Vektor an, damit Sie ihn später filtern können.

Phase 2: Abfragen (online)

  1. Benutzereingabe: Der Benutzer klickt auf das „Kamerasymbol“ und lädt ein Foto eines Kleides hoch.
  2. Einbettung: Führen Sie dieses Abfragebild über das gleiche CLIP-Modell aus. Holen Sie sich den Abfragevektor.
  3. Suchen: Senden Sie den Abfragevektor an Pinecone. „Finden Sie die 10 Vektoren, die diesem am nächsten kommen.“
  4. Abruf: Pinecone gibt 10 Produkt-IDs in Millisekunden zurück.
  5. Neues Ranking: (Optional) Passen Sie das Ranking basierend auf der Geschäftslogik an (Artikel mit hohen Margen bewerben).
  6. Anzeige: Zeigt dem Benutzer die Produkte.

Text-zu-Bild-Suche (Multimodal Magic)

Der Zauber von CLIP besteht darin, dass es Text und Bilder den Leerzeichen zuordnet. Sie können nach dem Text suchen: „Ein Kleid für eine Sommerhochzeit im Garten“. Das Modell wandelt diesen Text in einen Vektor um. Sie vergleichen diesen Textvektor mit Ihren Bildvektoren. Es funktioniert! Es werden Bilder gefunden, die „wie eine Sommerhochzeit aussehen“ (Blumen, helle Stoffe, Pastellfarben), auch wenn diese Wörter in der Produktbeschreibung nie verwendet wurden. Dies löst das „Synonymproblem“. Benutzer sucht nach „Sneakers“. Sie nennen sie „Trainer“. Die Vektoren liegen nahe beieinander. Die Suche funktioniert.

Anwendungsfälle

  1. „Shoppen Sie den Look“: Der Benutzer lädt ein Foto des Outfits eines Influencers hoch. Das System erkennt mehrere Objekte: Hut, Hemd, Hose, Schuhe. Es führt eine Suche nach jedem Objekt in Ihrem Katalog durch. „Wir haben nicht das exakte Gucci-Shirt, aber hier ist unser bestes Modell für 50 €.“ Dies ist die „erschwingliche Alternative“-Engine.

  2. „Vervollständigen Sie das Set“ (Empfehlungen): Der Benutzer betrachtet einen Esstisch. Das System sucht mithilfe der Vektordistanz nach „Stühlen“, die optisch kompatibel sind (gleicher Holzton, gleiche Designepoche). „Hier gibt es Stühle, die zu diesem Tisch passen.“

  3. Offline-zu-Online (O2O): Der Benutzer befindet sich in einem physischen Geschäft. Sie sehen eine Schraube, die sie ersetzen müssen. Sie machen ein Foto. Die App identifiziert die genaue Teilenummer anhand der visuellen Signatur. Ideal für B2B/Industrie.

Die Sicht des Skeptikers

„Es ist eine Spielerei. Die Leute benutzen einfach die Suchleiste.“ Gegenpunkt: Bei „Spearfishing“ (ich möchte iPhone 15 Pro) ist der Text ja schneller. Für „Discovery“ (ich möchte ein schönes Kleid) ist die visuelle Darstellung besser. Pinterest, ASOS und Google Lens haben die Nachfrage bewiesen. Die Generation Z sucht zuerst mit Bildern. Wenn Sie die visuelle Suche ignorieren, ignorieren Sie die nächste Generation von Käufern.

FAQ

F: Ist es teuer? A: Nein. Die OpenAI Embeddings API ist sehr günstig. Pinecone hat eine kostenlose Stufe. Sie können einen POC für 0 € erstellen. Der Einsatz im großen Maßstab (Millionen von Benutzern) kostet Geld, aber die Conversion-Rate-Optimierung (CRO) zahlt sich zehnmal mehr aus.

F: Funktioniert es für nicht-visuelle Produkte? A: Nein. Verwenden Sie es nicht für Bücher (Hüllen bestätigen den Inhalt nicht) oder elektronische Geräte (das Innere ist wichtig, nicht das Black-Box-Gehäuse). Verwenden Sie es für Mode, Dekoration, Schmuck, Kunst.

F: Wie sieht es mit der Genauigkeit aus? A: Es ist überraschend gut. Manchmal schlägt es bei „Kontext“ fehl. Man könnte meinen, ein „Bild eines Tigers“ sei ein „Tiger-Plüschtier“. Fix: Vorfilter nach Kategorie. Wenn sich der Benutzer im Bereich „Home“ befindet, schließen Sie „Spielzeug“ aus.

Fazit

Die Suche geht über Schlüsselwörter hinaus. Wir betreten das semantische Zeitalter. Wir kommunizieren mit Bildern. Visual Search macht Ihren Katalog auf menschliche Weise auffindbar. Es verwandelt die Kamera in eine Tastatur. Hören Sie auf, Benutzer dazu zu zwingen, Ihre Produktnamen zu erraten. Lassen Sie sich von ihnen zeigen, was sie wollen.

13. Fallstudie: ASOS Style Match

ASOS ist der Pionier. Über die Schaltfläche „Style Match“ können Sie ein Foto einer Berühmtheit hochladen. Es gibt ähnliche Artikel aus ihrem Katalog zurück. Der Tech-Stack ist genau das, was wir beschrieben haben: Mobile App -> Crop UI -> Vector Search -> Product API. Es erhöht die Engagementzeit um 400 %. Benutzer betrachten die App als „Spielzeug“ oder „Stylist“, nicht nur als Geschäft. Diese „Gamifizierung der Suche“ ist die Geheimwaffe von Apps mit hoher Retention.

14. Vektordimensionsreduktion (PCA)

Vektoren sind groß (1536 float32s). Um RAM zu sparen, verwenden wir PCA (Principal Component Analysis). Wir reduzieren die Abmessungen von 1536 auf 256. Wir verlieren nur sehr wenig an Genauigkeit (vielleicht 2 %), aber wir gewinnen um das Sechsfache an Geschwindigkeit und Speicherkosten. Dadurch können wir die Suche nach Offline-Katalogen direkt auf dem Telefon des Benutzers ausführen (Client-seitige Vektorsuche), ohne den Server zu kontaktieren.

15. Fazit

Die Benutzeroberfläche ist wichtig. Sie setzen nicht einfach nur einen „Upload“-Button ein. Sie bauen eine Linse.

  1. Live-Kamera-Feed: Überlagern Sie einen „Scanner“-Rahmen.
  2. Objekterkennung: Zeichnen Sie in Echtzeit Begrenzungsrahmen um erkannte Gegenstände (Schuhe, Taschen) (mit TensorFlow.js).
  3. Zum Suchen tippen: Der Benutzer tippt auf die Tasche. Die Suche wird ausgelöst. Das fühlt sich an wie Augmented Reality (AR), nicht wie ein Datei-Uploader. Es versetzt den Benutzer in einen „Discovery-Modus“.

14. Die Pinterest-Strategie

Pinterest hat bewiesen, dass visuelle Entdeckung funktioniert. Sie verwenden die „Taschenlampen“-Suche. Beim Scrollen finden sie optisch ähnliche Pins. Wir wenden dies auf E-Commerce an. „Ihnen hat diese Lampe gefallen? Hier sind 5 weitere Lampen mit der gleichen Ausstrahlung (Krümmung, Material, Farbe).“ Es hält den Benutzer im „Kaninchenloch“ Ihres Katalogs und erhöht so die Verweildauer auf der Website und den durchschnittlichen Bestellwert.

15. Fazit

Wenn sich Ihre Benutzer über Suchergebnisse beschweren („Ich habe X eingegeben, es aber nicht gefunden“) oder Ihr Katalog sehr visuell ist, kann Maison Code AI Visual Search implementieren. Wir integrieren Vektordatenbanken, Computer-Vision-Modelle und Ihr vorhandenes PIM, um ein Entdeckungserlebnis der nächsten Generation zu schaffen.


Beauftragen Sie unsere Architekten.