البحث المرئي: العثور على المنتجات بدون كلمات
يفشل البحث النصي عندما لا يعرف المستخدم اسم المنتج. يتيح البحث المرئي باستخدام Vector Embeddings للمستخدمين التسوق باستخدام الكاميرا الخاصة بهم.
لماذا تتحدث Maison Code عن هذا
في Maison Code Paris، نعمل كضمير معمari لعملائنا. غالبًا ما نرث حزمًا “حديثة” تم بناؤها دون فهم أساسي للحجم.
نناقش هذا الموضوع لأنه يمثل نقطة تحول حاسمة في النضج الهندسي. التنفيذ الصحيح يميز MVP الهش عن منصة مؤسسية مرنة يمكنها التعامل مع حركة مرور الجمعة السوداء.
فجوة المفردات
المشكلة الأساسية في بحث التجارة الإلكترونية هي فجوة المفردات. يريد المستخدم منتجًا محددًا. إنها “أريكة بيج حديثة من منتصف القرن مع أزرار معنقدة وأرجل خشبية مدببة”. إنهم يبحثون عن “الأريكة البيج”. يحصلون على 5000 نتيجة. معظمها عبارة عن كراسي استرخاء ضخمة أو أقسام جلدية. إنهم لا يعرفون كلمة “معنقدة”. إنهم لا يعرفون “منتصف القرن”. إنهم لا يعرفون “مدبب”. إذا لم يتمكنوا من وصفه، فلن يتمكنوا من العثور عليه. وإذا لم يتمكنوا من العثور عليه، فلن يتمكنوا من شرائه. البحث المرئي يكسر هذا الحاجز. يقوم المستخدم بتحميل صورة (من Pinterest أو Instagram أو غرفة المعيشة الخاصة به). يعثر الذكاء الاصطناعي على “المنتجات التي تبدو بهذا الشكل”. إنه يتجاوز اللغة تمامًا. يتطابق مع التشابه البصري الدلالي. “أريد * هذا *.” -> “هنا ذلك.”
لماذا تناقش Maison Code البحث المرئي
في Maison Code، نعمل مع العلامات التجارية الراقية Fashion وHomeDecor. هذه الصناعات بصرية بحتة. “أريد فستانًا يتناسب مع هذا الحذاء.” “أريد مصباحًا يناسب هذه السجادة.” البحث عن النص أمر فظيع في هذا. “الفستان الأزرق” يعيد 10000 فستان نحن نستخدم محركات البحث المرئية لزيادة التحويل. عندما يتمكن المستخدم من العثور على ما يتصوره بالضبط، فإن معدلات التحويل تتضاعف ثلاث مرات. نحن نستخدم قواعد بيانات المتجهات (Pinecone وWeaviate) ونماذج متعددة الوسائط (OpenAI CLIP) لبناء هذه التجارب. إنه ليس خيالا علميا. إنها هندسة سهلة الوصول.
كيف يعمل: التضمين المتجه
أجهزة الكمبيوتر لا “ترى” الصور. يرون شبكات من البكسل.
فشلت مقارنة وحدات البكسل (بكسل ببكسل). إذا قمت بنقل الكاميرا بمقدار بوصة واحدة إلى اليسار، فإن كل بكسل يتغير.
نحن بحاجة لمقارنة المعنى.
أدخل التضمينات.
نحن نستخدم شبكة عصبية تم تدريبها على الملايين من أزواج الصور والنصوص (على سبيل المثال، CLIP من OpenAI - التدريب المسبق على اللغة المتباينة والصورة).
نقوم بتغذية صورة في الشبكة.
يقوم بإخراج المتجه.
هذه قائمة بأرقام الفاصلة العائمة (على سبيل المثال، 512 أو 1024 بُعدًا).
[0.89، -0.12، 0.45، ...]
يمثل هذا المتجه “مفهوم” الصورة.
- تشير متجهات “صور القطط” إلى اتجاه واحد.
- تشير متجهات “صور الكلاب” إلى نقطة أخرى.
- تتجمع ناقلات “صور الأرائك البيج” معًا. ** المسافة = التشابه **. إذا كانت المسافة (تشابه جيب التمام) بين متجهين صغيرة، فإن الصور متشابهة بصريًا.
خطوات التنفيذ
يتضمن بناء محرك البحث المرئي مرحلتين:
المرحلة الأولى: الفهرسة (بدون اتصال)
- ** استيعاب الكتالوج **: التقط جميع صور المنتج البالغ عددها 10000 صورة من قاعدة البيانات الخاصة بك.
- إنشاء التضمين: قم بتشغيل كل صورة من خلال نموذج CLIP. (التكلفة: كسور السنت عبر واجهة برمجة التطبيقات).
- التخزين: احفظ الزوج
(ProductID, Vector)في قاعدة بيانات المتجهات (Pinecone). - البيانات الوصفية: قم بإرفاق البيانات الوصفية (السعر والفئة وحالة المخزون) بالمتجه حتى تتمكن من التصفية لاحقًا.
المرحلة الثانية: الاستعلام (عبر الإنترنت)
- إدخال المستخدم: ينقر المستخدم على “رمز الكاميرا” ويقوم بتحميل صورة فستان.
- التضمين: قم بتشغيل صورة الاستعلام هذه من خلال نموذج CLIP نفسه. الحصول على ناقل الاستعلام.
- بحث: أرسل موجه الاستعلام إلى Pinecone. “أوجد أقرب 10 متجهات إلى هذا.”
- الاسترداد: تقوم Pinecone بإرجاع 10 معرفات للمنتجات بالمللي ثانية.
- إعادة التصنيف: (اختياري) اضبط التصنيف بناءً على منطق الأعمال (الترويج للعناصر ذات الهامش المرتفع).
- العرض: عرض المنتجات للمستخدم.
البحث عن النص إلى صورة (سحر متعدد الوسائط)
يكمن سحر CLIP في أنه يقوم بتعيين النص والصور إلى المسافات. يمكنك البحث عن نص: “فستان زفاف صيفي في الحديقة”. يقوم النموذج بتحويل هذا النص إلى ناقل. يمكنك مقارنة ناقل النص هذا مع ناقلات الصور الخاصة بك. إنها تعمل! يعثر على صور “تبدو وكأنها” حفل زفاف صيفي (الأزهار، الأقمشة الخفيفة، الباستيل) حتى لو لم يستخدم وصف المنتج هذه الكلمات مطلقًا. هذا يحل “مشكلة المرادفات”. يبحث المستخدم عن “أحذية رياضية”. أنت تسميهم “المدربين”. المتجهات قريبة. البحث يعمل.
حالات الاستخدام
-
“تسوق المظهر”: يقوم المستخدم بتحميل صورة لزي أحد المؤثرين. يكتشف النظام أشياء متعددة: قبعة، قميص، سروال، أحذية. يقوم بإجراء بحث عن كل كائن مقابل الكتالوج الخاص بك. “ليس لدينا قميص غوتشي بالضبط، ولكن هذا هو أقرب قميص لنا مقابل 50 دولارًا.” هذا هو المحرك “البديل بأسعار معقولة”.
-
“أكمل المجموعة” (التوصيات): ينظر المستخدم إلى طاولة الطعام. يبحث النظام عن “الكراسي” المتوافقة بصريًا (نفس لون الخشب، نفس عصر التصميم) باستخدام المسافة المتجهة. “هنا الكراسي التي تطابق هذه الطاولة.”
-
من دون الاتصال بالإنترنت (O2O): المستخدم موجود في متجر فعلي. يرون المسمار الذي يحتاجون إلى استبداله. يلتقطون صورة. يحدد التطبيق رقم الجزء الدقيق من التوقيع المرئي. عظيم لB2B / الصناعية.
وجهة نظر المتشككين
“إنها وسيلة للتحايل. يستخدم الأشخاص شريط البحث فقط.” نقطة مضادة: بالنسبة لـ “Spearfishing” (أريد iPhone 15 Pro)، نعم، النص أسرع. بالنسبة لـ “Discovery” (أريد فستانًا جميلاً)، يكون المظهر أفضل. لقد أثبتت Pinterest وASOS وGoogle Lens الطلب المتزايد عليها. يبحث الجيل Z بالصور أولاً. إذا تجاهلت البحث المرئي، فإنك تتجاهل الجيل القادم من المتسوقين.
الأسئلة الشائعة
س: هل هي باهظة الثمن؟ ج: لا. OpenAI Embeddings API رخيصة جدًا. Pinecone لديه طبقة مجانية. يمكنك إنشاء إثبات المفهوم (POC) مقابل 0 دولار. إن تشغيله على نطاق واسع (ملايين المستخدمين) يكلف أموالاً، لكن تحسين معدل التحويل (CRO) يدفع ثمنه بمقدار 10 أضعاف.
س: هل يعمل مع المنتجات غير المرئية؟ ج: لا، لا تستخدمه للكتب (الأغلفة لا تتحقق من المحتوى) أو الإلكترونيات (الأجزاء الداخلية مهمة، وليس غلاف الصندوق الأسود). استخدمه للأزياء والديكور والمجوهرات والفن.
س: ماذا عن الدقة؟ ج: إنه أمر جيد بشكل مدهش. في بعض الأحيان يفشل في “السياق”. قد تعتقد أن “صورة النمر” هي “لعبة النمر المحشوة”. الإصلاح: التصفية المسبقة حسب الفئة. إذا كان المستخدم في قسم “الصفحة الرئيسية”، فاستبعد “الألعاب”.
الخلاصة
البحث يتجاوز الكلمات الرئيسية. نحن ندخل ** العصر الدلالي **. نحن نتواصل مع الصور. البحث المرئي يجعل الكتالوج الخاص بك قابلاً للاكتشاف بطريقة بشرية. يحول الكاميرا إلى لوحة مفاتيح. توقف عن إجبار المستخدمين على تخمين أسماء منتجاتك. دعهم يظهرون لك ما يريدون.
13. دراسة الحالة: مطابقة أسلوب ASOS
ASOS هي الرائدة. يتيح لك زر “Style Match” الخاص بهم تحميل صورة لأحد المشاهير. تقوم بإرجاع عناصر مماثلة من الكتالوج الخاص بهم. مجموعة التكنولوجيا هي بالضبط ما وصفناه: تطبيق الهاتف المحمول -> واجهة مستخدم المحاصيل -> بحث المتجهات -> واجهة برمجة تطبيقات المنتج. يزيد وقت المشاركة بنسبة 400%. يتعامل المستخدمون مع التطبيق على أنه “لعبة” أو “مصمم أزياء”، وليس مجرد متجر. يعد “Gamification of Search” هذا هو السلاح السري للتطبيقات عالية الاحتفاظ.
14. تقليل أبعاد المتجهات (PCA)
المتجهات كبيرة (1536 float32s). لحفظ ذاكرة الوصول العشوائي (RAM)، نستخدم PCA (تحليل المكونات الرئيسية). نقوم بتقليل الأبعاد من 1536 إلى 256. نفقد القليل جدًا من الدقة (ربما 2%)، لكننا نكتسب 6x في السرعة وتكلفة التخزين. يتيح لنا ذلك تشغيل البحث مباشرة على هاتف المستخدم (بحث متجه من جانب العميل) للكتالوجات غير المتصلة بالإنترنت، دون الاتصال بالخادم.
15. الاستنتاج
واجهة المستخدم مهمة. لا تقوم فقط بوضع زر “تحميل”. أنت تبني عدسة.
- ** تغذية الكاميرا الحية **: تراكب إطار “الماسح الضوئي”.
- اكتشاف الكائنات: ارسم مربعات محيطة حول العناصر التي تم التعرف عليها (الأحذية والحقائب) في الوقت الفعلي (باستخدام TensorFlow.js).
- انقر للبحث: ينقر المستخدم على الحقيبة. ينطلق البحث. يبدو هذا وكأنه الواقع المعزز (AR)، وليس أداة تحميل الملفات. إنه يشرك المستخدم في “وضع الاكتشاف”.
14. استراتيجية بينتيريست
أثبت موقع Pinterest أن الاكتشاف البصري يعمل. يستخدمون البحث “مصباح يدوي”. أثناء التمرير، يجدون دبابيس متشابهة بصريًا. نحن نطبق هذا على التجارة الإلكترونية. “هل أعجبك هذا المصباح؟ إليك 5 مصابيح أخرى لها نفس المظهر * (الانحناء، المادة، اللون).” فهو يبقي المستخدم في “Rabbit Hole” في الكتالوج الخاص بك، مما يزيد من الوقت المستغرق في الموقع ومتوسط قيمة الطلب.
15. الاستنتاج
إذا اشتكى المستخدمون لديك من نتائج البحث (“لقد كتبت X ولكن لم أجده”)، أو كان الكتالوج الخاص بك مرئيًا للغاية، فيمكن لـ Maison Code تنفيذ البحث المرئي باستخدام الذكاء الاصطناعي. نحن ندمج قواعد بيانات المتجهات ونماذج رؤية الكمبيوتر ونظام PIM الموجود لديك لإنشاء تجربة اكتشاف من الجيل التالي.