Búsqueda visual: encontrar productos sin palabras
La búsqueda de texto falla cuando el usuario no conoce el nombre del producto. La búsqueda visual mediante Vector Embeddings permite a los usuarios comprar con su cámara.
Por qué Maison Code habla de esto
En Maison Code Paris, actuamos como la conciencia arquitectónica de nuestros clientes. A menudo heredamos stacks “modernos” construidos sin una comprensión fundamental de la escala.
Discutimos este tema porque representa un punto de inflexión crítico en la madurez de la ingeniería. Implementarlo correctamente diferencia un MVP frágil de una plataforma resistente de nivel empresarial.
La brecha de vocabulario
El problema fundamental de la búsqueda de comercio electrónico es la brecha de vocabulario. Un usuario quiere un producto específico. Se trata de un “sofá beige moderno de mediados de siglo con botones capitoné y patas de madera cónicas”. Buscan “sofá beige”. Obtienen 5.000 resultados. La mayoría son enormes sillones reclinables o modulares de cuero. No conocen la palabra “copetudo”. No conocen “Mediados de siglo”. No conocen “Cónico”. Si no pueden describirlo, no pueden encontrarlo. Y si no pueden encontrarlo, no pueden comprarlo. Visual Search rompe esta barrera. El usuario sube una foto (de Pinterest, Instagram o su salón). La IA encuentra “Productos que se parecen a este”. Pasa por alto el lenguaje por completo. Coincide con Similitud visual semántica. “Quiero esto”. -> “Aquí está eso.”
Por qué Maison Code analiza la búsqueda visual
En Maison Code, trabajamos con marcas de Moda y Decoración del hogar de alta gama. Estas industrias son puramente visuales. “Quiero un vestido que combine con estos zapatos”. “Quiero una lámpara que combine con esta alfombra”. La búsqueda de texto es terrible en esto. “Vestido azul” devuelve 10.000 vestidos. Implementamos buscadores visuales para aumentar la conversión. Cuando un usuario puede encontrar exactamente lo que imaginó, las tasas de conversión se triplican. Usamos Bases de datos vectoriales (Pinecone, Weaviate) y Modelos multimodales (OpenAI CLIP) para crear estas experiencias. No es ciencia ficción; es ingeniería accesible.
Cómo funciona: incrustaciones de vectores
Las computadoras no “ven” imágenes. Ven cuadrículas de píxeles.
La comparación de píxeles (píxel por píxel) falla. Si mueves la cámara 1 pulgada hacia la izquierda, cada píxel cambia.
Necesitamos comparar Significado.
Ingrese Incrustaciones.
Utilizamos una red neuronal entrenada en millones de pares de imagen y texto (por ejemplo, CLIP de OpenAI: preentrenamiento de lenguaje contrastivo e imagen).
Introducimos una imagen en la red.
Genera un Vector.
Esta es una lista de números de punto flotante (por ejemplo, 512 o 1024 dimensiones).
[0,89, -0,12, 0,45, ...]
Este vector representa el “Concepto” de la imagen.
- Los vectores de “Imágenes de gatos” apuntan en una dirección.
- Los vectores de “Imágenes de Perros” apuntan a otro.
- Los vectores de “Imágenes de sofás beige” se agrupan. Distancia = Similitud. Si la distancia (similitud del coseno) entre dos vectores es pequeña, las imágenes son visualmente similares.
Pasos de implementación
La construcción de un motor de búsqueda visual implica dos fases:
Fase 1: Indexación (fuera de línea)
- Ingestión de catálogos: tome las 10 000 imágenes de productos de su base de datos.
- Generación de incrustación: ejecute cada imagen a través del modelo CLIP. (Costo: fracciones de centavo vía API).
- Almacenamiento: Guarde el par
(ProductID, Vector)en una Base de datos de vectores (Pinecone). - Metadatos: Adjunte metadatos (Precio, Categoría, Estado del stock) al vector para poder filtrar más tarde.
Fase 2: Consulta (en línea)
- Entrada del usuario: el usuario hace clic en “Icono de cámara” y carga una foto de un vestido.
- Incrustación: Ejecute esta Imagen de consulta a través del mismo modelo CLIP. Obtenga el vector de consulta.
- Buscar: envíe el vector de consulta a Pinecone. “Encuentra los 10 vectores más cercanos a este”.
- Recuperación: Pinecone devuelve 10 ID de producto en milisegundos.
- Reclasificación: (Opcional) Ajuste la clasificación según la lógica empresarial (promocione artículos de alto margen).
- Display: Muestra los productos al usuario.
Búsqueda de texto a imagen (magia multimodal)
La magia de CLIP es que asigna Texto e Imágenes a los espacios. Puedes buscar el texto: “Un vestido para una boda de verano en un jardín”. El modelo convierte este texto en un vector. Compara este vector de texto con tus vectores de imagen. ¡Funciona! Encuentra imágenes que “parecen” una boda de verano (florales, telas claras, pasteles) incluso si la descripción del producto nunca usó esas palabras. Esto resuelve el “problema de sinónimos”. El usuario busca “Zapatillas”. Los llamas “entrenadores”. Los vectores están cerca. La búsqueda funciona.
Casos de uso
-
“Compra el look”: El usuario sube una foto del outfit de una Influencer. El sistema detecta múltiples objetos: sombrero, camisa, pantalones, zapatos. Ejecuta una búsqueda de cada objeto en su catálogo. “No tenemos la camisa Gucci exacta, pero aquí está la que más se parece por 50 dólares”. Este es el motor “alternativa asequible”.
-
“Completa el conjunto” (Recomendaciones): El usuario está mirando una mesa de comedor. El sistema busca “Sillas” que sean visualmente compatibles (mismo tono de madera, misma época de diseño) utilizando un vector de distancia. “Aquí hay sillas que combinan con esta mesa”.
-
De fuera de línea a en línea (O2O): El usuario se encuentra en una tienda física. Ven un tornillo que necesitan reemplazar. Toman una foto. La aplicación identifica el número de pieza exacto a partir de la firma visual. Ideal para B2B/Industrial.
La visión del escéptico
“Es un truco. La gente simplemente usa la barra de búsqueda”. Contrapunto: Para “Pesca submarina” (quiero un iPhone 15 Pro), sí, el texto es más rápido. Para “Discovery” (quiero un bonito vestido), lo visual es mejor. Pinterest, ASOS y Google Lens han demostrado la demanda. La Generación Z busca primero con imágenes. Si ignora la búsqueda visual, está ignorando a la próxima generación de compradores.
Preguntas frecuentes
P: ¿Es caro? R: No. La API de OpenAI Embeddings es muy económica. Pinecone tiene un nivel gratuito. Puedes construir un POC por €0. Ejecutarlo a escala (millones de usuarios) cuesta dinero, pero la optimización de la tasa de conversión (CRO) lo paga 10 veces más.
P: ¿Funciona para productos no visuales? R: No. No lo use para libros (las portadas no verifican el contenido) o productos electrónicos (las partes internas son importantes, no la carcasa de la caja negra). Úselo para moda, decoración, joyería, arte.
P: ¿Qué pasa con la precisión? R: Es sorprendentemente bueno. A veces falla en “Contexto”. Podría pensar que una “Imagen de un tigre” es un “Tigre de peluche”. Solución: Prefiltro por categoría. Si el usuario está en la sección “Inicio”, excluya “Juguetes”.
Conclusión
La búsqueda va más allá de las palabras clave. Estamos entrando en la Era Semántica. Nos comunicamos con imágenes. Visual Search hace que su catálogo sea reconocible de forma humana. Convierte la cámara en un teclado. Deja de obligar a los usuarios a adivinar los nombres de tus productos. Deja que te muestren lo que quieren.
13. Estudio de caso: combinación de estilos de ASOS
ASOS es el pionero. Su botón “Style Match” te permite subir una foto de una celebridad. Devuelve artículos similares de su catálogo. La pila tecnológica es exactamente lo que describimos: Aplicación móvil -> UI de recorte -> Búsqueda de vectores -> API de producto. Aumenta el tiempo de participación en un 400%. Los usuarios tratan la aplicación como un “juguete” o “estilista”, no sólo como una tienda. Esta “Gamificación de la Búsqueda” es el arma secreta de las aplicaciones de alta retención.
14. Reducción de dimensiones vectoriales (PCA)
Los vectores son grandes (1536 float32). Para ahorrar RAM, utilizamos PCA (Análisis de componentes principales). Reducimos las dimensiones de 1536 a 256. Perdemos muy poca precisión (tal vez un 2%), pero ganamos 6 veces en velocidad y costo de almacenamiento. Esto nos permite ejecutar la búsqueda directamente en el teléfono del usuario (búsqueda vectorial del lado del cliente) para catálogos fuera de línea, sin tener que acceder al servidor.
15. Conclusión
La interfaz de usuario importa. No basta con poner un botón “Subir”. Construyes una Lente.
- Transmisión de cámara en vivo: Superponga un cuadro de “Escáner”.
- Detección de objetos: dibuje cuadros delimitadores alrededor de los elementos reconocidos (zapatos, bolsos) en tiempo real (usando TensorFlow.js).
- Toque para buscar: el usuario toca la bolsa. La búsqueda se dispara. Esto se siente como Realidad Aumentada (AR), no como un cargador de archivos. Involucra al usuario en un “Modo de descubrimiento”.
14. La estrategia de Pinterest
Pinterest demostró que el descubrimiento visual funciona. Utilizan la búsqueda “Linterna”. A medida que se desplaza, encuentran pines visualmente similares. Aplicamos esto al comercio electrónico. “¿Te gustó esta lámpara? Aquí hay otras 5 lámparas con el mismo ambiente (curvatura, material, color)”. Mantiene al usuario en la “madriguera” de su catálogo, aumentando el tiempo en el sitio y el valor promedio del pedido.
15. Conclusión
Si sus usuarios se quejan de los resultados de búsqueda (“Escribí X pero no lo encontré”), o si su catálogo es muy visual, Maison Code puede implementar AI Visual Search. Integramos bases de datos vectoriales, modelos de visión por computadora y su PIM existente para crear una experiencia de descubrimiento de próxima generación.