Commerce vocal : la fin du clavier
La frappe est une friction. Parler est naturel. Comment créer des interfaces vocales à l'aide de Whisper (STT) et ElevenLabs (TTS) pour permettre aux utilisateurs de faire leurs achats en mains libres.
Pourquoi Maison Code en parle
Chez Maison Code Paris, nous agissons comme la conscience architecturale de nos clients. Nous héritons souvent de stacks “modernes” construites sans compréhension fondamentale de l’échelle.
Nous abordons ce sujet car il représente un point de pivot critique dans la maturité de l’ingénierie. Une mise en œuvre correcte différencie un MVP fragile d’une plateforme résiliente de niveau entreprise.
L’histoire de la saisie : des cartes perforées à la voix
Le clavier QWERTY a été inventé en 1873. Il a été expressément conçu pour ralentir les dactylographes afin d’éviter les bourrages mécaniques de la machine à écrire. 150 ans plus tard, nous utilisons toujours cette disposition. Nous tapons sur des écrans de verre, utilisons nos pouces pour appuyer sur de minuscules touches virtuelles, luttons contre la correction automatique et traitons les erreurs « Fat Finger ». C’est absurde. La frappe est à haute friction. Cela nécessite une attention visuelle (« Regardez les touches ») et de la dextérité (« Appuyez sur la bonne touche »). Parler, c’est Zéro friction. Cela ne nécessite ni mains ni yeux. Les humains peuvent prononcer 150 mots par minute. Ils peuvent taper 40 mots par minute sur mobile. Le Commerce vocal est la transition des interfaces utilisateur graphiques (GUI) vers les interfaces utilisateur conversationnelles (CUI). C’est le passage de la « ligne de commande » au « langage naturel ».
Pourquoi Maison Code discute de voix
Chez Maison Code, nous servons le « Luxe du temps ». Nos clients (particuliers fortunés) sont occupés. Ils conduisent. Ils tiennent un bébé. Ils cuisinent. Ils n’ont pas le temps de parcourir 50 pages de filtres sur un petit écran. Ils veulent dire : « Envoyez un cadeau à ma mère pour son anniversaire, budget 500 €, quelque chose de floral. » Et ils veulent que cela soit fait. Nous construisons des expériences Voice-First qui agissent comme des concierges numériques. Nous utilisons les derniers modèles d’IA pour garantir que le système comprend non seulement les mots, mais aussi l’Intention.
La pile technologique (le pipeline vocal moderne)
Pendant longtemps, la voix (Siri, Alexa) était mauvaise. Il ne comprenait pas les accents (“Je suis désolé, je n’ai pas compris”). C’était rigide. C’était un arbre de décision, pas une IA. En 2024, le stack a considérablement mûri. Nous pouvons désormais créer des interactions vocales à l’échelle humaine. Le pipeline se compose de trois étapes : Oreille -> Cerveau -> Bouche.
1. L’oreille : synthèse vocale (STT)
Cela convertit les ondes audio en texte. Le leader : OpenAI Whisper. Il s’agit d’un modèle de transformateur formé sur 680 000 heures de données multilingues. Il gère parfaitement les accents, les bruits de fond (ambiance Starbucks) et le jargon technique.
- Latence : ~300 ms (modèle Turbo).
- API :
POST /audio/transcriptions. - Innovation : il comprend “Ums” et “Ahs” et les filtre.
2. Le cerveau : grand modèle linguistique (LLM)
Celui-ci traite le texte et décide quoi dire. Le Leader : GPT-4o ou Claude 3.5. La voix nécessite une grande intelligence pour comprendre le contexte (« Je veux celle-là mais en rouge »). Les chatbots standards échouent ici. Vous avez besoin de modèles qui comprennent Intent et Nuance.
- Latence : ~500 ms (premier jeton).
3. La bouche : synthèse vocale (TTS)
Cela reconvertit le texte en audio. Le leader : ElevenLabs. Il génère un son hyperréaliste et émotionnel. Ça respire. Il fait une pause. Ça rigole. Il intone correctement les questions.
- Latence : ~300 ms (Streaming).
Le défi de l’ingénierie : la latence
Si vous enchaînez ces trois API séquentiellement :
Attendez l'utilisateur -> STT (1s) -> LLM (2s) -> TTS (1s) -> Lire l'audio.
Délai total : 4 secondes.
Dans une conversation, 4 secondes, c’est une éternité.
“Bonjour?” … (4s de silence) … “Bonjour.”
C’est cassé. Les utilisateurs raccrocheront.
Nous devons passer sous 1 seconde (le « seuil magique » de la conversation).
Solution : pipelines de streaming et WebSockets. Nous n’attendons pas que l’utilisateur ait fini de parler. On n’attend pas que le LLM ait fini de réfléchir.
- VAD (Voice Activity Detection) : Le navigateur utilise l’API WebAudio pour détecter lorsque l’utilisateur arrête de parler (silence > 500 ms). Il coupe automatiquement le microphone.
- Optimistic STT : envoyez des morceaux audio à Whisper au fur et à mesure qu’ils sont enregistrés via WebSocket.
- LLM Streaming : dès que GPT-4 génère le premier mot (“Bonjour”), envoyez-le à ElevenLabs.
- Diffusion audio : dès qu’ElevenLabs génère le premier octet audio pour “Bonjour”, lisez-le. Ce traitement parallèle ramène la latence perçue à ~800 ms. GPT-4o (Omni) : effectue cela de manière native (entrée audio/sortie audio) dans un seul modèle, réduisant la latence à ~ 300 ms. C’est le Saint Graal.
Cas d’utilisation pour le commerce du luxe
1. La conciergerie
Imaginez un bouton « Appeler le concierge » sur votre application.
- Utilisateur : “J’ai besoin d’un cadeau pour ma femme. Elle adore les foulards en soie mais déteste la couleur jaune. Le budget est d’environ 300 euros.”
- AI : “Je comprends. J’ai un magnifique carré de soie style Hermès bleu azur. Il coûte 250 euros. Je vous le montre ?”
- Utilisateur : “Oui.”
- L’application Navigue automatiquement vers la page produit. Il s’agit d’une interaction multimodale. La voix anime l’écran.
2. Le support post-achat
- Utilisateur : “Où est ma commande ?”
- AI : “Je vois la commande n°1234. Elle est actuellement à Lyon. FedEx dit qu’elle arrivera demain à 14 heures. Voulez-vous que je vous envoie le lien de suivi par SMS ?”
- Utilisateur : “Oui, s’il vous plaît.” Cela remplace les menus IVR frustrants « Appuyez sur 1 pour l’anglais ».
3. Commerce embarqué
Les conducteurs ne peuvent pas regarder les écrans. “Hey Maison, commande à nouveau mon eau de Cologne habituelle.” La transaction se déroule uniquement via l’audio.
Confidentialité et confiance : le problème du “Hot Mic”
Les utilisateurs sont paranoïaques à l’idée que les applications écoutent leurs conversations. C’est le plus grand obstacle à l’adoption. Meilleures pratiques :
- Push-to-Talk : nécessite d’appuyer sur un bouton physique pour écouter. C’est plus sûr que “Wake Words” (“Hey Siri”) qui implique une surveillance constante.
- Retour visuel : affiche une animation de forme d’onde lors de l’écoute. Afficher un état “Traitement”.
- Données éphémères : Ne stockez pas les enregistrements audio. Transcrivez et supprimez immédiatement. Indiquez-le dans votre politique de confidentialité.
- Traitement local : si possible, exécutez le moteur « Wake Word » sur l’appareil (TensorFlow.js) afin qu’aucun audio ne soit envoyé vers le cloud jusqu’à ce que l’utilisateur le souhaite.
Le point de vue du sceptique
“Les gens ne veulent pas parler aux robots.” Contre-point : Les gens ne veulent pas parler à des robots stupides. Les gens adorent parler à des assistants intelligents (Elle, Jarvis). Une fois que la latence diminue et que l’intelligence augmente, les frictions semblent minimes. De plus, la génération Alpha (enfants) utilise uniquement la voix. Ils effectuent des recherches sur YouTube en criant sur l’iPad. Ce sont vos futurs clients.
##FAQ
Q : Est-ce cher ? R : Oui. STT + LLM + TTS = ~ 0,05 € par minute. C’est moins cher qu’un agent humain (0,50 €/min), mais plus cher qu’un clic sur un bouton (0,00 €). Utilisez-le pour des interactions à forte valeur ajoutée (ventes, support), pas pour la navigation.
Q : Est-il compatible avec plusieurs langues ? R : Oui. Whisper et ElevenLabs sont nativement multilingues. Vous pouvez parler français et l’IA peut répondre en anglais (ou vice versa). Cela ouvre les marchés mondiaux sans embaucher d’équipes d’assistance locales.
Conclusion
La voix est l’interface ultime car c’est l’interface la plus ancienne. Nous parlons depuis 100 000 ans. Nous cliquons sur des souris depuis 40 ans. Voice est un « retour aux sources ». En 2026, une marque sans interface vocale se sentira aussi muette qu’une marque sans site internet en 2000. Nous passons de « Rechercher » à « Demander ».
13. Authentification vocale (biométrie)
“Achat confirmé.” Comment sait-on que c’est toi ? Biométrie vocale. Votre empreinte vocale est unique. Nous pouvons utiliser l’IA pour vérifier l’identité avec une précision de 99,9 % (« Ma voix est mon mot de passe »). C’est plus simple que de demander un code PIN ou un SMS 2FA. Toutefois, pour les articles de grande valeur, nous recommandons un Flux hybride : “Commande passée. Veuillez confirmer avec FaceID sur votre téléphone.” Cette approche multifactorielle équilibre vitesse et sécurité.
14. Le flux hybride voix/écran
La voix est idéale pour la saisie (“Trouver des chaussures rouges”). L’écran est idéal pour la sortie (affichant 10 chaussures rouges). Nous construisons des applications Multimodales. L’utilisateur parle. L’application met à jour l’écran. L’utilisateur appuie sur “Bleu”. L’application dit “Voici les bleus”. Les modes se renforcent mutuellement. Ne forcez pas l’utilisateur à “Écouter” une liste de 10 produits (“Produit 1 : … Produit 2 :…”). C’est une UX terrible. Utilisez Voice pour l’intention, Screen pour la sélection.
15. Conclusion
Les gens parlent différemment de ce qu’ils écrivent. Type : « Meilleur vin rouge 2025 » Parlez : « Qu’est-ce qu’un bon vin rouge pour un dîner steak à moins de 50 euros ? Les requêtes vocales sont Long Tail et Basées sur des questions. Pour classer la voix (Siri/Google Assistant), vous devez structurer votre contenu sous forme de réponses FAQ. La propriété Schema.org « Speakable » aide. Mais il s’agit surtout d’avoir un contenu conversationnel de haute qualité qui répond directement à des questions spécifiques.
14. Accessibilité : au-delà de la commodité
Pour nous, Voice est une fonctionnalité de luxe. Pour un utilisateur aveugle, c’est une fonctionnalité essentielle. En créant une interface vocale, vous rendez par inadvertance votre site accessible aux personnes malvoyantes. Il leur permet de naviguer, de sélectionner des produits et de payer sans lecteur d’écran. Il s’agit d’une conception inclusive. Cela élargit votre adressabilité sur le marché tout en faisant le bien social.
15. Conclusion
Si vous souhaitez offrir une expérience d’achat mains libres haut de gamme, Maison Code peut développer votre stratégie vocale. Nous intégrons Whisper, LLM et ElevenLabs pour créer des interfaces vocales à latence inférieure à la seconde pour le Web et les mobiles.