LLM Fine-Tuning vs RAG : Comment enseigner l'IA à votre entreprise
Devriez-vous former votre propre modèle d’IA ? Probablement pas. La différence mathématique entre « Apprendre une compétence » (Réglage fin) et « Lire un livre » (RAG).
L’idée fausse de la « formation »
En 2025, chaque CTO a le même mandat : « Nous avons besoin de notre propre IA. »
Ils viennent nous voir et nous disent : « Nous voulons entraîner un modèle sur nos données pour qu’il connaisse notre catalogue de produits. »
Quand ils disent « Former », ils imaginent un apprentissage de type « Matrix ». Téléchargez les données et l’IA connaît le kung-fu.
Il s’agit d’une incompréhension fondamentale du fonctionnement des grands modèles linguistiques (LLM).
Ils supposent que le pipeline est :
Documents -> Réglage fin -> Modèle intelligent.
En réalité, le Fine-Tuning n’est presque jamais le bon outil pour l’injection de connaissances.
Pour comprendre pourquoi, nous devons faire la distinction entre la Mémoire procédurale (compétences) et la Mémoire sémantique (faits).
Fine-Tuning apprend au modèle comment parler. RAG enseigne au modèle de quoi parler.
Pourquoi Maison Code en parle
Chez Maison Code, nous construisons des systèmes d’IA d’entreprise. Nous voyons des entreprises dépenser 50 000 € pour peaufiner Llama 3 dans leur documentation, pour ensuite découvrir que le modèle hallucine toujours. “Pourquoi dit-il que le produit coûte 50 € ? Nous avons mis à jour le prix à 60 € dans l’ensemble de données !” Parce que Les poids sont collants. Une fois qu’un modèle apprend un fait pendant la formation, il est difficile de le désapprendre. Nous mettons en œuvre des architectures RAG (Retrieval Augmented Generation) car elles sont dynamiques, moins chères et fondées sur la vérité. Nous sauvons nos clients du « piège de la formation ».
L’analogie étudiante
Imaginez que vous envoyez un étudiant (le LLM) à un examen de biologie (la requête utilisateur). L’étudiant est intelligent mais ne connaît pas le cursus spécifique de votre université (Your Business Data).
Approche 1 : Pré-formation (L’enfant)
Il s’agit de construire le cerveau à partir de zéro. Vous apprenez à l’enfant à lire, à écrire, à faire de la logique et à comprendre le monde. Coût : 100 millions de dollars + 10 000 GPU. Qui fait ça : OpenAI, Google, Meta, Mistral. Vous ne devriez JAMAIS faire cela. Sauf si vous êtes une nation souveraine.
Approche 2 : Mise au point (The Med School)
Vous prenez un étudiant intelligent et l’envoyez à la faculté de médecine pendant 4 ans. Ils se comportent comme un médecin. Ils parlent comme un médecin en utilisant des mots latins. Ils rédigent correctement les ordonnances. Mais connaissent-ils actuellement la tension artérielle du Patient John Doe ? Non, parce qu’ils ont obtenu leur diplôme hier. Ils n’ont pas accès au dossier patient en direct. Le réglage fin modifie le comportement et le style. Il enseigne au modèle une nouvelle syntaxe (par exemple, “MaisonScript”), ou comment être impoli/poli, ou comment générer du JSON. Ce n’est PAS bon pour les faits, car les faits changent. Coût : 1 000 € à 10 000 €.
Approche 3 : RAG (l’examen à livre ouvert)
Vous prenez un étudiant intelligent. Vous ne les envoyez pas à l’école de médecine. Au lieu de cela, vous leur donnez un énorme manuel (Votre base de données) et dites : “Vous pouvez rechercher la réponse pendant l’examen.” Lorsque la question vient (« Quelle est la tension artérielle de John Doe ? »), l’élève cherche dans le livre, trouve la page, la lit et génère la réponse. RAG (Retrieval Augmented Generation) gère les connaissances. Coût : 0,01 € par requête.
Analyse approfondie : Génération augmentée de récupération (RAG)
RAG est l’architecture de choix pour 95 % des applications d’IA d’entreprise. Cela résout deux problèmes majeurs :
- Hallucination : le modèle est obligé d’utiliser le contexte fourni. Si le contexte indique « Les ventes étaient de 5 millions de dollars », le modèle ne devinera pas « 10 millions de dollars ».
- Obsolescence : vous n’avez pas besoin de réentraîner le modèle lorsque votre inventaire change. Vous venez de mettre à jour la base de données.
La pile RAG
- Ingestion :
- Prenez vos PDF, documents Notion, base de données SQL.
- Chunking : divisez-les en petits morceaux (par exemple, 500 mots). Superposez-les de 50 mots pour préserver le contexte.
- Intégration :
- Passez chaque morceau via un modèle d’intégration (OpenAI
text-embedding-3-smallouCohere). - Cela convertit le texte en vecteur (une liste de 1536 nombres).
- Passez chaque morceau via un modèle d’intégration (OpenAI
- Base de données vectorielles :
- Stockez ces vecteurs dans Pinecone, Weaviate ou pgvector.
- Récupération :
- L’utilisateur demande : « Avons-nous des chemises rouges ? »
- Convertir la question en vecteur.
- Base de données de recherche pour les « voisins les plus proches » (similitude cosinus).
- DB renvoie : “Red Shirt Bundle - Stock : 50”.
- Génération :
- Invite de construction :
Vous êtes un assistant utile. Répondez à la question de l'utilisateur en vous basant UNIQUEMENT sur le contexte ci-dessous. Contexte : "Lot de chemises rouges - Stock : 50" Question : « Avons-nous des chemises rouges ? Réponse : - LLM répond : “Oui, nous en avons 50 en stock.”
- Invite de construction :
Si nécessaire : réglage fin (adaptation du domaine)
Alors, le réglage fin est-il inutile ? Non. Il existe des cas d’utilisation spécifiques dans lesquels RAG échoue.
Cas d’utilisation 1 : le générateur de code Vous disposez d’un langage de programmation interne appelé “MaisonScript”. GPT-4 ne l’a jamais vu. RAG ne vous aidera pas car si vous récupérez un extrait de code, le modèle ne comprend toujours pas la grammaire ou les règles du compilateur. Vous affinez Llama 3 sur 50 000 lignes de MaisonScript. Désormais, il « parle » couramment la langue.
Cas d’utilisation 2 : La voix de la marque Vous êtes une marque de luxe. Vous n’utilisez jamais d’émojis. Vous avez toujours l’air légèrement distant et français. La personnalité par défaut de GPT-4 est « Fonctionnalité Cheerleader ». L’ingénierie rapide (“N’utilisez pas d’emojis”) est faible. Ça oublie. Vous l’affinez sur 1 000 e-mails passés de votre équipe de conciergerie. Désormais, il adopte cette personnalité naturellement 100 % du temps.
Cas d’utilisation 3 : Latence et réduction des coûts GPT-4 est cher et lent. Vous pouvez utiliser GPT-4 pour générer des données d’entraînement (Questions + Réponses parfaites). Ensuite, vous affinez un petit modèle (Mistral 7B ou GPT-3.5) sur ces données. Le petit modèle apprend à imiter le grand modèle. Vous exécutez désormais le petit modèle pour 1/10ème du coût et 10 fois la vitesse. Il s’agit de Distillation.
L’analyse coût/bénéfice
| Fonctionnalité | CHIFFON | Mise au point |
|---|---|---|
| Source de connaissances | Dynamique (base de données en temps réel) | Statique (ensemble de formation) |
| Temps de configuration | Jours | Semaines/Mois |
| Entretien | Faible (synchronisation automatique) | Élevé (Réentraînement à chaque dérive) |
| Précision | Élevé (mise à la terre) | Moyen (Hallucinations possibles) |
| Coût | Stockage + Intégrations | Calcul (Formation GPU) |
| Meilleur pour | Assurance qualité, recherche, analyse | Style, ton, code, logique |
11. Évaluation : Comment savez-vous que cela fonctionne ?
“Le modèle a l’air bien.” -> Ce n’est pas de l’ingénierie. Nous utilisons le cadre RAGAS (Retrieval Augmented Generation Assessment). Il mesure :
- Fidélité : La réponse dépend-elle uniquement du contexte ?
- Pertinence de la réponse : A-t-il réellement calculé la tension artérielle ?
- Précision du contexte : la base de données a-t-elle renvoyé la bonne page ? Nous exécutons cette suite d’évaluation en CI/CD. Si la précision du modèle tombe en dessous de 90 %, le déploiement échoue.
12. Mise à l’échelle de la base de données vectorielles (la limite de 10 M)
Pinecone est idéal pour 100 000 vecteurs. Et 100 millions ? À grande échelle, « Exact KNN » (trouver la correspondance parfaite) est trop lent. Nous utilisons l’index HNSW (Hierarchical Navigable Small World). C’est une recherche approximative (ANN). Il échange une précision de 1 % contre une vitesse 1 000x. Nous permettons également à la Recherche hybride (Mot clé + Vecteur) de gérer les recherches de SKU exactes (« Montrez-moi le SKU-123 ») pour lesquelles la recherche vectorielle est notoirement mauvaise.
13. Conservation des données : déchets entrants, déchets sortants
S’entraîner sur 100 mauvais exemples est pire que s’entraîner sur 0. Si vous entraînez un modèle sur vos journaux de support client et que vos agents sont impolis, l’IA sera impolie. La Curation des données représente 80 % du travail.
- Déduplication : supprimez les questions identiques.
- PII Stripping : Supprimez les e-mails et les numéros de téléphone.
- Gold Standard : demandez à un humain senior de réécrire les réponses pour qu’elles soient parfaites. Nous avons construit un outil interne “Maison Annotate” pour aider les équipes à nettoyer leurs ensembles de données avant qu’un seul GPU ne soit lancé.
14. Formation efficace : LoRA (Adaptation de bas rang)
Le réglage complet met à jour 70 milliards de paramètres. Cela nécessite 8 GPU H100 (30 €/h). LoRA gèle les poids principaux et n’entraîne qu’une petite couche « Adaptateur » (1 % des paramètres). Résultat : vous pouvez entraîner Llama 3 sur un seul GPU grand public (RTX 4090). Le fichier de l’adaptateur ne fait que 100 Mo. Vous pouvez remplacer les adaptateurs à chaud au moment de l’exécution :
- L’utilisateur A parle à « Adaptateur médical ».
- L’utilisateur B parle à « Adaptateur légal ». Tous servis à partir du même modèle de base.
15. Conclusion : l’avenir hybride
Les meilleurs systèmes utilisent les deux. Nous appelons cela Fine-Tuned RAG.
- Affiner un petit modèle efficace pour être vraiment doué pour lire votre format de document spécifique et générer votre schéma JSON spécifique.
- Utilisez RAG pour alimenter ce modèle avec les derniers faits de la base de données. Cela vous donne la fiabilité d’un spécialiste (Fine-Tuning) avec la connaissance d’une encyclopédie (RAG). Ne choisissez pas. Combiner.
Le mannequin hallucine ?
Si votre chatbot IA ment à vos clients ou si votre projet de « Formation » n’a pas produit de résultats, Maison Code peut ré-architecturer votre pipeline. Nous mettons en œuvre des systèmes RAG de qualité production en utilisant Pinecone et LangChain pour ancrer votre IA dans la vérité.