LLM Fine-Tuning vs. RAG: So bringen Sie KI Ihrem Unternehmen bei
Sollten Sie Ihr eigenes KI-Modell trainieren? Wahrscheinlich nicht. Der mathematische Unterschied zwischen „Erlernen einer Fertigkeit“ (Feinabstimmung) und „Lesen eines Buches“ (RAG).
Das „Training“-Missverständnis
Im Jahr 2025 hat jeder CTO den gleichen Auftrag: „Wir brauchen unsere eigene KI.“ Sie kommen zu uns und sagen: „Wir wollen ein Modell anhand unserer Daten trainieren, damit es unseren Produktkatalog kennt.“ Wenn sie „Trainieren“ sagen, stellen sie sich Lernen im „Matrix“-Stil vor. Laden Sie die Daten hoch und die KI kennt Kung-Fu. Dies ist ein grundlegendes Missverständnis der Funktionsweise von Large Language Models (LLMs). Sie gehen davon aus, dass es sich bei der Pipeline um Folgendes handelt: „Dokumente -> Feinabstimmung -> Smart Model“. In Wirklichkeit ist Fine-Tuning fast nie das richtige Werkzeug zur Wissensinjektion. Um zu verstehen, warum, müssen wir zwischen prozeduralem Gedächtnis (Fähigkeiten) und semantischem Gedächtnis (Fakten) unterscheiden. Durch die Feinabstimmung lernt das Modell, wie man spricht. RAG bringt dem Modell bei, worüber es sprechen soll.
Warum Maison Code dies bespricht
Bei Maison Code bauen wir KI-Systeme für Unternehmen. Wir sehen Unternehmen, die 50.000 US-Dollar für die Feinabstimmung von Llama 3 in ihrer Dokumentation ausgeben, nur um dann herauszufinden, dass das Modell immer noch halluziniert. „Warum stand dort, dass das Produkt 50 € kostet? Wir haben den Preis im Datensatz auf 60 € aktualisiert!“ Weil Gewichte klebrig sind. Sobald ein Modell während des Trainings etwas gelernt hat, ist es schwierig, es wieder zu verlernen. Wir implementieren RAG-Architekturen (Retrieval Augmented Generation), weil sie dynamisch, kostengünstiger und auf der Wahrheit beruhen. Wir retten unsere Kunden vor der „Trainingsfalle“.
Die Studentenanalogie
Stellen Sie sich vor, Sie schicken einen Studenten (das LLM) zu einer Biologieprüfung (die Benutzerabfrage). Der Student ist schlau, kennt aber den spezifischen Lehrplan Ihrer Universität (Ihre Geschäftsdaten) nicht.
Ansatz 1: Vorschulung (Das Kind)
Dadurch wird das Gehirn von Grund auf aufgebaut. Sie bringen dem Kind bei, zu lesen, zu schreiben, Logik zu üben und die Welt zu verstehen. Kosten: 100 Millionen US-Dollar + 10.000 GPUs. Wer macht das: OpenAI, Google, Meta, Mistral. Das sollten Sie NIEMALS tun. Es sei denn, Sie sind eine souveräne Nation.
Ansatz 2: Feinabstimmung (The Med School)
Man nimmt einen klugen Studenten und schickt ihn für vier Jahre auf die medizinische Fakultät. Sie benehmen sich wie ein Arzt. Sie sprechen wie ein Arzt und verwenden lateinische Wörter. Sie schreiben Rezepte korrekt aus. Aber kennen sie den aktuellen Blutdruck von Patient John Doe? Nein. Weil sie gestern ihren Abschluss gemacht haben. Sie haben keinen Zugriff auf die Live-Patientenakte. Durch die Feinabstimmung werden Verhalten und Stil geändert. Es lehrt das Modell neue Syntax (z. B. „MaisonScript“) oder wie man unhöflich/höflich ist oder wie man JSON ausgibt. Es ist NICHT gut für Fakten, denn Fakten ändern sich. Kosten: 1.000 – 10.000 €.
Ansatz 3: RAG (The Open Book Exam)
Du nimmst einen klugen Schüler. Man schickt sie nicht aufs Medizinstudium. Stattdessen geben Sie ihnen ein umfangreiches Lehrbuch (Ihre Datenbank) und sagen: „Die Antwort können Sie während der Prüfung nachschlagen.“ Wenn die Frage gestellt wird („Wie hoch ist der Blutdruck von John Doe?“), durchsucht der Schüler das Buch, findet die Seite, liest sie und generiert die Antwort. RAG (Retrieval Augmented Generation) verwaltet Wissen. Kosten: 0,01 € pro Abfrage.
Deep Dive: Retrieval Augmented Generation (RAG)
RAG ist die Architektur der Wahl für 95 % der KI-Anwendungen in Unternehmen. Es löst zwei massive Probleme:
- Halluzination: Das Modell wird gezwungen, den bereitgestellten Kontext zu verwenden. Wenn im Kontext „Der Umsatz betrug 5 Mio. US-Dollar“ steht, wird das Modell nicht „10 Mio. US-Dollar“ erraten.
- Veraltetheit: Sie müssen das Modell nicht neu trainieren, wenn sich Ihr Inventar ändert. Sie aktualisieren einfach die Datenbank.
Der RAG-Stack
- Einnahme:
- Nehmen Sie Ihre PDFs, Notion-Dokumente und SQL-Datenbanken mit.
- Chunking: Teilen Sie sie in kleine Teile auf (z. B. 500 Wörter). Überlappen Sie sie mit 50 Wörtern, um den Kontext zu bewahren.
- Einbettung:
- Führen Sie jeden Block durch ein Einbettungsmodell (OpenAI „text-embedding-3-small“ oder „Cohere“).
- Dadurch wird Text in einen Vektor (eine Liste mit 1536 Zahlen) konvertiert.
- Vektordatenbank:
- Speichern Sie diese Vektoren in Pinecone, Weaviate oder pgvector.
- Abruf:
- Benutzer fragt: „Haben wir rote Hemden?“
- Frage in Vektor umwandeln.
- Durchsuchen Sie die Datenbank nach „Nächste Nachbarn“ (Kosinusähnlichkeit).
- DB gibt zurück: „Red Shirt Bundle – Stock: 50“.
- Generation:
- Eingabeaufforderung erstellen: „Text Sie sind ein hilfreicher Assistent. Beantworten Sie die Benutzerfrage NUR basierend auf dem folgenden Kontext. Kontext: „Rothemd-Paket – Bestand: 50“ Frage: „Haben wir rote Hemden?“ Antwort: „
- LLM antwortet: „Ja, wir haben 50 auf Lager.“
Bei Bedarf: Feinabstimmung (Domänenanpassung)
Ist Fine-Tuning also nutzlos? Nein. Es gibt bestimmte Anwendungsfälle, in denen RAG versagt.
Anwendungsfall 1: Der Codegenerator Sie haben eine interne Programmiersprache namens „MaisonScript“. GPT-4 hat es noch nie gesehen. RAG hilft nicht, denn wenn Sie einen Codeausschnitt abrufen, versteht das Modell die Grammatik oder Compilerregeln immer noch nicht. Sie optimieren Llama 3 anhand von 50.000 Zeilen MaisonScript. Jetzt „spricht“ es die Sprache fließend.
Anwendungsfall 2: Die Markenstimme Sie sind eine Luxusmarke. Du verwendest niemals Emojis. Du klingst immer leicht distanziert und französisch. Die Standardpersönlichkeit von GPT-4 ist „Cheerleader-Funktionalität“. Prompt Engineering („Keine Emojis verwenden“) ist schwach. Es vergisst. Sie nehmen die Feinabstimmung anhand von 1.000 früheren E-Mails Ihres Concierge-Teams vor. Jetzt übernimmt es diese Persona auf natürliche Weise zu 100 %.
Anwendungsfall 3: Latenz und Kostenreduzierung GPT-4 ist teuer und langsam. Sie können GPT-4 verwenden, um Trainingsdaten zu generieren (Fragen + perfekte Antworten). Anschließend optimieren Sie anhand dieser Daten ein kleines Modell (Mistral 7B oder GPT-3.5). Das kleine Modell lernt, das große Modell nachzuahmen. Jetzt betreiben Sie das winzige Modell für 1/10 der Kosten und mit der 10-fachen Geschwindigkeit. Das ist Destillation.
Die Kosten-Nutzen-Analyse
| Funktion | RAG | Feinabstimmung |
|---|---|---|
| Wissensquelle | Dynamisch (Echtzeit-DB) | Statisch (Trainingssatz) |
| Einrichtungszeit | Tage | Wochen/Monate |
| Wartung | Niedrig (Automatische Synchronisierung) | Hoch (Neutraining bei jedem Drift) |
| Genauigkeit | Hoch (geerdet) | Mittel (Halluzinationen möglich) |
| Kosten | Lagerung + Einbettungen | Compute (GPU-Training) |
| Am besten für | Qualitätssicherung, Suche, Analyse | Stil, Ton, Code, Logik |
11. Bewertung: Woher wissen Sie, dass es funktioniert?
„Das Modell sieht gut aus.“ -> Das ist keine Technik. Wir verwenden das Framework RAGAS (Retrieval Augmented Generation Assessment). Es misst:
- Treue: Basiert die Antwort nur auf dem Kontext?
- Antwortrelevanz: Wurde tatsächlich der Blutdruck berechnet?
- Kontextpräzision: Hat die Datenbank die richtige Seite zurückgegeben? Wir führen diese Evaluierungssuite in CI/CD aus. Wenn die Modellgenauigkeit unter 90 % fällt, schlägt die Bereitstellung fehl.
12. Skalierung der Vektordatenbank (die 10-Millionen-Grenze)
Pinecone eignet sich hervorragend für 100.000 Vektoren. Was ist mit 100 Millionen? Im Maßstab ist „Exact KNN“ (das Finden der perfekten Übereinstimmung) zu langsam. Wir verwenden den Index HNSW (Hierarchical Navigable Small World). Es handelt sich um eine ungefähre Suche (ANN). Es tauscht 1 % Genauigkeit gegen 1000-fache Geschwindigkeit. Wir aktivieren auch die Hybrid-Suche (Schlüsselwort + Vektor), um exakte SKU-Suchen durchzuführen („Show me SKU-123“), bei der die Vektorsuche bekanntermaßen schlecht ist.
13. Datenkuration: Müll rein, Müll raus
Das Training mit 100 schlechten Beispielen ist schlechter als das Training mit 0. Wenn Sie ein Modell anhand Ihrer Kundensupport-Protokolle trainieren und Ihre Agenten unhöflich sind, wird die KI unhöflich sein. Datenkuration macht 80 % der Arbeit aus.
- Deduplizierung: Entfernen Sie identische Fragen.
- PII-Stripping: E-Mails und Telefonnummern entfernen.
- Goldstandard: Lassen Sie die Antworten von einem erfahrenen Mitarbeiter so umschreiben, dass sie perfekt sind. Wir haben ein internes Tool „Maison Annotate“ entwickelt, um Teams dabei zu helfen, ihre Datensätze zu bereinigen, bevor eine einzelne GPU hochgefahren wird.
14. Effizientes Training: LoRA (Low-Rank Adaptation)
Vollständige Feinabstimmung aktualisiert 70 Milliarden Parameter. Dies erfordert 8 x H100-GPUs (30 €/Std.). LoRA friert die Hauptgewichte ein und trainiert nur eine winzige „Adapter“-Schicht (1 % der Parameter). Ergebnis: Sie können Llama 3 auf einer einzelnen Verbraucher-GPU (RTX 4090) trainieren. Die Adapterdatei ist nur 100 MB groß. Sie können Adapter zur Laufzeit im laufenden Betrieb austauschen:
- Benutzer A spricht mit „Medical Adapter“.
- Benutzer B spricht mit „Legal Adapter“. Alle werden vom gleichen Basismodell bedient.
15. Fazit: Die hybride Zukunft
Die besten Systeme nutzen beides. Wir nennen das Fine-Tuned RAG.
- Feinabstimmung eines kleinen, effizienten Modells, damit es Ihr spezifisches Dokumentformat wirklich gut lesen und Ihr spezifisches JSON-Schema ausgeben kann.
- Verwenden Sie RAG, um dieses Modell mit den neuesten Fakten aus der Datenbank zu versorgen. Dadurch erhalten Sie die Zuverlässigkeit eines Spezialisten (Fine-Tuning) mit dem Wissen einer Enzyklopädie (RAG). Wähle nicht. Kombinieren.
Model halluziniert?
Wenn Ihr KI-Chatbot Ihre Kunden anlügt oder Ihr „Schulungs“-Projekt keine Ergebnisse liefert, kann Maison Code Ihre Pipeline neu gestalten. Wir implementieren RAG-Systeme in Produktionsqualität mit Pinecone und LangChain, um Ihre KI auf die Wahrheit zu bringen.