Attributionsmodellierung mit SQL: Jenseits von „Last Click“
Die GA4-Standardkanalgruppierung lügt Sie an. So schreiben Sie Roh-SQL in BigQuery, um Time-Decay und positionbasierte Attribution zu berechnen.
In Ihrem Dashboard steht: „E-Mail-Umsatz: 50.000 €“. Ihr Facebook-Manager sagt: „FB-Umsatz: 80.000 €“. Ihr Shopify-Gesamtbetrag beträgt: „\€100.000“. Die Rechnung geht nicht auf. Warum? Doppelte Namensnennung. Sowohl Facebook als auch E-Mail beanspruchen eine Gutschrift für denselben Verkauf. Die meisten Tools verwenden die Zuordnung Letzter Klick. Die letzte Berührung wird zu 100 % gutgeschrieben. Dies macht Ihr Top-of-Funnel-Marketing (TikTok, Influencer) zunichte, da sie selten den letzten Klick generieren. Sie steuern den ersten Klick.
Warum Maison Code darüber spricht
Bei Maison Code Paris fungieren wir als das architektonische Gewissen unserer Kunden. Wir übernehmen oft „moderne“ Stacks, die ohne grundlegendes Verständnis für Skalierung gebaut wurden.
Wir diskutieren dieses Thema, weil es einen kritischen Wendepunkt in der technischen Reife darstellt. Die korrekte Implementierung unterscheidet ein fragiles MVP von einer widerstandsfähigen Plattform auf Unternehmensniveau.
Warum Maison Code über Data Engineering spricht
Marketing ist nicht länger „Kunsthandwerk“. Es ist „Data Science“. Wenn Sie 1 Million US-Dollar pro Jahr für Anzeigen ohne Data Warehouse ausgeben, sind Sie im Blindflug. Wir implementieren benutzerdefinierte Attributionsmodelle. Wir vertrauen der Blackbox von Google nicht. Wir vertrauen auf Raw-SQL. Wir helfen CFOs zu verstehen, wohin das Geld tatsächlich fließt.
1. Die Rohdaten-Pipeline
Um dies zu beheben, benötigen wir Clickstream-Rohdaten. Wir exportieren GA4-Daten nach BigQuery. Wir haben eine Tabelle „events“ mit „user_pseudo_id“, „event_name“, „timestamp“, „source“, „medium“, „campaign“. Die Standard-GA4-Benutzeroberfläche fasst dies zusammen. BigQuery stellt uns das Rohprotokoll zur Verfügung. Jetzt können wir den Benutzerpfad rekonstruieren.
2. Die Modelle
1. Lineare Attribution (sozialistisch)
Jeder Touchpoint erhält die gleiche Anerkennung. Benutzerpfad: „TikTok -> Google Ads -> E-Mail -> Kaufen (100 €)“.
- TikTok: 33,33 €
- Google: 33,33 €
- E-Mail: \€33,33
„sql – BigQuery SQL für lineare Attribution MIT Pfaden AS ( AUSWÄHLEN Benutzer-ID, transaktions_id, ARRAY_AGG(source ORDER BY timestamp) als Touchpoints, ANY_VALUE(Umsatz) als Gesamtumsatz VON „analytics.events“. GRUPPE NACH 1,2 ) AUSWÄHLEN Quelle, SUM(total_revenue / ARRAY_LENGTH(touchpoints)) als attributed_revenue FROM Pfade, UNNEST(Touchpoints) als Quelle GRUPPE NACH 1 „
2. Zeitverfall (Realist)
Berührungen, die näher an der Bekehrung liegen, sind mehr wert. Wir wenden eine Halbwertszeitformel an (z. B. 7 Tage). Benutzerpfad: „TikTok (vor 10 Tagen) -> E-Mail (Heute) -> Kaufen“. E-Mail erhält 80 %. TikTok erhält 20 %. Dies respektiert die „Schließkraft“ des Kanals.
3. Positionsbasiert (U-förmig)
The First Touch (Discovery) und Last Touch (Closer) sind die Helden. Die Mitte ist der „Maintainer“.
- Erstens: 40 %
- Zuletzt: 40 %
- Mittel: 20 % (Geteilt). Dies ist der Standard für Wachstumsteams. Es belohnt den „Jäger“ (TikTok) und den „Näheren“ (E-Mail).
3. Das Fensterproblem (Rückblick)
Wie weit schaust du zurück?
- Facebook-Standard: 7-Tage-Klick, 1-Tages-Ansicht.
- Luxus-Kaufzyklus: 45 Tage. Wenn Sie teure Möbel verkaufen, ist ein 7-Tage-Fenster nutzlos. Mit SQL können wir das „LOOKBACK_WINDOW“ auf 90 Tage setzen. Wir können „Time to Convert“ analysieren. Wir sehen, dass es bei TikTok-Anzeigen 20 Tage dauert, bis sie ausgereift sind, während die Conversion bei Google Ads in 2 Stunden erfolgt.
4. Identitätsauflösung (geräteübergreifend)
Der schwierigste Teil. Der Nutzer klickt auf die Anzeige auf dem iPhone (Mobilgerät). Benutzer kauft auf Laptop (Desktop). GA4 sieht 2 Benutzer. Wir verwenden Benutzer-ID-Stitching. Wenn sie sich anmelden oder auf einen E-Mail-Link (mit „user_id“-Hash) klicken, ordnen wir „device_id_A“ und „device_id_B“ „master_user_X“ zu. Dadurch wird der Weg vereinheitlicht. Ohne dies zählen Sie zu viele Benutzer und unterschätzen die Auswirkungen auf Mobilgeräte.
5. Die Privacy Sandbox (Der Tod der Cookies)
Safari (ITP) löscht Cookies nach 7 Tagen. Chrome lehnt Cookies von Drittanbietern ab. Clientseitiges Tracking ist im Sterben. Server-Side Tracking (CAPI) ist die Antwort. Wir senden Ereignisse vom Server (Shopify/Node.js) direkt an Facebook/Google. Wir umgehen den Browser. Dadurch wird die Datengenauigkeit um 20 % verbessert. Es ist robust gegenüber Werbeblockern.
5. Die Cookie-Apokalypse (detailliert)
Kekse sterben. ITP (Intelligent Tracking Prevention) auf Safari begrenzt die Cookie-Lebensdauer auf 7 Tage (oder 24 Stunden). Firefox blockiert sie standardmäßig. Chrome stellt sie ein. Das bedeutet, dass „Wiederkehrende Benutzer“ wie „Neue Benutzer“ aussehen. Ihre Kennzahlen zur „Neubenutzerakquise“ sind überhöht. Ihr „Einbehalt“ ist entwertet. Die Lösung:
- Erstanbieter-Cookies: Setzen Sie „HttpOnly“-Cookies von Ihrer eigenen Domain („api.maisoncode.paris“). ITP behandelt diese besser.
- Persistente IDs: Bitten Sie Benutzer, sich frühzeitig anzumelden. Verwenden Sie E-Mail als ID, nicht als Cookie.
6. Data Clean Rooms (Snowflake / Ads Data Hub)
In einer Welt, in der der Datenschutz an erster Stelle steht, können Sie keine Daten auf Benutzerebene mit Google teilen. Betreten Sie Data Clean Rooms. Sie laden Ihre Daten (gehashte E-Mails) in eine neutrale sichere Umgebung (Snowflake) hoch. Google lädt seine Daten hoch (gehashte E-Mails, wer Werbung gesehen hat). Der Reinraum gleicht sie ab und liefert Ihnen Gesamtergebnisse. „500 Personen, die die Anzeige gesehen haben, haben das Produkt gekauft.“ Man sieht nie, wer sie sind. Google sieht Ihr CRM nie. Das ist die Zukunft der Anzeigenmessung.
7. Inkrementalitätstests (Ghost Ads)
Attributionsmodelle sind theoretisch. Inkrementalität ist wissenschaftlich. Die Frage: „Hätten sie trotzdem gekauft?“ Der Test:
- Gruppe A: Sieht die Anzeige.
- Gruppe B (Kontrolle): Sieht eine „Ghost Ad“ (oder eine generische PSA) oder nichts. Vergleichen Sie die Conversion-Raten. „Lift = (Conv.-Rate A – Conv.-Rate B)“. Wenn der Lift 0 ist, sind Ihre Anzeigen nutzlos, selbst wenn GA4 angibt, dass sie 1 Million US-Dollar eingebracht haben. Zahlen Sie nicht mehr für Conversions, die Sie kostenlos erhalten hätten.
8. Das Markov-Kettenmodell (algorithmisch)
Linear und U-förmig sind heuristisch (Regeln, die wir erfunden haben). Markov-Ketten sind probabilistisch. Der Algorithmus analysiert 10.000 Pfade. Es berechnet den „Entfernungseffekt“. „Wenn wir TikTok aus dem Mix entfernen, wie viele Conversions verlieren wir?“ Dies ist der „wahre“ Wert des Kanals. Es erfordert Python/R, ist aber der Goldstandard.
9. Die Conversion-Window-Analyse
Mit SQL können wir Fragen beantworten, die GA4 nicht beantworten kann. „Kauft ein Nutzer, der fünfmal vorbeischaut, mehr als ein Nutzer, der zweimal vorbeischaut?“ (Überraschenderweise oft nein. Sie könnten Bots oder unentschlossen sein.) „Was ist die durchschnittliche Zeit zwischen dem ersten Klick und dem Kauf?“ Wenn es 3 Minuten sind, funktioniert Ihre SEO. Wenn es 30 Tage sind, funktioniert Ihr Email Nurture. Wir segmentieren dies nach Produktkategorien. „Socken“ schnell kaufen. „Sofas“ kaufen langsam.
10. Offline-Konvertierungen (POS-Integration)
Wenn Sie physische Geschäfte haben, steigern Ihre Online-Anzeigen den Offline-Umsatz. Wenn Sie dies nicht verfolgen, investieren Sie zu wenig in Anzeigen. Arbeitsablauf:
- Erfassen Sie „customer_email“ oder „loyalty_id“ am Point of Sale (POS).
- Laden Sie diese Liste auf Facebook/Google hoch (Offline Events API).
- Die Werbeplattform passt zum Benutzer.
- „Über Instagram erworben -> Im Pariser Store gekauft“. Damit schließt sich der Kreis. Dadurch verdoppelt sich häufig der gemeldete ROAS Ihrer Kampagnen.
11. Die ROAS-Falle (Umsatz vs. Gewinn)
Marketingmanager optimieren für ROAS (Umsatz / Werbeausgaben). Aber Umsatz ist kein Gewinn. Wenn Sie ein Produkt mit geringer Marge und hohem ROAS verkaufen, verlieren Sie Geld. Wir berechnen POAS (Profit on Ad Spend). „POAS = (Umsatz – Selbstkosten – Versandkosten – Steuern) / Werbeausgaben“. Wir ziehen Margendaten von Shopify in BigQuery. Wir sagen dem Anzeigenmanager: „Beenden Sie die Kampagne mit 4,0 ROAS, weil sie 0,8 POAS hat.“ „Skalieren Sie die Kampagne mit einem ROAS von 2,0, da sie einen POAS von 1,5 hat.“ Optimieren Sie für das Bankkonto, nicht für die Eitelkeitsmetrik.
12. Die Zukunft: Media-Mix-Modellierung (MMM)
Mit dem Ende des Trackings kehren wir in die 1960er Jahre zurück. Ökonometrie. Wir korrelieren „Ad Spend Spikes“ mit „Revenue Spikes“. „Jedes Mal, wenn wir 10.000 € für das Fernsehen ausgeben, steigt die organische Suche um 5 %.“ Wir verwenden Open-Source-Bibliotheken wie Meta Robyn (R) oder Google LightweightMMM (Python), um Bayes’sche Regressionsmodelle auszuführen. Dieses Modell kümmert sich nicht um Cookies. Es geht um Korrelation. Es ist die ultimative Quelle der Wahrheit in einer Welt, in der die Privatsphäre an erster Stelle steht.
13. Fazit
Zuschreibung ist keine Wahrheit. Es ist eine Verhandlung. Es gibt kein „richtiges“ Modell. Aber „Last Click“ ist definitiv das „falsche“ Wachstumsmodell. Wenn Sie zu SQL wechseln, besitzen Sie die Logik. Sie können den Wert Ihrer Markenbekanntheitskampagnen erkennen. Hören Sie auf zu raten. Beginnen Sie mit der Abfrage.
Geld für Werbung verbrennen?
Wir prüfen Ihre Attributionsmodelle, um mit BigQuery und dbt den wahren ROAS zu ermitteln.