Wie entscheiden KI-Modelle wie ChatGPT, Claude und Gemini, welche Marken sie empfehlen? Wir haben ein Open-Source-Framework entwickelt, um genau das zu messen, mit 48 Supplement-Marken, 3 LLMs und 144.000 Datenpunkten.
Die Ergebnisse zeigen massive Unterschiede zwischen den Modellen und liefern konkrete Erkenntnisse für Marken, die ihre KI-Sichtbarkeit verbessern wollen.
Das Problem: KI-Suche ist eine Black Box
Wenn ein Nutzer ChatGPT fragt „Welche Supplement-Marken sind in Deutschland gut?“, liefert das Modell eine Liste von Empfehlungen. Aber anders als bei klassischem SEO, wo du Rankings in der Google Search Console siehst, gibt es bei LLMs keine Transparenz darüber, wie Marken gerankt werden.
Wir haben das LLM Brand Visibility and Ranking Framework entwickelt, eine reproduzierbare, statistische Methodik zur Messung der Markensichtbarkeit über mehrere KI-Modelle.
Studiendesign
Unsere Methodik folgt wissenschaftlichen Standards mit statistischer Belastbarkeit:
- 3 LLM-Modelle: Claude (Anthropic), GPT-4o (OpenAI), Gemini 2.5 Flash (Google)
- 48 Supplement-Marken aus dem Visibly AI Brand Radar (deutscher Markt)
- 100 generische Prompts in 2 Clustern (Informational, Commercial), keine Markennamen in den Prompts
- 10 Wiederholungen pro Prompt pro Modell (Temperature=0.7) zur Varianzmessung
- 144.000 Auswertungen insgesamt (100 Prompts x 3 Modelle x 10 Runs x 48 Marken)
- Buyer Persona: 25 Jahre, geht ins Gym, ernährungsbewusst, fragt aus der Ich-Perspektive
Alle Prompts fragen explizit nach Markenempfehlungen („Welche Marken…“), aber nennen nie eine konkrete Marke. Marken werden nur im Output erkannt, mit 3-Schicht-Erkennung: Exact Match, Domain Match und Fuzzy Match.
Ergebnis 1: ESN und AG1 dominieren KI-Empfehlungen
Die Top-Marken nach Mention Rate über alle drei Modelle:
| Rang | Marke | Mention Rate | Top-3 Rate |
|---|---|---|---|
| 1 | ESN | 28,3% | 9,1% |
| 2 | AG1 | 26,0% | 3,4% |
| 3 | Sunday Natural | 13,6% | 2,2% |
| 4 | Foodspring | 13,1% | 3,2% |
| 5 | Ritual | 4,6% | 0,4% |
ESN (Elite Sports Nutrients) führt mit einer Mention Rate von 28,3%, die Marke taucht in etwa jeder 3,5. KI-Antwort zu Supplements auf. AG1 (Athletic Greens) folgt mit 26%, aber mit einer dramatisch anderen Modellverteilung.
Ergebnis 2: Die Modelle sind sich massiv uneinig
Die drei Modelle zeigen grundlegend unterschiedliches Verhalten:
- Gemini ist am markenstärksten (4,7% durchschnittliche Mention Rate), empfiehlt fast 5x mehr Marken als GPT
- Claude liegt in der Mitte (2,2%), ausgewogen zwischen Markennennung und generischer Beratung
- GPT-4o ist am konservativsten (1,0%), bevorzugt generische Supplement-Beratung gegenüber konkreten Markenempfehlungen
Ergebnis 3: AG1 hat einen 57%-Spread zwischen den Modellen
Das eindrucksvollste Ergebnis ist die Marken-Volatilität, wie unterschiedlich jedes Modell dieselbe Marke behandelt:
| Marke | Claude | Gemini | GPT | Spread |
|---|---|---|---|---|
| AG1 | 11,2% | 62,0% | 4,9% | 57,1% |
| Sunday Natural | 16,6% | 21,7% | 2,5% | 19,2% |
| Foodspring | 20,5% | 14,6% | 4,3% | 16,2% |
| ESN | 28,0% | 36,1% | 20,8% | 15,3% |
AG1 erscheint in 62% aller Gemini-Antworten, aber nur in 5% der GPT-Antworten. Das ist ein 12-facher Unterschied für dieselbe Marke bei denselben Prompts. Für Marken bedeutet das: GEO (Generative Engine Optimization) kann keine Einheitslösung sein. Jedes Modell braucht eine eigene Strategie.
Überraschung: More Nutrition nur auf Platz 6
Ein besonders interessantes Ergebnis: More Nutrition landet mit 4,5% Mention Rate nur auf Platz 6, obwohl die Marke im deutschen Supplement-Markt zu den umsatzstärksten zählt. In unserer More Nutrition Umsatz- und SEO-Analyse haben wir gezeigt, dass die Marke über 823.000 monatliche Marken-Suchanfragen und geschätzte 800 Mio. Euro Jahresumsatz erreicht.
Warum ist More Nutrition in der KI-Sichtbarkeit trotzdem so weit hinten? Eine mögliche Erklärung ist die Zielgruppe: Unsere Buyer Persona ist ein 25-jähriger Gym-Gänger, der generisch nach Supplement-Marken fragt. More Nutrition positioniert sich stark über Influencer-Marketing (insbesondere durch Gründer Christian Wolf), was in den Trainingsdaten der LLMs möglicherweise weniger präsent ist als die klassische SEO-Präsenz von ESN oder AG1.
Das zeigt: Hohes Suchvolumen und Markenbekanntheit garantieren nicht automatisch hohe KI-Sichtbarkeit. GEO erfordert andere Signale als klassisches SEO oder Social Media Marketing.
Methodik: Wie wir das gemessen haben
Unser Framework nutzt einen robusten statistischen Ansatz:
- Nur generische Prompts, keine Markennamen in den Prompts. Marken werden nur im LLM-Output erkannt.
- Buyer Persona, alle Prompts simulieren einen echten Nutzer: 25 Jahre, Gym-Gänger, ernährungsbewusst, Ich-Perspektive.
- 3-Schicht-Markenerkennung, Exact Match (Regex mit Wortgrenzen), Domain Match (Brand-URL in der Antwort), Fuzzy Match (thefuzz-Bibliothek für Tippfehler).
- Statistische Tests, Fisher Exact Test für Mention Rates, Mann-Whitney U für Rankings, Benjamini-Hochberg FDR-Korrektur.
- Bootstrap-Konfidenzintervalle, 5.000 Resamples für alle Metriken.
- Power-Analyse, Monte-Carlo-Simulation bestätigt >90% Power bei 10 Runs x 100 Prompts.
Power-Analyse: Wie viele Runs braucht man?
Eine häufige Frage in der LLM-Forschung: Wie viele Wiederholungen braucht man für statistisch belastbare Ergebnisse? Wir haben Monte-Carlo-Simulationen durchgeführt.
| Konfiguration | Beobachtungen | Power (5pp Effekt) | Kosten (3 Modelle) |
|---|---|---|---|
| 10 Runs x 50 Prompts | 1.500 | 34% (zu niedrig) | ~9 EUR |
| 30 Runs x 50 Prompts | 4.500 | 80% (Minimum) | ~28 EUR |
| 20 Runs x 100 Prompts | 6.000 | 93% (empfohlen) | ~37 EUR |
| 30 Runs x 200 Prompts | 18.000 | 100% (Gold Standard) | ~111 EUR |
Faustregel: Mindestens 1.500 Beobachtungen pro Modell (z.B. 30 Runs x 50 Prompts) für statistisch belastbare Ergebnisse. Bei kleinen Unterschieden (unter 5 Prozentpunkte) braucht man deutlich mehr. Mehr Prompts können weniger Runs kompensieren.
Power >= 80% bedeutet eine hohe Wahrscheinlichkeit, einen echten Unterschied zu erkennen. Unter 60% ist das Risiko zu hoch, reale Effekte zu übersehen.
Was das für Marken bedeutet (GEO-Implikationen)
- Erst messen, dann optimieren. Du kannst nicht verbessern, was du nicht misst. Dieses Framework gibt dir eine Baseline.
- Modell-spezifische Strategien sind essenziell. Eine Marke, die auf Gemini sichtbar ist, kann auf GPT unsichtbar sein.
- Der Prompt-Typ macht einen Unterschied. Commercial Prompts („beste Marke für X“) triggern andere Marken als Informational Prompts.
- Konsistenz zählt. ESN hat 20-36% über alle Modelle. AG1 hat 5-62%. ESN hat stabilere KI-Sichtbarkeit.
- Über Zeit tracken. LLM-Trainingsdaten ändern sich. Monatliches Monitoring ist empfohlen.
Interaktiver Report
Den vollständigen interaktiven Report mit allen Charts, Tabellen und Rohdaten kannst du hier ansehen:
Interaktiven HTML-Report öffnen
Alle Rohdaten (CSV) als Download: Ergebnisdaten herunterladen (ZIP)
Open Source: Nutze es für deine Branche
Das gesamte Framework ist Open Source und für jede Branche anpassbar:
GitHub: github.com/AntonioBlago/llm-visibility-framework
- 200 Prompts (erweiterbar), 48 Marken (konfigurierbar), 3 Modelle
- Parallele API-Calls (ThreadPoolExecutor), automatische Report-Generierung
- Interaktiver HTML-Report mit Plotly-Charts
- Statistik-Engine mit Power-Analyse
- MIT-Lizenz, kostenlos nutzbar und anpassbar
Um deine KI-Sichtbarkeit kontinuierlich zu tracken und zu verbessern, schau dir Visibly AI an, unser SEO-Agent-System mit KI-Brand-Monitoring, Competitor Radar und GEO-Optimierungstools.





