• Start
  • >
  • Blog
  • >
  • Analyse
  • >
  • Wie LLMs Marken ranken: Eine statistische Studie zur KI-Sichtbarkeit mit Claude, GPT-4o und Gemini

  Minuten Lesedauer verbleibend

April 4, 2026

GEO, LLM, Nahrungsergänzungmittel, Studie
Modell Unterschiede in den Erwähnungen

Zusammenfassung mit einem Klick


5
(1)

Wie entscheiden KI-Modelle wie ChatGPT, Claude und Gemini, welche Marken sie empfehlen? Wir haben ein Open-Source-Framework entwickelt, um genau das zu messen, mit 48 Supplement-Marken, 3 LLMs und 144.000 Datenpunkten.

Die Ergebnisse zeigen massive Unterschiede zwischen den Modellen und liefern konkrete Erkenntnisse für Marken, die ihre KI-Sichtbarkeit verbessern wollen.

Das Problem: KI-Suche ist eine Black Box

Wenn ein Nutzer ChatGPT fragt „Welche Supplement-Marken sind in Deutschland gut?“, liefert das Modell eine Liste von Empfehlungen. Aber anders als bei klassischem SEO, wo du Rankings in der Google Search Console siehst, gibt es bei LLMs keine Transparenz darüber, wie Marken gerankt werden.

Wir haben das LLM Brand Visibility and Ranking Framework entwickelt, eine reproduzierbare, statistische Methodik zur Messung der Markensichtbarkeit über mehrere KI-Modelle.

Studiendesign

Unsere Methodik folgt wissenschaftlichen Standards mit statistischer Belastbarkeit:

  • 3 LLM-Modelle: Claude (Anthropic), GPT-4o (OpenAI), Gemini 2.5 Flash (Google)
  • 48 Supplement-Marken aus dem Visibly AI Brand Radar (deutscher Markt)
  • 100 generische Prompts in 2 Clustern (Informational, Commercial), keine Markennamen in den Prompts
  • 10 Wiederholungen pro Prompt pro Modell (Temperature=0.7) zur Varianzmessung
  • 144.000 Auswertungen insgesamt (100 Prompts x 3 Modelle x 10 Runs x 48 Marken)
  • Buyer Persona: 25 Jahre, geht ins Gym, ernährungsbewusst, fragt aus der Ich-Perspektive

Alle Prompts fragen explizit nach Markenempfehlungen („Welche Marken…“), aber nennen nie eine konkrete Marke. Marken werden nur im Output erkannt, mit 3-Schicht-Erkennung: Exact Match, Domain Match und Fuzzy Match.

Ergebnis 1: ESN und AG1 dominieren KI-Empfehlungen

Brand Visibility Ranking

Die Top-Marken nach Mention Rate über alle drei Modelle:

Rang Marke Mention Rate Top-3 Rate
1 ESN 28,3% 9,1%
2 AG1 26,0% 3,4%
3 Sunday Natural 13,6% 2,2%
4 Foodspring 13,1% 3,2%
5 Ritual 4,6% 0,4%

ESN (Elite Sports Nutrients) führt mit einer Mention Rate von 28,3%, die Marke taucht in etwa jeder 3,5. KI-Antwort zu Supplements auf. AG1 (Athletic Greens) folgt mit 26%, aber mit einer dramatisch anderen Modellverteilung.

Ergebnis 2: Die Modelle sind sich massiv uneinig

Modellvergleich

Die drei Modelle zeigen grundlegend unterschiedliches Verhalten:

  • Gemini ist am markenstärksten (4,7% durchschnittliche Mention Rate), empfiehlt fast 5x mehr Marken als GPT
  • Claude liegt in der Mitte (2,2%), ausgewogen zwischen Markennennung und generischer Beratung
  • GPT-4o ist am konservativsten (1,0%), bevorzugt generische Supplement-Beratung gegenüber konkreten Markenempfehlungen

Ergebnis 3: AG1 hat einen 57%-Spread zwischen den Modellen

Brand Volatilität

Das eindrucksvollste Ergebnis ist die Marken-Volatilität, wie unterschiedlich jedes Modell dieselbe Marke behandelt:

Marke Claude Gemini GPT Spread
AG1 11,2% 62,0% 4,9% 57,1%
Sunday Natural 16,6% 21,7% 2,5% 19,2%
Foodspring 20,5% 14,6% 4,3% 16,2%
ESN 28,0% 36,1% 20,8% 15,3%

AG1 erscheint in 62% aller Gemini-Antworten, aber nur in 5% der GPT-Antworten. Das ist ein 12-facher Unterschied für dieselbe Marke bei denselben Prompts. Für Marken bedeutet das: GEO (Generative Engine Optimization) kann keine Einheitslösung sein. Jedes Modell braucht eine eigene Strategie.

Überraschung: More Nutrition nur auf Platz 6

Ein besonders interessantes Ergebnis: More Nutrition landet mit 4,5% Mention Rate nur auf Platz 6, obwohl die Marke im deutschen Supplement-Markt zu den umsatzstärksten zählt. In unserer More Nutrition Umsatz- und SEO-Analyse haben wir gezeigt, dass die Marke über 823.000 monatliche Marken-Suchanfragen und geschätzte 800 Mio. Euro Jahresumsatz erreicht.

Warum ist More Nutrition in der KI-Sichtbarkeit trotzdem so weit hinten? Eine mögliche Erklärung ist die Zielgruppe: Unsere Buyer Persona ist ein 25-jähriger Gym-Gänger, der generisch nach Supplement-Marken fragt. More Nutrition positioniert sich stark über Influencer-Marketing (insbesondere durch Gründer Christian Wolf), was in den Trainingsdaten der LLMs möglicherweise weniger präsent ist als die klassische SEO-Präsenz von ESN oder AG1.

Das zeigt: Hohes Suchvolumen und Markenbekanntheit garantieren nicht automatisch hohe KI-Sichtbarkeit. GEO erfordert andere Signale als klassisches SEO oder Social Media Marketing.

Methodik: Wie wir das gemessen haben

Unser Framework nutzt einen robusten statistischen Ansatz:

  1. Nur generische Prompts, keine Markennamen in den Prompts. Marken werden nur im LLM-Output erkannt.
  2. Buyer Persona, alle Prompts simulieren einen echten Nutzer: 25 Jahre, Gym-Gänger, ernährungsbewusst, Ich-Perspektive.
  3. 3-Schicht-Markenerkennung, Exact Match (Regex mit Wortgrenzen), Domain Match (Brand-URL in der Antwort), Fuzzy Match (thefuzz-Bibliothek für Tippfehler).
  4. Statistische Tests, Fisher Exact Test für Mention Rates, Mann-Whitney U für Rankings, Benjamini-Hochberg FDR-Korrektur.
  5. Bootstrap-Konfidenzintervalle, 5.000 Resamples für alle Metriken.
  6. Power-Analyse, Monte-Carlo-Simulation bestätigt >90% Power bei 10 Runs x 100 Prompts.

Power-Analyse: Wie viele Runs braucht man?

Eine häufige Frage in der LLM-Forschung: Wie viele Wiederholungen braucht man für statistisch belastbare Ergebnisse? Wir haben Monte-Carlo-Simulationen durchgeführt.

Konfiguration Beobachtungen Power (5pp Effekt) Kosten (3 Modelle)
10 Runs x 50 Prompts 1.500 34% (zu niedrig) ~9 EUR
30 Runs x 50 Prompts 4.500 80% (Minimum) ~28 EUR
20 Runs x 100 Prompts 6.000 93% (empfohlen) ~37 EUR
30 Runs x 200 Prompts 18.000 100% (Gold Standard) ~111 EUR

Faustregel: Mindestens 1.500 Beobachtungen pro Modell (z.B. 30 Runs x 50 Prompts) für statistisch belastbare Ergebnisse. Bei kleinen Unterschieden (unter 5 Prozentpunkte) braucht man deutlich mehr. Mehr Prompts können weniger Runs kompensieren.

Power >= 80% bedeutet eine hohe Wahrscheinlichkeit, einen echten Unterschied zu erkennen. Unter 60% ist das Risiko zu hoch, reale Effekte zu übersehen.

Was das für Marken bedeutet (GEO-Implikationen)

  1. Erst messen, dann optimieren. Du kannst nicht verbessern, was du nicht misst. Dieses Framework gibt dir eine Baseline.
  2. Modell-spezifische Strategien sind essenziell. Eine Marke, die auf Gemini sichtbar ist, kann auf GPT unsichtbar sein.
  3. Der Prompt-Typ macht einen Unterschied. Commercial Prompts („beste Marke für X“) triggern andere Marken als Informational Prompts.
  4. Konsistenz zählt. ESN hat 20-36% über alle Modelle. AG1 hat 5-62%. ESN hat stabilere KI-Sichtbarkeit.
  5. Über Zeit tracken. LLM-Trainingsdaten ändern sich. Monatliches Monitoring ist empfohlen.

Interaktiver Report

Den vollständigen interaktiven Report mit allen Charts, Tabellen und Rohdaten kannst du hier ansehen:

Interaktiven HTML-Report öffnen

Alle Rohdaten (CSV) als Download: Ergebnisdaten herunterladen (ZIP)

Open Source: Nutze es für deine Branche

Das gesamte Framework ist Open Source und für jede Branche anpassbar:

GitHub: github.com/AntonioBlago/llm-visibility-framework

  • 200 Prompts (erweiterbar), 48 Marken (konfigurierbar), 3 Modelle
  • Parallele API-Calls (ThreadPoolExecutor), automatische Report-Generierung
  • Interaktiver HTML-Report mit Plotly-Charts
  • Statistik-Engine mit Power-Analyse
  • MIT-Lizenz, kostenlos nutzbar und anpassbar

Um deine KI-Sichtbarkeit kontinuierlich zu tracken und zu verbessern, schau dir Visibly AI an, unser SEO-Agent-System mit KI-Brand-Monitoring, Competitor Radar und GEO-Optimierungstools.

Wie hilfreich war dieser Beitrag?

Klicke auf die Sterne um zu bewerten!

Durchschnittliche Bewertung 5 / 5. Anzahl Bewertungen: 1

Bisher keine Bewertungen! Sei der Erste, der diesen Beitrag bewertet.

Profile Picture Antonio Blago
Antonio Blago

Hi, ich bin Antonio. Ich optimiere SEO datengetrieben mit Python, Verkaufspsychologie und meinem Neuro-SEO System®. So verstehe ich, wie Käufer ticken, und entwickle gezielte Strategien für mehr Sichtbarkeit. Auf YouTube, LinkedIn und Instagram teile ich regelmäßig praxisnahe Anleitungen, Insights und aktuelle SEO-Tricks. Abonniere gern meine Kanäle und bleib immer auf dem neuesten Stand.

Über den Autor

Hi, ich bin Antonio.
Ich optimiere SEO datengetrieben mit Python, Verkaufspsychologie und meinem Neuro-SEO System®. So verstehe ich, wie Käufer ticken, und entwickle gezielte Strategien für mehr Sichtbarkeit.
Auf YouTube, LinkedIn und Instagram teile ich regelmäßig praxisnahe Anleitungen, Insights und aktuelle SEO-Tricks.
Abonniere gern meine Kanäle und bleib immer auf dem neuesten Stand.

Podcast, SEO

Strategie 2026: Entitäten SEO & Knowledge Graph Experte Maximilian D. Muhr im Gespräch mit Antonio Blago

5 (1) Wer heute noch SEO ausschließlich mit Keywords und Backlinks gleichsetzt, [...]

Podcast, SEO

Newsletter Marketing Strategie: E-Mail & Kundenbindung

5 (1) Zum Video: Einleitung Eine durchdachte Newsletter Marketing Strategie ist heute [...]

Podcast, SEO

Coaching Führungskräfte: Was du von einem Top-Trainer lernst

0 (0) Coaching für Führungskräfte ist kein Luxus. Es ist der entscheidende [...]

Podcast, SEO

BWA erklärt: Die 5 größten Finanzfallen für D2C-Brands

0 (0) Viele D2C-Brands wachsen scheinbar rasant, und stehen trotzdem plötzlich vor [...]

Podcast, SEO

SEO für kleine Unternehmen: Was 2025 wirklich funktioniert

5 (1) Zum Video: Einleitung SEO für kleine Unternehmen ist 2026 kein [...]

{"email":"Email address invalid","url":"Website address invalid","required":"Required field missing"}

Nutze meinen SEO Fahrplan, wie du bei Google auf Seite 1 kommst!

Trage dich dafür in meinem Newsletter ein und erhalte Zugriff für kostenlose Anleitungen, Checklisten und Tools.

>