Quick Overview
- Datenbasis: 20 vendor-freie Studien (2023 bis 2026), peer-reviewt plus akademische Preprints, Tool-Anbieter-Blogs bewusst ausgeschlossen.
- Nur ein Hebel ist stark belegt: Retrieval- und Kontextposition. Klassische Autorität schlägt Text-Tricks.
- Die „+40 %“ relativiert: eine Proxy-Metrik (Position-Adjusted Word Count) auf einer simulierten Engine, kein gemessener Zitationsrang.
- KI-Suche zitiert unzuverlässig: nur rund 51 % der Aussagen sind voll durch die Quelle gedeckt, bis zu 96 % der Nutzer treffen auf mindestens ein strukturell irreführendes Zitat.
- Vertrauens-Paradox: mehr Zitate erhöhen das Nutzervertrauen, auch wenn sie die Aussage gar nicht stützen.
- Konsequenz: Evidenz vor Tool-Versprechen, robuste Hebel vor stilistischen Tricks, wiederholt messen statt Einzel-Snapshot.
GEO Anbieter, Agenturen oder Freelancer versprechen Sichtbarkeitssprünge in ChatGPT, Perplexity & Co., oft mit einer griffigen Zahl: „bis zu 40 Prozent mehr Sichtbarkeit“. Doch was sagt die begutachtete, vendor-freie Forschung wirklich über Generative Engine Optimization (GEO), Answer Engine Optimization (AEO) und das Zitationsverhalten von KI-Suchsystemen?
Diese Meta-Studie wertet 20 wissenschaftliche Kernarbeiten aus den Jahren 2023 bis 2026 aus, ergänzt um eine unabhängige Felduntersuchung des Tow Center for Digital Journalism, und gleicht jede Wirkungsbehauptung gegen die Primärquelle ab.
Das Ergebnis vorab: Das Bild ist deutlich nüchterner als jedes Marketing Studie. KI-Suche zitiert selektiv, unstetig und nicht selten strukturell irreführend. Nutzer überschätzen die Vertrauenswirkung von Zitaten.
Black-Hat-Manipulation ist empirisch klar machbar, White-Hat-GEO dagegen ist bislang erstaunlich schwach belegt.
Methodik dieser Meta-Studie: Aufgenommen wurden nur peer-reviewte Arbeiten und akademische Preprints (arXiv, Verlags-DOIs). Vendor-Blogs und PR-Studien von SEO-Tool-Anbietern (Similarweb, SEMrush, Ahrefs, Profound, Ranqo und weitere) sind a priori ausgeschlossen und dienen höchstens als Kontrast. Jede Zahl ist gegen die Originalquelle geprüft; wo Sekundärangabe und Primärquelle abweichen, gilt die Primärquelle. Eine Ausnahme bildet eine unabhängige, vendor-freie Felduntersuchung des Tow Center for Digital Journalism (Quelle 21), die nicht peer-reviewt ist, aber als unabhängige Primärerhebung kenntlich gemacht und nur ergänzend herangezogen wird.
Der Forschungsstand: jung, methodisch uneinheitlich, aber belastbar
GEO ist ein reales Forschungsfeld, aber ein junges. Der belastbare Kern besteht aus wenigen peer-reviewten Arbeiten, umgeben von einer schnell wachsenden Preprint-Schicht. Die methodischen Anker sind klar benennbar: Liu, Zhang und Liang legten 2023 die erste systematische Prüfung der Verifizierbarkeit generativer Suche vor[1], Gao et al. lieferten mit ALCE den ersten Benchmark für automatische Zitationsbewertung[2]. Auf der Anwendungsseite bilden der großskalige Präferenzdatensatz Search Arena[10] und der Benchmark C-SEO Bench[18] die belastbarsten Gegenpole zum Tool-Marketing.
Die Sättigung ist nur partiell: Der Zeitraum 2023 bis Mitte 2026 ist gut abgedeckt, doch die Preprint-Welle 2025/26 ist hochdynamisch und teils noch unbegutachtet („Work in Progress“). Methodisch sauber bedeutet hier auch, Dubletten nicht doppelt zu zählen: Mehrere Arbeiten existieren parallel als arXiv-Version und Verlagspublikation, sind aber je eine Studie. Der wissenschaftliche Kernkorpus umfasst damit 20 Studien, flankiert von einer unabhängigen Felduntersuchung des Tow Center (Quelle 21).
Der Bewertungsrahmen: Objektivität, Aktualität, Relevanz, Verlässlichkeit
Damit die Befunde nicht beliebig nebeneinanderstehen, liest diese Meta-Studie sie durch vier Qualitätsdimensionen, angelehnt an die klassische Quellenkritik (vgl. CRAAP-Schema). Diese vier Achsen sind die Brille für alles Folgende:
| Dimension | Leitfrage | Forschungsbefund (Kurz) | Studien |
|---|---|---|---|
| Objektivität | Wählt das System ausgewogen aus, oder zitiert es mit Schieflage? | Sentiment-, kommerzieller, geografischer und politischer Bias durchgängig dokumentiert; auch die Quellenauswahl selbst ist verzerrt | [8][9][11][12][14] |
| Aktualität | Sind Auswahl und Antwort stabil über Zeit und Prompt-Varianten? | Outputs driften über Zeit und Wiederholungen, die schwächste Achse im gesamten Korpus | [10][12][13] |
| Relevanz | Welche Signale entscheiden, dass eine Quelle als passend gewertet wird? | Modelle gewichten Query-Relevanz stark, stilistische Glaubwürdigkeitsmarker schwach | [3][18] |
| Verlässlichkeit | Stützen die Zitate die Aussage tatsächlich? | Nur rund die Hälfte der Sätze ist voll gestützt; strukturelle Fehlzitate sind verbreitet | [1][16][15] |
Auf den Punkt
Ohne Fachbegriffe: KI-Suche gibt zwar Quellen an, aber diese Quellen belegen oft gar nicht das, was die KI behauptet.
- Nur rund die Hälfte der Sätze ist wirklich durch die angegebene Quelle gedeckt. Der Rest klingt belegt, ist es aber nicht.
- Viele Zitate verweisen auf die falsche oder eine fachfremde Quelle. Bis zu 96 Prozent der Nutzer treffen auf mindestens ein irreführendes Zitat.
- KI zitiert sogar Texte, die selbst von einer KI geschrieben wurden, als angeblichen Beleg.
Merke: Ein Zitat ist kein Beweis. Es sieht nur vertrauenswürdig aus.
Zitationsqualität: selektiv, unstetig, strukturell irreführend
Die Verlässlichkeitsachse fällt ernüchternd aus. Liu et al. zeigten für vier generative Suchmaschinen, dass im Mittel nur 51,5 Prozent der erzeugten Sätze vollständig durch ihre Zitate gestützt sind und nur 74,5 Prozent der Zitate die zugeordnete Aussage tatsächlich belegen (Citation Precision)[1]. Gao et al. kommen mit dem ALCE-Benchmark unabhängig zu einem ähnlichen Befund: Bei offenen Fragen (ELI5-Datensatz) liefern selbst die besten Modelle in rund der Hälfte der Fälle keine vollständige Zitationsstützung, bei eng umrissenen Faktenfragen liegt die Stützung höher[2].
Noch deutlicher wird der Benchmark CITETRACE: Über 11.200 Queries und 112.000 Antworten (761.495 Zitationspaare) verzerren 30,6 Prozent der Zitate ihre Quelle, 27,1 Prozent stammen aus domänen-inadäquaten Quellen, und bis zu 96 Prozent der Nutzer treffen auf mindestens ein strukturell irreführendes Zitat[16].
Wichtig für die Einordnung: Das ist ein frischer, noch nicht peer-reviewter Preprint. Hinzu kommt ein Selbstreferenz-Problem: Von den erfolgreich geprüften zitierten Quellen tragen rund 16 Prozent Merkmale KI-generierten Inhalts (je nach KI-System zwischen 7 und 28 Prozent), KI-Suche zitiert also teils KI-Texte als Belege[15].
Wie folgenreich die Quellenauswahl ist, zeigt die Arbeit zu „Answer Bubbles“: Über rund 11.000 reale Suchanfragen und vier Systeme hinweg (klassische Google-Suche, Google AI Overviews, SearchGPT sowie ein GPT-Modell ohne Suche) ist die Quellenauswahl systematisch verzerrt. Wikipedia und lange Texte sind überrepräsentiert, soziale Medien und negativ gerahmte Quellen unterrepräsentiert. Zugleich sinken in den KI-Antworten die Unsicherheitsmarker (Hedging) um bis zu 60 Prozent, während die selbstsichere Sprache erhalten bleibt. Schon die Art der Quellenauswahl beeinflusst also, welche Perspektiven Nutzer überhaupt zu sehen bekommen, und die KI klingt dabei sicherer, als die Quellenlage es trägt[14].
![GEO-Studie: Was die Forschung über KI-Suche wirklich zeigt [META Studie] 3 Belastbarkeit von KI-Zitaten: nur 51,5 Prozent voll gestützte Sätze, 30,6 Prozent verzerrende Zitate, bis zu 96 Prozent der Nutzer treffen auf irreführende Zitate](https://antonioblago.de/wp-content/uploads/2026/06/chart1-citation-reliability.png)
Die wichtigsten Zahlen auf einen Blick
Die zentralen Zahlen aus den Primärquellen, auch ohne das Schaubild lesbar (auf kleinen Displays seitlich scrollbar):
| Befund | Wert | Quelle |
|---|---|---|
| Sätze vollständig durch ihr Zitat gestützt | 51,5 % | [1] Liu et al. |
| Zitate, die ihre Aussage wirklich belegen (Precision) | 74,5 % | [1] Liu et al. |
| Antworten ohne volle Stützung (offene Fragen) | rund 50 % | [2] Gao et al. |
| Zitate, die ihre Quelle verzerren | 30,6 % | [16] CITETRACE |
| Zitate aus fachfremden Quellen | 27,1 % | [16] CITETRACE |
| Nutzer mit mindestens einem irreführenden Zitat | bis 96 % | [16] CITETRACE |
| Zitierte Quellen mit Merkmalen von KI-Text | rund 16 % | [15] Allaham & Diakopoulos |
| Rückgang der Unsicherheitsmarker durch Sucheinbindung | bis 60 % | [14] Answer Bubbles |
Praxis-Beleg: KI-Suche antwortet oft selbstbewusst falsch
Die Laborbefunde decken sich mit einer unabhängigen Felduntersuchung des Tow Center for Digital Journalism (Columbia Journalism Review). Das Team legte acht KI-Suchsystemen 200 wörtliche Auszüge aus echten Nachrichtenartikeln vor (10 Artikel von je 20 Verlagen, also 1.600 Abfragen) und bat sie, Überschrift, Verlag und Original-URL korrekt zuzuordnen. Das Ergebnis: über 60 Prozent der Antworten waren falsch, und zwar meist nicht mit einem ehrlichen „weiß ich nicht“, sondern selbstbewusst falsch. Die Fehlerquote schwankt stark je System, von 37 Prozent bei Perplexity bis zu 94 Prozent bei Grok 3; ChatGPT Search lag bei rund zwei Dritteln (134 von 200) falscher Zuordnungen[21].
![GEO-Studie: Was die Forschung über KI-Suche wirklich zeigt [META Studie] 4 Grafik des Tow Center: acht KI-Suchsysteme und ihr Zitationsverhalten bei 200 Nachrichten-Auszügen, über 60 Prozent falsche Antworten, von Perplexity 37 Prozent bis Grok 3 94 Prozent](https://antonioblago.de/wp-content/uploads/2026/06/cjr-tow-center-ai-search-confidently-wrong.webp)
Bildnachweis und Einordnung: Die Grafik stammt aus der Untersuchung „We compared eight AI search engines. They’re all bad at citing news.“ von Klaudia Jaźwińska und Aisvarya Chandrasekar (Columbia Journalism Review / Tow Center for Digital Journalism, 2025) und wird hier zu Informations- und Zitatzwecken mit Quellenangabe wiedergegeben. Alle Rechte am Bild liegen beim Urheber. Diese Felduntersuchung ist nicht peer-reviewt, aber eine unabhängige, vendor-freie Primärerhebung; sie steht außerhalb des akademischen 20-Studien-Kerns und ergänzt ihn um einen Praxis-Beleg.
Das Zitations-Paradox: mehr Zitate ≠ mehr Wahrheit
Wenn Zitate oft nicht stützen, müssten Nutzer dann nicht skeptisch werden? Das Gegenteil ist der Fall. Der Präferenzdatensatz Search Arena (24.069 Konversationen, 12.652 paarweise Voten, 11.650 Nutzer aus 136 Ländern) zeigt: Nutzer bevorzugen Antworten mit mehr Zitaten, selbst dann, wenn die zitierten Inhalte die Aussage gar nicht stützen[10]. Die positive Assoziation gilt sogar für irrelevante Zitate. Das Zitat wirkt als Vertrauenssignal, unabhängig von seinem Wahrheitsgehalt.
Auf der Modellseite passt das zusammen mit dem Befund von Wan, Wallace und Klein: Sprachmodelle gewichten die Relevanz eines Texts zur Anfrage stark, während sie stilistische Glaubwürdigkeitsmarker wie wissenschaftliche Referenzen oder neutralen Ton weitgehend ignorieren[3]. Query-nahe Formulierungen erhöhen die „Win-Rate“ einer Evidenz. Die Folge ist ein doppelt missbrauchbares Vertrauenssignal: Menschen vertrauen der Zitatmenge, Modelle der Oberflächen-Relevanz, beides lässt sich bespielen, ohne dass die Aussage dadurch korrekter wird.
Was KI-Suche überhaupt zitiert: Konzentration und Bias
Die Objektivitätsachse zeigt Schieflagen statt Repräsentativität. Audits dokumentieren systematische Verzerrungen in dem, was KI-Suche überhaupt als Quelle heranzieht:
- Li und Sinnamon finden in einem 7-Tage-Audit Sentiment-Bias sowie eine kommerzielle und geografische Schieflage der Quellen[8].
- Kuai et al. zeigen für Microsoft Copilot über fünf Sprachen starke Diskrepanzen in Genauigkeit und Attribution; in der Fallstudie zur Taiwan-Wahl 2024 enthält fast die Hälfte der Antworten Faktenfehler[9].
- Yang wertet über 366.000 Zitate aus: Nur 9 Prozent entfallen auf News, diese konzentrieren sich auf wenige Outlets, mit ausgeprägtem liberalem Bias[11].
- Zhang et al. (55.936 Queries) finden, dass 37 Prozent der Domains exklusiv bei LLM-Suchmaschinen auftauchen, diverser also, aber nicht glaubwürdiger, neutraler oder sicherer als klassische Suche[12].
- Kirsten et al. zeigen, dass Google, OpenAI und Perplexity deutlich unterschiedliche Retrieval-Footprints haben, und dass Outputs über Zeit und Wiederholungen variieren[13].
Wer also fragt, „wie komme ich in die KI-Antwort?“, optimiert auf ein bewegliches, verzerrtes Ziel, nicht auf einen stabilen, neutralen Index.
White-Hat-GEO auf dem Prüfstand: die 40-Prozent-Frage
Kommen wir zur bekanntesten Zahl der ganzen Debatte. GEO steht für Generative Engine Optimization, also die Optimierung darauf, in den Antworten von KI-Suchsystemen aufzutauchen. Die Pionierstudie von Aggarwal und Kollegen nennt dafür eine Sichtbarkeitssteigerung von „bis zu 40 Prozent“[4]. Im Marketing wird diese Zahl gern blank zitiert, und genau das führt in die Irre.
Was die „40 Prozent“ wirklich messen
Die Zahl ist ein Plus auf einer sogenannten Proxy-Metrik. Eine Proxy-Metrik ist ein Hilfsmaß: Sie misst den eigentlichen Erfolg nicht direkt, sondern schätzt ihn nur ersatzweise (von englisch „proxy“, der Stellvertreter). Im Detail:
- Gemessen wurde der Position-Adjusted Word Count (kurz PAWC, auf Deutsch der positionsgewichtete Wortanteil): wie viel Text der KI-Antwort aus deiner Quelle stammt, gewichtet danach, wie weit vorne es in der Antwort steht.
- Nicht auf echten Systemen, sondern simuliert: eine nachgebaute Mini-Suchmaschine aus den fünf besten Google-Treffern plus dem älteren Sprachmodell GPT-3.5-turbo, also weder Google noch ein echter KI-Dienst.
- Kein Traffic, keine Klicks, kein Zitationsrang: es geht weder um echte Besucher noch um die Klickrate (CTR, englisch Click-Through-Rate, der Anteil der Nutzer, die wirklich klicken) noch darum, wie oft und wie prominent eine Quelle in der Antwort genannt wird.
- Nur ein Teil aus der echten Welt: ein Test mit 200 echten Anfragen auf Perplexity ergab plus 22 bis 37 Prozent. Die Autoren schreiben in Abschnitt 9 selbst, dass sie Ranking-Effekte gar nicht gemessen haben.
- Was nachweislich nichts bringt: Keyword Stuffing (das künstliche Vollstopfen eines Textes mit Suchbegriffen) und das Einstreuen seltener Wörter. Profitiert haben vor allem schwach platzierte Seiten (bis zu plus 115 Prozent für eine Seite auf Position 5).
Der Kernpunkt: Der scheinbare Widerspruch „GEO wirkt (Aggarwal), aber C-SEO wirkt nicht (C-SEO Bench)“ ist vor allem ein Mess-Unterschied. C-SEO steht für Conversational Search Engine Optimization, die Optimierung für dialogbasierte KI-Suche. Die eine Studie misst einen Wortanteil-Schätzwert auf einer simulierten Engine, die andere den echten Zitationsrang auf einem breiten, standardisierten Test. Es ist also kein inhaltlicher Widerspruch, sondern ein Vergleich von Äpfeln mit Birnen.
Die Gegenprobe: C-SEO Bench
C-SEO Bench ist der methodisch sauberste Test im gesamten Korpus (Korpus = die Gesamtheit der hier ausgewerteten Studien). Über zwei Aufgaben hinweg, nämlich Frage-Antwort und Produktempfehlung, und über mehrere Themenfelder zeigt sich:
- Die meisten C-SEO-Methoden wirken nicht messbar, einige verschlechtern den Zitationsrang sogar deutlich.
- Klar wirksamer ist das klassische, retrieval-orientierte SEO (SEO steht für Search Engine Optimization, also Suchmaschinenoptimierung). „Retrieval-orientiert“ heißt: dafür sorgen, dass deine Quelle vom System überhaupt gefunden und in den Antwort-Kontext des Sprachmodells (LLM, kurz für Large Language Model) geholt wird[18].
- Je mehr Wettbewerber dieselben Tricks anwenden, desto kleiner die Vorteile. Die Studie nennt den Effekt „congested and zero-sum“, also überfüllt und ein Nullsummenspiel, am Ende gewinnt niemand mehr etwas.
Was stattdessen stabil wirkt: Earned Media
Stabil belegt ist dagegen etwas anderes: Chen und Kollegen (University of Toronto) zeigen, dass die KI-Suche systematisch und sehr deutlich sogenannte Earned Media bevorzugt. Earned Media sind glaubwürdige Inhalte, die Dritte über dich veröffentlichen (etwa Presseartikel oder Fachbeiträge), im Gegensatz zu deinen eigenen Webseiten (Owned Media) und zu Social-Media-Posts. Dazu kommt ein „Big-Brand-Bias“, also eine eingebaute Bevorzugung großer, bekannter Marken[17]. Beide Ergebnisse stehen wörtlich in der Zusammenfassung (Abstract) der Studie. Vorsicht ist nur beim Ton der Arbeit geboten (der Titel lautet „How to Dominate AI Search“, auf Deutsch etwa „Wie man die KI-Suche beherrscht“); die Messergebnisse selbst sind aber solide.
Praxis: So setzt du diese Befunde um
- Nimm die „40 Prozent“ nicht als Versprechen, sondern als Labor-Hilfswert. Miss deinen Erfolg an echten Zitationen in ChatGPT, Perplexity und den KI-Antworten von Google, nicht an einem Wortanteil.
- Spar dir Keyword Stuffing und Trick-Texte: Sie wirken nachweislich nicht und können den Zitationsrang sogar verschlechtern.
- Investier in Earned Media: Erwähnungen, Tests und Fachbeiträge auf autoritativen Drittseiten zählen mehr als die eigene Landingpage.
- Mach Inhalte zitierfähig: klare Struktur, eindeutige Aussagen, belegte Fakten mit Quelle, damit das System dich überhaupt findet und in die Antwort holt.
- Differenzier dich inhaltlich: Wenn alle dieselbe Taktik fahren, schrumpft der Effekt („congested and zero-sum“). Echte, belegbare Substanz bleibt der Vorteil.
![GEO-Studie: Was die Forschung über KI-Suche wirklich zeigt [META Studie] 5 Behauptete vs. nachgewiesene GEO-Wirkung: plus 40 Prozent Wortanteil-Proxy auf simulierter Engine (Einzelstudie) gegen congested und zero-sum, meist wirkungslos im breiten Benchmark](https://antonioblago.de/wp-content/uploads/2026/06/chart2-geo-claim-vs-evidence.png)
Wie man in KI-Antworten auftaucht: die neuere Evidenz
Wenn klassische C-SEO-Tricks kaum wirken (Puerto et al.[18]) und die berühmten „40 Prozent“ aus Aggarwal et al. nur ein Proxy auf simulierter Engine sind[4], bleibt die praktische Frage: Was lässt eine Quelle in KI-Antworten überhaupt auftauchen? Zwei neuere Arbeiten verschieben den Blick weg vom „Trick“ hin zu Inhalt und Zitierbarkeit.
Tian et al. (AgentGEO) drehen die GEO-Frage um: Statt pauschal „mehr Sichtbarkeit“ zu versprechen, diagnostizieren sie, warum ein konkretes Dokument nicht zitiert wird, und reparieren gezielt. Ihr agentisches System erreicht im eigenen Benchmark über 40 Prozent relative Steigerung der Zitationsrate bei nur rund 5 Prozent geändertem Inhalt, während generische Standardmethoden nur etwa 25 Prozent schaffen[19]. Anders als die Aggarwal-Zahl ist das eine direkt gemessene Zitationsrate, kein Wortanteil-Proxy. Zwei Vorbehalte bleiben: Es ist ein frischer, noch nicht begutachteter Preprint (März 2026), und die Autoren zeigen selbst, dass generische Optimierung Long-Tail-Inhalten schaden kann und sich manche Dokumente durch Textänderungen allein nicht „reparieren“ lassen, eine offene Frage der fairen Sichtbarkeit.
Chen et al. (CC-GSEO-Bench) liefern das passende Messinstrument aus Sicht der Inhalte-Ersteller. Ihr Benchmark koppelt einen großen Datensatz (über 1.000 Quellartikel, über 5.000 Frage-Artikel-Paare) mit einem creator-zentrierten Bewertungsrahmen und misst den Einfluss einer Quelle über fünf Dimensionen: Sichtbarkeit (Exposure), korrekte Zuschreibung (Faithful Credit), kausaler Einfluss (Causal Impact), Lesbarkeit und Struktur sowie Vertrauenswürdigkeit und Sicherheit[20]. Die Botschaft: „zitiert werden“ ist mehrdimensional, und ob eine Quelle wirklich Einfluss nimmt, lässt sich erst beurteilen, wenn man echten kausalen Beitrag von bloßer Erwähnung trennt.
Zusammengelesen mit dem restlichen Korpus ergibt sich ein konsistentes Bild der Hebel, in absteigender Belegstärke: Am stärksten und experimentell am saubersten belegt ist der Retrieval-Rang einer Quelle im Modellkontext, also ob und an welcher Stelle sie dem Modell überhaupt vorliegt (Puerto[18]). Breit dokumentiert folgt der Hebel Earned Media und Markensignale, also autoritative Drittquellen statt Eigenlob (Chen et al. / Toronto[17]). Inhaltsseitig zahlt es sich aus, gezielt zitierbar zu sein, statt stilistisch zu tricksen (AgentGEO[19], CC-GSEO-Bench[20]). Und all das ist nur so viel wert, wie es korrekt zugeschrieben wird, denn knapp ein Drittel der Zitate verzerrt seine Quelle (CITETRACE[16]).
Black-Hat: Manipulation ist empirisch machbar
Ironischerweise ist die Manipulations-Literatur derzeit robuster als die White-Hat-Literatur. Mehrere kontrollierte Experimente zeigen, dass sich KI-Suche gezielt beeinflussen lässt:
- Pfrommer et al. demonstrieren am RAGDOLL-Datensatz (1.147 reale Produkt-Webseiten), dass eine „Tree-of-Attacks“-Technik niedrig gerankte Produkte zuverlässig nach oben promotet, mit Transfer auf Perplexity[5].
- Kumar und Lakkaraju zeigen, dass eine „Strategic Text Sequence“ ein Zielprodukt signifikant häufiger zur Top-Empfehlung macht[6].
- Nestaas et al. führen „Preference Manipulation Attacks“ gegen Bing, Perplexity sowie GPT-4- und Claude-Plugins vor, mit einer Gefangenendilemma-Logik, die den Gesamt-Output für alle verschlechtert[7].
Die Grenze zwischen legitimer Optimierung und adversarialer Manipulation ist technisch dünn. Genau deshalb ist Black-Hat keine Strategieempfehlung: Es funktioniert, ist aber durch Provider-Patches flüchtig und trägt erhebliche Reputations- und Rechtsrisiken.
Die 20 Kernstudien im Überblick
| # | Studie (Jahr) | Typ | Kernbefund | Status |
|---|---|---|---|---|
| 1 | Liu et al. (2023) | Audit | Nur 51,5 % der Sätze voll durch Zitate gestützt | EMNLP-Findings |
| 2 | Gao et al. / ALCE (2023) | Benchmark | Beste Modelle ohne volle Zitatstützung in ~50 % der Fälle | EMNLP |
| 3 | Wan et al. (2024) | Experiment | Modelle gewichten Relevanz, ignorieren Stil/Ton | ACL |
| 4 | Aggarwal et al. (2024) | Experiment (Proxy/Sim.) | +40 % auf Wortanteil-Proxy (PAWC); Ranking nicht gemessen | KDD |
| 5 | Pfrommer et al. (2024) | Adversarial | Tree-of-Attacks promotet niedrig gerankte Produkte | EMNLP |
| 6 | Kumar & Lakkaraju (2024) | Experiment (klein) | Strategic Text Sequence hebt Zielprodukt | Preprint |
| 7 | Nestaas et al. (2024) | Adversarial | Preference Manipulation gegen Bing/Perplexity/Plugins | Preprint |
| 8 | Li & Sinnamon (2024) | Audit | Sentiment-, kommerzieller und geografischer Bias | ASIS&T |
| 9 | Kuai et al. (2025) | Audit | Sprachabhängige Fehler und Attribution (Copilot) | New Media & Society |
| 10 | Miroyan et al. / Search Arena (2025) | Präferenzdaten | Mehr Zitate = mehr Zustimmung, auch ohne Stützung | ICLR |
| 11 | Yang (2025) | Sekundäranalyse | 9 % News, Outlet-Konzentration, liberaler Bias | Preprint |
| 12 | Zhang et al. (2025) | Empirisch | 37 % Domains LLM-exklusiv, aber nicht glaubwürdiger | Preprint |
| 13 | Kirsten et al. (2025) | Vergleich | Unterschiedliche Retrieval-Footprints, Output-Drift | Preprint |
| 14 | Huang et al. / Answer Bubbles (2026) | Audit | Quellenauswahl-Bias; Hedging sinkt um bis zu 60 % | Preprint |
| 15 | Allaham & Diakopoulos (2026) | Audit | ~16 % der zitierten Quellen KI-generiert | AAAI |
| 16 | Seo et al. / CITETRACE (2026) | Benchmark | 30,6 % verzerren Quelle; bis 96 % der Nutzer betroffen | Preprint (WIP) |
| 17 | Chen et al. / Toronto (2025) | Experiment | Earned-Media- und Big-Brand-Bias | Preprint |
| 18 | Puerto et al. / C-SEO Bench (2025) | Benchmark | C-SEO meist wirkungslos/negativ; Position dominiert | NeurIPS D&B |
| 19 | Tian et al. / AgentGEO (2026) | Experiment (Benchmark) | Gezielte Reparatur: +40 % Zitationsrate bei 5 % Textänderung (Baseline 25 %) | Preprint |
| 20 | Chen et al. / CC-GSEO-Bench (2025) | Benchmark | Content-zentriertes Maß für Quelleneinfluss (5 Dimensionen) | Preprint |
Bewusst nicht in diesem Kern stehen industrienahe und Vendor-Arbeiten: das kommerziell vermarktete GEO-16-Framework, statistische Industrie-Frameworks mit nicht primär verifizierter Affiliation sowie die Plattform-Studie eines GEO-Tool-Anbieters (Ranqo). Sie decken sich thematisch teils mit dem Big-Brand-Bias, sind aber als Vendor- oder Borderline-Quellen separat zu halten und dienen nur als Kontrast.
Transparenzhinweis: eigene, ergänzende Forschung
Zur Einordnung zwei eigene Untersuchungen, die bewusst nicht Teil des vendor-freien 20-Studien-Kerns sind. Sie stammen von mir und sind daher mit einem Interessenkonflikt behaftet. Sie widersprechen den Kernbefunden nicht, sondern illustrieren sie an realen Daten:
- LLM-Sichtbarkeitsstudie (144.000 Datenpunkte, 48 Marken, 100 Prompts, drei Modelle): Welche Marke ein Modell nennt, schwankt stark je Modell. AG1 etwa erscheint bei Gemini in 62 % der Antworten, bei GPT-4o nur in 5 %. Das deckt sich mit der modellabhängigen Retrieval-Drift aus Kirsten et al.[13] Code und Daten sind offen (MIT-Lizenz).
- E-Commerce-GEO-Case-Study (PURELEI) (117 Prompts über ChatGPT, Perplexity, Google AI Overviews und Claude): zeigt, dass sich GEO-Sichtbarkeit messbar in Umsatz niederschlagen kann, hier rund 24.473 € ChatGPT-Umsatz pro Jahr bei 2,98 % Conversion-Rate. Ein Praxisbeleg dafür, dass Earned-Media- und Markensignale (Spalten G, H, I in der Matrix) auch kommerziell wirken.
Was Marken und SEO-Teams aus der Evidenz ziehen sollten
Verdichtet man die 20 Studien auf konkrete Hebel, ergibt sich ein klares Muster, welche Ansätze belegt sind und welche überschätzt werden. Die folgende Evidenzmatrix zeigt, wie stark einzelne GEO-Hebel über die Studien hinweg gestützt sind:
![GEO-Studie: Was die Forschung über KI-Suche wirklich zeigt [META Studie] 6 Evidenzmatrix: Retrieval-Position und adversariale Injection experimentell stark belegt, Earned Media breit aber korrelativ, stilistische Tricks und llms.txt schwach bis negativ](https://antonioblago.de/wp-content/uploads/2026/06/chart3-evidenzmatrix-heatmap.png)
Dieselbe Matrix als durchsuchbare Tabelle, auch ohne das Schaubild lesbar (auf kleinen Displays seitlich scrollbar). Die Spalten A bis J stehen für die einzelnen Studien, die Legende unter der Tabelle löst sie auf:
| Hebel \ Studie | A | B | C | D | E | F | G | H | I | J |
|---|---|---|---|---|---|---|---|---|---|---|
| Retrieval-/Kontextposition | + (D) | ++ (E) | + (E) | · | · | + (E) | · | · | + (D) | · |
| Earned Media / Marke | · | · | · | · | · | · | ++ (K/D) | + (K) | + (D) | + (D) |
| Metadaten & Aktualität | · | · | · | · | · | · | + (D) | + (K) | + (K) | + (D) |
| Strukturierte Daten / Schema | 0 (E*) | 0 (E) | · | · | · | · | + (D) | + (K) | + (K) | · |
| Semantisches HTML | · | · | · | · | · | · | + (D) | + (K) | + (K) | · |
| Statistiken hinzufügen | + (E*) | 0/- (E) | · | · | · | 0 (E) | + (D) | · | + (K) | · |
| Zitate / Quotes hinzufügen | + (E*) | 0/- (E) | · | · | · | – (E) | · | + (K) | + (K) | + (K) |
| Stilistische Edits | + bis 0/- (E*) | — (E) | · | · | · | – (E) | · | · | · | · |
| llms.txt / LLM-Guidance | · | 0 (E) | · | · | · | · | · | · | · | · |
| Adversariale Prompt-Injection | · | (Kontext) | ++ (E*) | ++ (E*) | ++ (E*) | · | · | · | · | · |
Studien (Spalten): A = Aggarwal et al., GEO ([4]) · B = Puerto et al., C-SEO Bench ([18]) · C = Pfrommer et al. ([5]) · D = Kumar & Lakkaraju ([6]) · E = Nestaas et al. ([7]) · F = Wan et al. ([3]) · G = Chen et al. / Toronto ([17]) · H = GEO-16-Framework, industriebezogen, nicht im Kern · I = Citation-Absorption, Borderline-Preprint, nicht im Kern · J = Audit-Gruppe, Beobachtungs-Audits zum Quellen-Bias ([1] [8] [11] [12] [15])
Effekt: ++ stark positiv · + positiv · 0 kein robuster Effekt · – negativ · — signifikant negativ · · nicht untersucht. Evidenztyp: E = experimentell/signifikant · K = korrelativ · D = deskriptiv · E* = kleines/fiktives Sample oder Manipulation.
Die leeren Felder sind selbst ein Befund: Semantic HTML, Structured Data und llms.txt sind außerhalb industrienaher, korrelativer Quellen praktisch unerforscht. Saubere experimentelle Kausalität existiert bislang fast nur für Retrieval-Position und adversariale Injection.
- Starke Wirksamkeitsversprechen gegen die Benchmarks spiegeln. Wer „+X Prozent KI-Sichtbarkeit“ verspricht, sollte erklären können, ob das echter Zitationsrang oder ein Wortanteil-Proxy ist, und gegen C-SEO Bench und Search Arena geprüft wurde[18][10].
- Retrieval-Rang und Quelleigenschaften schlagen Mikro-Optimierung. Klassische Autorität und Earned Media bleiben die belastbarsten Hebel, während stilistische Edits empirisch schwach sind[18][17].
- Zitiert-werden ist nicht korrekt-zitiert-werden. Bei 30,6 Prozent verzerrenden Zitaten braucht es Monitoring, nicht nur Platzierung[16][1].
- Aktualität ist die schwächste Achse. Jeder Befund ist ein schnell verfallender Snapshot, deshalb wiederholt messen statt einmalig, idealerweise mit Konfidenzintervallen[10][13].
- Black-Hat funktioniert, ist aber Risiko. Provider-Patches, Reputations- und Rechtsrisiken machen Manipulation zur Sackgasse[5][6][7].
Wie sichtbar ist deine Marke wirklich?
Statt zu raten, ob deine Marke in der KI-Suche und im Markt sichtbar ist: Der kostenlose Brand Radar zeigt dir das monatliche Brand-Suchvolumen, 3- und 12-Monats-Trends sowie Gewinner und Verlierer über Hunderte D2C-Marken im DACH-Raum. Sichtbarkeit messen, nicht vermuten.
Fazit
Die vendor-freie Bilanz in einem Satz: KI-Suche zitiert selektiv, unstet und oft strukturell irreführend, Nutzer vertrauen Zitaten mehr, als diese verdienen, und der White-Hat-Werkzeugkasten ist schwächer belegt, als sein Marketing verspricht.
Die berühmten „40 Prozent“ sind dabei kein gemessener Zitationsrang, sondern eine Proxy-Metrik auf einer simulierten Engine. Black-Hat-Manipulation wirkt zwar im Experiment, bleibt aber Manipulation, kein tragfähiges Fundament.
Für eine seriöse GEO-Strategie heißt das drei Dinge:
- Evidenz vor Tool-Versprechen.
- Robuste Hebel (Retrieval-Rang, Earned Media, semantisches HTML) vor stilistischen Tricks. Wichtig: Gemeint ist sauber strukturiertes, semantisches HTML, nicht Schema-Markup, das in Experimenten ohne messbaren Effekt blieb. Die beiden werden im Tool-Marketing gern verwechselt, die Studienlage trennt sie klar.
- Wiederholt messen statt Einzel-Snapshot.
Willst du das für deine Marke konkret machen? Starte mit dem kostenlosen Brand Radar, oder buch dir direkt eine kostenlose Erstberatung, in der wir deine GEO- und SEO-Sichtbarkeit evidenzbasiert einordnen.
Abkürzungen und Fachbegriffe erklärt
Damit dieser Text auch ohne Vorwissen lesbar bleibt, hier die wichtigsten Begriffe in je einem Satz:
- GEO (Generative Engine Optimization): Inhalte so optimieren, dass sie in den Antworten generativer KI-Systeme (ChatGPT, Perplexity und Co.) genannt und zitiert werden.
- AEO (Answer Engine Optimization): Nahezu deckungsgleich mit GEO, Fokus auf „Antwortmaschinen“, die eine direkte Antwort statt einer Linkliste liefern.
- C-SEO (Conversational SEO): SEO für dialogbasierte KI-Suche; im Korpus der Sammelbegriff für die getesteten Content-Tricks.
- GSE (Generative Search Engine): KI-Suchsystem, das Quellen abruft und daraus eine generierte Antwort formuliert.
- LLM (Large Language Model): Großes Sprachmodell, die KI hinter der Antwortgenerierung.
- RAG (Retrieval-Augmented Generation): Verfahren, bei dem das Modell vor dem Antworten passende Quellen abruft (Retrieval) und in die Antwort einbindet.
- Retrieval / Retrieval-Rang: Das Abrufen von Quellen und die Position, an der eine Quelle dem Modell als Kontext vorliegt; laut Evidenz der stärkste Sichtbarkeitshebel.
- Earned Media: Reichweite durch autoritative Drittquellen (Presse, Fachseiten, Wikipedia) statt eigener Kanäle oder bezahlter Werbung.
- PAWC (Position-Adjusted Word Count): Proxy-Metrik aus der Aggarwal-Studie, ein positionsgewichteter Wortanteil einer Quelle in der KI-Antwort, kein gemessener Traffic und kein Zitationsrang.
- Proxy-Metrik: Ersatzgröße, die das eigentliche Ziel (z. B. Traffic) nur annähert; starke Versprechen auf Proxy-Basis sind mit Vorsicht zu lesen.
- STS (Strategic Text Sequence): Eingefügte Textsequenz, die ein Modell dazu bringt, ein bestimmtes Produkt zu bevorzugen, eine Manipulationstechnik.
- Hedging: Sprachliche Unsicherheitsmarker („möglicherweise“, „laut Quelle“); sinken in KI-Antworten, wodurch diese sicherer klingen, als die Quellenlage trägt.
- CTR (Click-Through-Rate): Klickrate, der Anteil der Nutzer, die auf ein angezeigtes Ergebnis klicken.
- Benchmark: Standardisierter Testdatensatz, an dem Methoden objektiv und vergleichbar gemessen werden (z. B. ALCE, C-SEO Bench, CC-GSEO-Bench).
- Preprint: Vorab veröffentlichte Studie (meist auf arXiv), noch ohne abgeschlossene Begutachtung.
- Peer-Review: Begutachtung durch unabhängige Fachkollegen vor der Veröffentlichung, ein Qualitätsfilter, den Preprints noch nicht durchlaufen haben.
- D2C (Direct-to-Consumer): Marken, die ohne Zwischenhandel direkt an Endkunden verkaufen.
Weiterlesen und vertiefen
- Wie LLMs Marken ranken, eine statistische Studie zur KI-Sichtbarkeit mit Claude, GPT-4o und Gemini
- E-Commerce GEO Case Study mit PURELEI
- Andrej Karpathy, „Deep Dive into LLMs like ChatGPT“ (Video) – youtube.com/watch?v=7xTGNNLPyMI
Quellen
- Liu, N. F., Zhang, T. & Liang, P. (2023) – Evaluating Verifiability in Generative Search Engines. Findings of EMNLP 2023. arxiv.org/abs/2304.09848
- Gao, T., Yen, H., Yu, J. & Chen, D. (2023) – Enabling Large Language Models to Generate Text with Citations (ALCE). EMNLP 2023. arxiv.org/abs/2305.14627
- Wan, A., Wallace, E. & Klein, D. (2024) – What Evidence Do Language Models Find Convincing? ACL 2024. arxiv.org/abs/2402.11782
- Aggarwal, P. et al. (2024) – GEO: Generative Engine Optimization. KDD 2024, DOI 10.1145/3637528.3671900. arxiv.org/abs/2311.09735
- Pfrommer, S., Bai, Y., Gautam, T. & Sojoudi, S. (2024) – Ranking Manipulation for Conversational Search Engines. EMNLP 2024. arxiv.org/abs/2406.03589
- Kumar, A. & Lakkaraju, H. (2024) – Manipulating Large Language Models to Increase Product Visibility. arxiv.org/abs/2404.07981
- Nestaas, F., Debenedetti, E. & Tramèr, F. (2024) – Adversarial Search Engine Optimization for Large Language Models. arxiv.org/abs/2406.18382
- Li, A. & Sinnamon, L. (2024) – Generative AI Search Engines as Arbiters of Public Knowledge: An Audit of Bias and Authority. Proc. ASIS&T 2024. DOI 10.1002/pra2.1021
- Kuai, J., Brantner, C., Karlsson, M., Van Couvering, E. & Romano, S. (2025) – AI chatbot accountability in the age of algorithmic gatekeeping. New Media & Society. DOI 10.1177/14614448251321162
- Miroyan, M., Wu, T.-H. et al. (2025) – Search Arena: Analyzing Search-Augmented LLMs. ICLR 2026. arxiv.org/abs/2506.05334
- Yang, K.-C. (2025) – News Source Citing Patterns in AI Search Systems. arxiv.org/abs/2507.05301
- Zhang, P., Ye, Q., Peng, Z., Garimella, K. & Tyson, G. (2025) – Source Coverage and Citation Bias in LLM-based vs. Traditional Search Engines. arxiv.org/abs/2512.09483
- Kirsten, E. et al. (2025) – Characterizing Web Search in the Age of Generative AI. arxiv.org/abs/2510.11560
- Huang, M., Goyal, A., Saha, K. & Chandrasekharan, E. (2026) – Answer Bubbles: Information Exposure in AI-Mediated Search. arxiv.org/abs/2603.16138
- Allaham, M. & Diakopoulos, N. (2026) – Synthetic Sources? Auditing Generative Search Engine Citations for Evidence of AI-Generated Sources. AAAI 2026. arxiv.org/abs/2605.23684
- Seo, Y., Jeong, W., Kim, E., Jang, H. & Lee, D. (2026) – Verified Misguidance: Measuring Structural Citation Failures in Search-Augmented LLMs (Work in Progress). arxiv.org/abs/2605.28565
- Chen, M., Wang, X., Chen, K. & Koudas, N. (2025) – Generative Engine Optimization: How to Dominate AI Search. arxiv.org/abs/2509.08919
- Puerto, H., Gubri, M., Green, T., Oh, S. J. & Yun, S. (2025) – C-SEO Bench: Does Conversational SEO Work? NeurIPS 2025 Datasets & Benchmarks. arxiv.org/abs/2506.11097
- Tian, Z., Chen, Y., Tang, Y., Liu, J. & Jia, R. (2026) – Diagnosing and Repairing Citation Failures in Generative Engine Optimization (AgentGEO). arxiv.org/abs/2603.09296
- Chen, Q., Chen, J., Huang, H., Shao, Q., Chen, J., Hua, R., Xu, H., Wu, R., Chuan, R. & Wu, J. (2025) – CC-GSEO-Bench: A Content-Centric Benchmark for Measuring Source Influence in Generative Search Engines. arxiv.org/abs/2509.05607
- Jaźwińska, K. & Chandrasekar, A. (2025) – We compared eight AI search engines. They’re all bad at citing news. Columbia Journalism Review / Tow Center for Digital Journalism. cjr.org


![GEO-Studie: Was die Forschung über KI-Suche wirklich zeigt [META Studie] 2 GEO-Studie: Was die Forschung über KI-Suche wirklich zeigt](https://antonioblago.de/wp-content/uploads/2026/06/blog_hero_geo-studie-ki-suchsysteme-zitate.png)