Start
>
Blog
>
Analyse
>
GEO-Studie: Was die Forschung über KI-Suche wirklich zeigt [META Studie]

GEO-Studie: Was die Forschung über KI-Suche wirklich zeigt [META Studie]

Minuten Lesedauer verbleibend

Von Antonio Blago

Juni 21, 2026

AEO, Generative Engine Optimization, GEO, KI-Suche, LLM, SEO, Zitationsverhalten

GEO-Studie: Was die Forschung über KI-Suche wirklich zeigt

Zusammenfassung mit einem Klick

ChatGPT Perplexity Gemini Google KI Claude

Share 0

Tweet 0

Share 0

Quick Overview

Datenbasis: 20 vendor-freie Studien (2023 bis 2026), peer-reviewt plus akademische Preprints, Tool-Anbieter-Blogs bewusst ausgeschlossen.
Nur ein Hebel ist stark belegt: Retrieval- und Kontextposition. Klassische Autorität schlägt Text-Tricks.
Die „+40 %“ relativiert: eine Proxy-Metrik (Position-Adjusted Word Count) auf einer simulierten Engine, kein gemessener Zitationsrang.
KI-Suche zitiert unzuverlässig: nur rund 51 % der Aussagen sind voll durch die Quelle gedeckt, bis zu 96 % der Nutzer treffen auf mindestens ein strukturell irreführendes Zitat.
Vertrauens-Paradox: mehr Zitate erhöhen das Nutzervertrauen, auch wenn sie die Aussage gar nicht stützen.
Konsequenz: Evidenz vor Tool-Versprechen, robuste Hebel vor stilistischen Tricks, wiederholt messen statt Einzel-Snapshot.

GEO Anbieter, Agenturen oder Freelancer versprechen Sichtbarkeitssprünge in ChatGPT, Perplexity & Co., oft mit einer griffigen Zahl: „bis zu 40 Prozent mehr Sichtbarkeit“. Doch was sagt die begutachtete, vendor-freie Forschung wirklich über Generative Engine Optimization (GEO), Answer Engine Optimization (AEO) und das Zitationsverhalten von KI-Suchsystemen?

Diese Meta-Studie wertet 20 wissenschaftliche Kernarbeiten aus den Jahren 2023 bis 2026 aus, ergänzt um eine unabhängige Felduntersuchung des Tow Center for Digital Journalism, und gleicht jede Wirkungsbehauptung gegen die Primärquelle ab.

Das Ergebnis vorab: Das Bild ist deutlich nüchterner als jedes Marketing Studie. KI-Suche zitiert selektiv, unstetig und nicht selten strukturell irreführend. Nutzer überschätzen die Vertrauenswirkung von Zitaten.

Black-Hat-Manipulation ist empirisch klar machbar, White-Hat-GEO dagegen ist bislang erstaunlich schwach belegt.

Methodik dieser Meta-Studie: Aufgenommen wurden nur peer-reviewte Arbeiten und akademische Preprints (arXiv, Verlags-DOIs). Vendor-Blogs und PR-Studien von SEO-Tool-Anbietern (Similarweb, SEMrush, Ahrefs, Profound, Ranqo und weitere) sind a priori ausgeschlossen und dienen höchstens als Kontrast. Jede Zahl ist gegen die Originalquelle geprüft; wo Sekundärangabe und Primärquelle abweichen, gilt die Primärquelle. Eine Ausnahme bildet eine unabhängige, vendor-freie Felduntersuchung des Tow Center for Digital Journalism (Quelle 21), die nicht peer-reviewt ist, aber als unabhängige Primärerhebung kenntlich gemacht und nur ergänzend herangezogen wird.

Der Forschungsstand: jung, methodisch uneinheitlich, aber belastbar

GEO ist ein reales Forschungsfeld, aber ein junges. Der belastbare Kern besteht aus wenigen peer-reviewten Arbeiten, umgeben von einer schnell wachsenden Preprint-Schicht. Die methodischen Anker sind klar benennbar: Liu, Zhang und Liang legten 2023 die erste systematische Prüfung der Verifizierbarkeit generativer Suche vor^[1], Gao et al. lieferten mit ALCE den ersten Benchmark für automatische Zitationsbewertung^[2]. Auf der Anwendungsseite bilden der großskalige Präferenzdatensatz Search Arena^[10] und der Benchmark C-SEO Bench^[18] die belastbarsten Gegenpole zum Tool-Marketing.

Die Sättigung ist nur partiell: Der Zeitraum 2023 bis Mitte 2026 ist gut abgedeckt, doch die Preprint-Welle 2025/26 ist hochdynamisch und teils noch unbegutachtet („Work in Progress“). Methodisch sauber bedeutet hier auch, Dubletten nicht doppelt zu zählen: Mehrere Arbeiten existieren parallel als arXiv-Version und Verlagspublikation, sind aber je eine Studie. Der wissenschaftliche Kernkorpus umfasst damit 20 Studien, flankiert von einer unabhängigen Felduntersuchung des Tow Center (Quelle 21).

Der Bewertungsrahmen: Objektivität, Aktualität, Relevanz, Verlässlichkeit

Damit die Befunde nicht beliebig nebeneinanderstehen, liest diese Meta-Studie sie durch vier Qualitätsdimensionen, angelehnt an die klassische Quellenkritik (vgl. CRAAP-Schema). Diese vier Achsen sind die Brille für alles Folgende:

Dimension	Leitfrage	Forschungsbefund (Kurz)	Studien
Objektivität	Wählt das System ausgewogen aus, oder zitiert es mit Schieflage?	Sentiment-, kommerzieller, geografischer und politischer Bias durchgängig dokumentiert; auch die Quellenauswahl selbst ist verzerrt	[8][9][11][12][14]
Aktualität	Sind Auswahl und Antwort stabil über Zeit und Prompt-Varianten?	Outputs driften über Zeit und Wiederholungen, die schwächste Achse im gesamten Korpus	[10][12][13]
Relevanz	Welche Signale entscheiden, dass eine Quelle als passend gewertet wird?	Modelle gewichten Query-Relevanz stark, stilistische Glaubwürdigkeitsmarker schwach	[3][18]
Verlässlichkeit	Stützen die Zitate die Aussage tatsächlich?	Nur rund die Hälfte der Sätze ist voll gestützt; strukturelle Fehlzitate sind verbreitet	[1][16][15]

Auf den Punkt

Ohne Fachbegriffe: KI-Suche gibt zwar Quellen an, aber diese Quellen belegen oft gar nicht das, was die KI behauptet.

Nur rund die Hälfte der Sätze ist wirklich durch die angegebene Quelle gedeckt. Der Rest klingt belegt, ist es aber nicht.
Viele Zitate verweisen auf die falsche oder eine fachfremde Quelle. Bis zu 96 Prozent der Nutzer treffen auf mindestens ein irreführendes Zitat.
KI zitiert sogar Texte, die selbst von einer KI geschrieben wurden, als angeblichen Beleg.

Merke: Ein Zitat ist kein Beweis. Es sieht nur vertrauenswürdig aus.

Zitationsqualität: selektiv, unstetig, strukturell irreführend

Die Verlässlichkeitsachse fällt ernüchternd aus. Liu et al. zeigten für vier generative Suchmaschinen, dass im Mittel nur 51,5 Prozent der erzeugten Sätze vollständig durch ihre Zitate gestützt sind und nur 74,5 Prozent der Zitate die zugeordnete Aussage tatsächlich belegen (Citation Precision)^[1]. Gao et al. kommen mit dem ALCE-Benchmark unabhängig zu einem ähnlichen Befund: Bei offenen Fragen (ELI5-Datensatz) liefern selbst die besten Modelle in rund der Hälfte der Fälle keine vollständige Zitationsstützung, bei eng umrissenen Faktenfragen liegt die Stützung höher^[2].

Noch deutlicher wird der Benchmark CITETRACE: Über 11.200 Queries und 112.000 Antworten (761.495 Zitationspaare) verzerren 30,6 Prozent der Zitate ihre Quelle, 27,1 Prozent stammen aus domänen-inadäquaten Quellen, und bis zu 96 Prozent der Nutzer treffen auf mindestens ein strukturell irreführendes Zitat^[16].

Wichtig für die Einordnung: Das ist ein frischer, noch nicht peer-reviewter Preprint. Hinzu kommt ein Selbstreferenz-Problem: Von den erfolgreich geprüften zitierten Quellen tragen rund 16 Prozent Merkmale KI-generierten Inhalts (je nach KI-System zwischen 7 und 28 Prozent), KI-Suche zitiert also teils KI-Texte als Belege^[15].

Wie folgenreich die Quellenauswahl ist, zeigt die Arbeit zu „Answer Bubbles“: Über rund 11.000 reale Suchanfragen und vier Systeme hinweg (klassische Google-Suche, Google AI Overviews, SearchGPT sowie ein GPT-Modell ohne Suche) ist die Quellenauswahl systematisch verzerrt. Wikipedia und lange Texte sind überrepräsentiert, soziale Medien und negativ gerahmte Quellen unterrepräsentiert. Zugleich sinken in den KI-Antworten die Unsicherheitsmarker (Hedging) um bis zu 60 Prozent, während die selbstsichere Sprache erhalten bleibt. Schon die Art der Quellenauswahl beeinflusst also, welche Perspektiven Nutzer überhaupt zu sehen bekommen, und die KI klingt dabei sicherer, als die Quellenlage es trägt^[14].

Belastbarkeit von KI-Zitaten: nur 51,5 Prozent voll gestützte Sätze, 30,6 Prozent verzerrende Zitate, bis zu 96 Prozent der Nutzer treffen auf irreführende Zitate

Die wichtigsten Zahlen auf einen Blick

Die zentralen Zahlen aus den Primärquellen, auch ohne das Schaubild lesbar (auf kleinen Displays seitlich scrollbar):

Befund	Wert	Quelle
Sätze vollständig durch ihr Zitat gestützt	51,5 %	[1] Liu et al.
Zitate, die ihre Aussage wirklich belegen (Precision)	74,5 %	[1] Liu et al.
Antworten ohne volle Stützung (offene Fragen)	rund 50 %	[2] Gao et al.
Zitate, die ihre Quelle verzerren	30,6 %	[16] CITETRACE
Zitate aus fachfremden Quellen	27,1 %	[16] CITETRACE
Nutzer mit mindestens einem irreführenden Zitat	bis 96 %	[16] CITETRACE
Zitierte Quellen mit Merkmalen von KI-Text	rund 16 %	[15] Allaham & Diakopoulos
Rückgang der Unsicherheitsmarker durch Sucheinbindung	bis 60 %	[14] Answer Bubbles

Praxis-Beleg: KI-Suche antwortet oft selbstbewusst falsch

Die Laborbefunde decken sich mit einer unabhängigen Felduntersuchung des Tow Center for Digital Journalism (Columbia Journalism Review). Das Team legte acht KI-Suchsystemen 200 wörtliche Auszüge aus echten Nachrichtenartikeln vor (10 Artikel von je 20 Verlagen, also 1.600 Abfragen) und bat sie, Überschrift, Verlag und Original-URL korrekt zuzuordnen. Das Ergebnis: über 60 Prozent der Antworten waren falsch, und zwar meist nicht mit einem ehrlichen „weiß ich nicht“, sondern selbstbewusst falsch. Die Fehlerquote schwankt stark je System, von 37 Prozent bei Perplexity bis zu 94 Prozent bei Grok 3; ChatGPT Search lag bei rund zwei Dritteln (134 von 200) falscher Zuordnungen^[21].

Grafik des Tow Center: acht KI-Suchsysteme und ihr Zitationsverhalten bei 200 Nachrichten-Auszügen, über 60 Prozent falsche Antworten, von Perplexity 37 Prozent bis Grok 3 94 Prozent — Jedes Feld steht für eine von 200 Antworten pro System; je mehr Rot, desto häufiger lag das System falsch. Quelle: Columbia Journalism Review / Tow Center for Digital Journalism (2025).

Bildnachweis und Einordnung: Die Grafik stammt aus der Untersuchung „We compared eight AI search engines. They’re all bad at citing news.“ von Klaudia Jaźwińska und Aisvarya Chandrasekar (Columbia Journalism Review / Tow Center for Digital Journalism, 2025) und wird hier zu Informations- und Zitatzwecken mit Quellenangabe wiedergegeben. Alle Rechte am Bild liegen beim Urheber. Diese Felduntersuchung ist nicht peer-reviewt, aber eine unabhängige, vendor-freie Primärerhebung; sie steht außerhalb des akademischen 20-Studien-Kerns und ergänzt ihn um einen Praxis-Beleg.

Das Zitations-Paradox: mehr Zitate ≠ mehr Wahrheit

Wenn Zitate oft nicht stützen, müssten Nutzer dann nicht skeptisch werden? Das Gegenteil ist der Fall. Der Präferenzdatensatz Search Arena (24.069 Konversationen, 12.652 paarweise Voten, 11.650 Nutzer aus 136 Ländern) zeigt: Nutzer bevorzugen Antworten mit mehr Zitaten, selbst dann, wenn die zitierten Inhalte die Aussage gar nicht stützen^[10]. Die positive Assoziation gilt sogar für irrelevante Zitate. Das Zitat wirkt als Vertrauenssignal, unabhängig von seinem Wahrheitsgehalt.

Auf der Modellseite passt das zusammen mit dem Befund von Wan, Wallace und Klein: Sprachmodelle gewichten die Relevanz eines Texts zur Anfrage stark, während sie stilistische Glaubwürdigkeitsmarker wie wissenschaftliche Referenzen oder neutralen Ton weitgehend ignorieren^[3]. Query-nahe Formulierungen erhöhen die „Win-Rate“ einer Evidenz. Die Folge ist ein doppelt missbrauchbares Vertrauenssignal: Menschen vertrauen der Zitatmenge, Modelle der Oberflächen-Relevanz, beides lässt sich bespielen, ohne dass die Aussage dadurch korrekter wird.

Was KI-Suche überhaupt zitiert: Konzentration und Bias

Die Objektivitätsachse zeigt Schieflagen statt Repräsentativität. Audits dokumentieren systematische Verzerrungen in dem, was KI-Suche überhaupt als Quelle heranzieht:

Li und Sinnamon finden in einem 7-Tage-Audit Sentiment-Bias sowie eine kommerzielle und geografische Schieflage der Quellen^[8].
Kuai et al. zeigen für Microsoft Copilot über fünf Sprachen starke Diskrepanzen in Genauigkeit und Attribution; in der Fallstudie zur Taiwan-Wahl 2024 enthält fast die Hälfte der Antworten Faktenfehler^[9].
Yang wertet über 366.000 Zitate aus: Nur 9 Prozent entfallen auf News, diese konzentrieren sich auf wenige Outlets, mit ausgeprägtem liberalem Bias^[11].
Zhang et al. (55.936 Queries) finden, dass 37 Prozent der Domains exklusiv bei LLM-Suchmaschinen auftauchen, diverser also, aber nicht glaubwürdiger, neutraler oder sicherer als klassische Suche^[12].
Kirsten et al. zeigen, dass Google, OpenAI und Perplexity deutlich unterschiedliche Retrieval-Footprints haben, und dass Outputs über Zeit und Wiederholungen variieren^[13].

Wer also fragt, „wie komme ich in die KI-Antwort?“, optimiert auf ein bewegliches, verzerrtes Ziel, nicht auf einen stabilen, neutralen Index.

White-Hat-GEO auf dem Prüfstand: die 40-Prozent-Frage

Kommen wir zur bekanntesten Zahl der ganzen Debatte. GEO steht für Generative Engine Optimization, also die Optimierung darauf, in den Antworten von KI-Suchsystemen aufzutauchen. Die Pionierstudie von Aggarwal und Kollegen nennt dafür eine Sichtbarkeitssteigerung von „bis zu 40 Prozent“^[4]. Im Marketing wird diese Zahl gern blank zitiert, und genau das führt in die Irre.

Was die „40 Prozent“ wirklich messen

Die Zahl ist ein Plus auf einer sogenannten Proxy-Metrik. Eine Proxy-Metrik ist ein Hilfsmaß: Sie misst den eigentlichen Erfolg nicht direkt, sondern schätzt ihn nur ersatzweise (von englisch „proxy“, der Stellvertreter). Im Detail:

Gemessen wurde der Position-Adjusted Word Count (kurz PAWC, auf Deutsch der positionsgewichtete Wortanteil): wie viel Text der KI-Antwort aus deiner Quelle stammt, gewichtet danach, wie weit vorne es in der Antwort steht.
Nicht auf echten Systemen, sondern simuliert: eine nachgebaute Mini-Suchmaschine aus den fünf besten Google-Treffern plus dem älteren Sprachmodell GPT-3.5-turbo, also weder Google noch ein echter KI-Dienst.
Kein Traffic, keine Klicks, kein Zitationsrang: es geht weder um echte Besucher noch um die Klickrate (CTR, englisch Click-Through-Rate, der Anteil der Nutzer, die wirklich klicken) noch darum, wie oft und wie prominent eine Quelle in der Antwort genannt wird.
Nur ein Teil aus der echten Welt: ein Test mit 200 echten Anfragen auf Perplexity ergab plus 22 bis 37 Prozent. Die Autoren schreiben in Abschnitt 9 selbst, dass sie Ranking-Effekte gar nicht gemessen haben.
Was nachweislich nichts bringt: Keyword Stuffing (das künstliche Vollstopfen eines Textes mit Suchbegriffen) und das Einstreuen seltener Wörter. Profitiert haben vor allem schwach platzierte Seiten (bis zu plus 115 Prozent für eine Seite auf Position 5).

Der Kernpunkt: Der scheinbare Widerspruch „GEO wirkt (Aggarwal), aber C-SEO wirkt nicht (C-SEO Bench)“ ist vor allem ein Mess-Unterschied. C-SEO steht für Conversational Search Engine Optimization, die Optimierung für dialogbasierte KI-Suche. Die eine Studie misst einen Wortanteil-Schätzwert auf einer simulierten Engine, die andere den echten Zitationsrang auf einem breiten, standardisierten Test. Es ist also kein inhaltlicher Widerspruch, sondern ein Vergleich von Äpfeln mit Birnen.

Die Gegenprobe: C-SEO Bench

C-SEO Bench ist der methodisch sauberste Test im gesamten Korpus (Korpus = die Gesamtheit der hier ausgewerteten Studien). Über zwei Aufgaben hinweg, nämlich Frage-Antwort und Produktempfehlung, und über mehrere Themenfelder zeigt sich:

Die meisten C-SEO-Methoden wirken nicht messbar, einige verschlechtern den Zitationsrang sogar deutlich.
Klar wirksamer ist das klassische, retrieval-orientierte SEO (SEO steht für Search Engine Optimization, also Suchmaschinenoptimierung). „Retrieval-orientiert“ heißt: dafür sorgen, dass deine Quelle vom System überhaupt gefunden und in den Antwort-Kontext des Sprachmodells (LLM, kurz für Large Language Model) geholt wird^[18].
Je mehr Wettbewerber dieselben Tricks anwenden, desto kleiner die Vorteile. Die Studie nennt den Effekt „congested and zero-sum“, also überfüllt und ein Nullsummenspiel, am Ende gewinnt niemand mehr etwas.

Was stattdessen stabil wirkt: Earned Media

Stabil belegt ist dagegen etwas anderes: Chen und Kollegen (University of Toronto) zeigen, dass die KI-Suche systematisch und sehr deutlich sogenannte Earned Media bevorzugt. Earned Media sind glaubwürdige Inhalte, die Dritte über dich veröffentlichen (etwa Presseartikel oder Fachbeiträge), im Gegensatz zu deinen eigenen Webseiten (Owned Media) und zu Social-Media-Posts. Dazu kommt ein „Big-Brand-Bias“, also eine eingebaute Bevorzugung großer, bekannter Marken^[17]. Beide Ergebnisse stehen wörtlich in der Zusammenfassung (Abstract) der Studie. Vorsicht ist nur beim Ton der Arbeit geboten (der Titel lautet „How to Dominate AI Search“, auf Deutsch etwa „Wie man die KI-Suche beherrscht“); die Messergebnisse selbst sind aber solide.

Praxis: So setzt du diese Befunde um

Nimm die „40 Prozent“ nicht als Versprechen, sondern als Labor-Hilfswert. Miss deinen Erfolg an echten Zitationen in ChatGPT, Perplexity und den KI-Antworten von Google, nicht an einem Wortanteil.
Spar dir Keyword Stuffing und Trick-Texte: Sie wirken nachweislich nicht und können den Zitationsrang sogar verschlechtern.
Investier in Earned Media: Erwähnungen, Tests und Fachbeiträge auf autoritativen Drittseiten zählen mehr als die eigene Landingpage.
Mach Inhalte zitierfähig: klare Struktur, eindeutige Aussagen, belegte Fakten mit Quelle, damit das System dich überhaupt findet und in die Antwort holt.
Differenzier dich inhaltlich: Wenn alle dieselbe Taktik fahren, schrumpft der Effekt („congested and zero-sum“). Echte, belegbare Substanz bleibt der Vorteil.

Behauptete vs. nachgewiesene GEO-Wirkung: plus 40 Prozent Wortanteil-Proxy auf simulierter Engine (Einzelstudie) gegen congested und zero-sum, meist wirkungslos im breiten Benchmark

Wie man in KI-Antworten auftaucht: die neuere Evidenz

Wenn klassische C-SEO-Tricks kaum wirken (Puerto et al.^[18]) und die berühmten „40 Prozent“ aus Aggarwal et al. nur ein Proxy auf simulierter Engine sind^[4], bleibt die praktische Frage: Was lässt eine Quelle in KI-Antworten überhaupt auftauchen? Zwei neuere Arbeiten verschieben den Blick weg vom „Trick“ hin zu Inhalt und Zitierbarkeit.

Tian et al. (AgentGEO) drehen die GEO-Frage um: Statt pauschal „mehr Sichtbarkeit“ zu versprechen, diagnostizieren sie, warum ein konkretes Dokument nicht zitiert wird, und reparieren gezielt. Ihr agentisches System erreicht im eigenen Benchmark über 40 Prozent relative Steigerung der Zitationsrate bei nur rund 5 Prozent geändertem Inhalt, während generische Standardmethoden nur etwa 25 Prozent schaffen^[19]. Anders als die Aggarwal-Zahl ist das eine direkt gemessene Zitationsrate, kein Wortanteil-Proxy. Zwei Vorbehalte bleiben: Es ist ein frischer, noch nicht begutachteter Preprint (März 2026), und die Autoren zeigen selbst, dass generische Optimierung Long-Tail-Inhalten schaden kann und sich manche Dokumente durch Textänderungen allein nicht „reparieren“ lassen, eine offene Frage der fairen Sichtbarkeit.

Chen et al. (CC-GSEO-Bench) liefern das passende Messinstrument aus Sicht der Inhalte-Ersteller. Ihr Benchmark koppelt einen großen Datensatz (über 1.000 Quellartikel, über 5.000 Frage-Artikel-Paare) mit einem creator-zentrierten Bewertungsrahmen und misst den Einfluss einer Quelle über fünf Dimensionen: Sichtbarkeit (Exposure), korrekte Zuschreibung (Faithful Credit), kausaler Einfluss (Causal Impact), Lesbarkeit und Struktur sowie Vertrauenswürdigkeit und Sicherheit^[20]. Die Botschaft: „zitiert werden“ ist mehrdimensional, und ob eine Quelle wirklich Einfluss nimmt, lässt sich erst beurteilen, wenn man echten kausalen Beitrag von bloßer Erwähnung trennt.

Zusammengelesen mit dem restlichen Korpus ergibt sich ein konsistentes Bild der Hebel, in absteigender Belegstärke: Am stärksten und experimentell am saubersten belegt ist der Retrieval-Rang einer Quelle im Modellkontext, also ob und an welcher Stelle sie dem Modell überhaupt vorliegt (Puerto^[18]). Breit dokumentiert folgt der Hebel Earned Media und Markensignale, also autoritative Drittquellen statt Eigenlob (Chen et al. / Toronto^[17]). Inhaltsseitig zahlt es sich aus, gezielt zitierbar zu sein, statt stilistisch zu tricksen (AgentGEO^[19], CC-GSEO-Bench^[20]). Und all das ist nur so viel wert, wie es korrekt zugeschrieben wird, denn knapp ein Drittel der Zitate verzerrt seine Quelle (CITETRACE^[16]).

Black-Hat: Manipulation ist empirisch machbar

Ironischerweise ist die Manipulations-Literatur derzeit robuster als die White-Hat-Literatur. Mehrere kontrollierte Experimente zeigen, dass sich KI-Suche gezielt beeinflussen lässt:

Pfrommer et al. demonstrieren am RAGDOLL-Datensatz (1.147 reale Produkt-Webseiten), dass eine „Tree-of-Attacks“-Technik niedrig gerankte Produkte zuverlässig nach oben promotet, mit Transfer auf Perplexity^[5].
Kumar und Lakkaraju zeigen, dass eine „Strategic Text Sequence“ ein Zielprodukt signifikant häufiger zur Top-Empfehlung macht^[6].
Nestaas et al. führen „Preference Manipulation Attacks“ gegen Bing, Perplexity sowie GPT-4- und Claude-Plugins vor, mit einer Gefangenendilemma-Logik, die den Gesamt-Output für alle verschlechtert^[7].

Die Grenze zwischen legitimer Optimierung und adversarialer Manipulation ist technisch dünn. Genau deshalb ist Black-Hat keine Strategieempfehlung: Es funktioniert, ist aber durch Provider-Patches flüchtig und trägt erhebliche Reputations- und Rechtsrisiken.

Die 20 Kernstudien im Überblick

#	Studie (Jahr)	Typ	Kernbefund	Status
1	Liu et al. (2023)	Audit	Nur 51,5 % der Sätze voll durch Zitate gestützt	EMNLP-Findings
2	Gao et al. / ALCE (2023)	Benchmark	Beste Modelle ohne volle Zitatstützung in ~50 % der Fälle	EMNLP
3	Wan et al. (2024)	Experiment	Modelle gewichten Relevanz, ignorieren Stil/Ton	ACL
4	Aggarwal et al. (2024)	Experiment (Proxy/Sim.)	+40 % auf Wortanteil-Proxy (PAWC); Ranking nicht gemessen	KDD
5	Pfrommer et al. (2024)	Adversarial	Tree-of-Attacks promotet niedrig gerankte Produkte	EMNLP
6	Kumar & Lakkaraju (2024)	Experiment (klein)	Strategic Text Sequence hebt Zielprodukt	Preprint
7	Nestaas et al. (2024)	Adversarial	Preference Manipulation gegen Bing/Perplexity/Plugins	Preprint
8	Li & Sinnamon (2024)	Audit	Sentiment-, kommerzieller und geografischer Bias	ASIS&T
9	Kuai et al. (2025)	Audit	Sprachabhängige Fehler und Attribution (Copilot)	New Media & Society
10	Miroyan et al. / Search Arena (2025)	Präferenzdaten	Mehr Zitate = mehr Zustimmung, auch ohne Stützung	ICLR
11	Yang (2025)	Sekundäranalyse	9 % News, Outlet-Konzentration, liberaler Bias	Preprint
12	Zhang et al. (2025)	Empirisch	37 % Domains LLM-exklusiv, aber nicht glaubwürdiger	Preprint
13	Kirsten et al. (2025)	Vergleich	Unterschiedliche Retrieval-Footprints, Output-Drift	Preprint
14	Huang et al. / Answer Bubbles (2026)	Audit	Quellenauswahl-Bias; Hedging sinkt um bis zu 60 %	Preprint
15	Allaham & Diakopoulos (2026)	Audit	~16 % der zitierten Quellen KI-generiert	AAAI
16	Seo et al. / CITETRACE (2026)	Benchmark	30,6 % verzerren Quelle; bis 96 % der Nutzer betroffen	Preprint (WIP)
17	Chen et al. / Toronto (2025)	Experiment	Earned-Media- und Big-Brand-Bias	Preprint
18	Puerto et al. / C-SEO Bench (2025)	Benchmark	C-SEO meist wirkungslos/negativ; Position dominiert	NeurIPS D&B
19	Tian et al. / AgentGEO (2026)	Experiment (Benchmark)	Gezielte Reparatur: +40 % Zitationsrate bei 5 % Textänderung (Baseline 25 %)	Preprint
20	Chen et al. / CC-GSEO-Bench (2025)	Benchmark	Content-zentriertes Maß für Quelleneinfluss (5 Dimensionen)	Preprint

Bewusst nicht in diesem Kern stehen industrienahe und Vendor-Arbeiten: das kommerziell vermarktete GEO-16-Framework, statistische Industrie-Frameworks mit nicht primär verifizierter Affiliation sowie die Plattform-Studie eines GEO-Tool-Anbieters (Ranqo). Sie decken sich thematisch teils mit dem Big-Brand-Bias, sind aber als Vendor- oder Borderline-Quellen separat zu halten und dienen nur als Kontrast.

Transparenzhinweis: eigene, ergänzende Forschung

Zur Einordnung zwei eigene Untersuchungen, die bewusst nicht Teil des vendor-freien 20-Studien-Kerns sind. Sie stammen von mir und sind daher mit einem Interessenkonflikt behaftet. Sie widersprechen den Kernbefunden nicht, sondern illustrieren sie an realen Daten:

LLM-Sichtbarkeitsstudie (144.000 Datenpunkte, 48 Marken, 100 Prompts, drei Modelle): Welche Marke ein Modell nennt, schwankt stark je Modell. AG1 etwa erscheint bei Gemini in 62 % der Antworten, bei GPT-4o nur in 5 %. Das deckt sich mit der modellabhängigen Retrieval-Drift aus Kirsten et al.^[13] Code und Daten sind offen (MIT-Lizenz).
E-Commerce-GEO-Case-Study (PURELEI) (117 Prompts über ChatGPT, Perplexity, Google AI Overviews und Claude): zeigt, dass sich GEO-Sichtbarkeit messbar in Umsatz niederschlagen kann, hier rund 24.473 € ChatGPT-Umsatz pro Jahr bei 2,98 % Conversion-Rate. Ein Praxisbeleg dafür, dass Earned-Media- und Markensignale (Spalten G, H, I in der Matrix) auch kommerziell wirken.

Was Marken und SEO-Teams aus der Evidenz ziehen sollten

Verdichtet man die 20 Studien auf konkrete Hebel, ergibt sich ein klares Muster, welche Ansätze belegt sind und welche überschätzt werden. Die folgende Evidenzmatrix zeigt, wie stark einzelne GEO-Hebel über die Studien hinweg gestützt sind:

Evidenzmatrix: Retrieval-Position und adversariale Injection experimentell stark belegt, Earned Media breit aber korrelativ, stilistische Tricks und llms.txt schwach bis negativ

Dieselbe Matrix als durchsuchbare Tabelle, auch ohne das Schaubild lesbar (auf kleinen Displays seitlich scrollbar). Die Spalten A bis J stehen für die einzelnen Studien, die Legende unter der Tabelle löst sie auf:

Hebel \ Studie	A	B	C	D	E	F	G	H	I	J
Retrieval-/Kontextposition	+ (D)	++ (E)	+ (E)	·	·	+ (E)	·	·	+ (D)	·
Earned Media / Marke	·	·	·	·	·	·	++ (K/D)	+ (K)	+ (D)	+ (D)
Metadaten & Aktualität	·	·	·	·	·	·	+ (D)	+ (K)	+ (K)	+ (D)
Strukturierte Daten / Schema	0 (E*)	0 (E)	·	·	·	·	+ (D)	+ (K)	+ (K)	·
Semantisches HTML	·	·	·	·	·	·	+ (D)	+ (K)	+ (K)	·
Statistiken hinzufügen	+ (E*)	0/- (E)	·	·	·	0 (E)	+ (D)	·	+ (K)	·
Zitate / Quotes hinzufügen	+ (E*)	0/- (E)	·	·	·	– (E)	·	+ (K)	+ (K)	+ (K)
Stilistische Edits	+ bis 0/- (E*)	— (E)	·	·	·	– (E)	·	·	·	·
llms.txt / LLM-Guidance	·	0 (E)	·	·	·	·	·	·	·	·
Adversariale Prompt-Injection	·	(Kontext)	++ (E*)	++ (E*)	++ (E*)	·	·	·	·	·

Studien (Spalten): A = Aggarwal et al., GEO ([4]) · B = Puerto et al., C-SEO Bench ([18]) · C = Pfrommer et al. ([5]) · D = Kumar & Lakkaraju ([6]) · E = Nestaas et al. ([7]) · F = Wan et al. ([3]) · G = Chen et al. / Toronto ([17]) · H = GEO-16-Framework, industriebezogen, nicht im Kern · I = Citation-Absorption, Borderline-Preprint, nicht im Kern · J = Audit-Gruppe, Beobachtungs-Audits zum Quellen-Bias ([1] [8] [11] [12] [15])

Effekt: ++ stark positiv · + positiv · 0 kein robuster Effekt · – negativ · — signifikant negativ · · nicht untersucht. Evidenztyp: E = experimentell/signifikant · K = korrelativ · D = deskriptiv · E* = kleines/fiktives Sample oder Manipulation.

Die leeren Felder sind selbst ein Befund: Semantic HTML, Structured Data und llms.txt sind außerhalb industrienaher, korrelativer Quellen praktisch unerforscht. Saubere experimentelle Kausalität existiert bislang fast nur für Retrieval-Position und adversariale Injection.

Starke Wirksamkeitsversprechen gegen die Benchmarks spiegeln. Wer „+X Prozent KI-Sichtbarkeit“ verspricht, sollte erklären können, ob das echter Zitationsrang oder ein Wortanteil-Proxy ist, und gegen C-SEO Bench und Search Arena geprüft wurde^[18]^[10].
Retrieval-Rang und Quelleigenschaften schlagen Mikro-Optimierung. Klassische Autorität und Earned Media bleiben die belastbarsten Hebel, während stilistische Edits empirisch schwach sind^[18]^[17].
Zitiert-werden ist nicht korrekt-zitiert-werden. Bei 30,6 Prozent verzerrenden Zitaten braucht es Monitoring, nicht nur Platzierung^[16]^[1].
Aktualität ist die schwächste Achse. Jeder Befund ist ein schnell verfallender Snapshot, deshalb wiederholt messen statt einmalig, idealerweise mit Konfidenzintervallen^[10]^[13].
Black-Hat funktioniert, ist aber Risiko. Provider-Patches, Reputations- und Rechtsrisiken machen Manipulation zur Sackgasse^[5]^[6]^[7].

Wie sichtbar ist deine Marke wirklich?

Statt zu raten, ob deine Marke in der KI-Suche und im Markt sichtbar ist: Der kostenlose Brand Radar zeigt dir das monatliche Brand-Suchvolumen, 3- und 12-Monats-Trends sowie Gewinner und Verlierer über Hunderte D2C-Marken im DACH-Raum. Sichtbarkeit messen, nicht vermuten.

Brand Radar starten

Fazit

Die vendor-freie Bilanz in einem Satz: KI-Suche zitiert selektiv, unstet und oft strukturell irreführend, Nutzer vertrauen Zitaten mehr, als diese verdienen, und der White-Hat-Werkzeugkasten ist schwächer belegt, als sein Marketing verspricht.

Die berühmten „40 Prozent“ sind dabei kein gemessener Zitationsrang, sondern eine Proxy-Metrik auf einer simulierten Engine. Black-Hat-Manipulation wirkt zwar im Experiment, bleibt aber Manipulation, kein tragfähiges Fundament.

Für eine seriöse GEO-Strategie heißt das drei Dinge:

Evidenz vor Tool-Versprechen.
Robuste Hebel (Retrieval-Rang, Earned Media, semantisches HTML) vor stilistischen Tricks. Wichtig: Gemeint ist sauber strukturiertes, semantisches HTML, nicht Schema-Markup, das in Experimenten ohne messbaren Effekt blieb. Die beiden werden im Tool-Marketing gern verwechselt, die Studienlage trennt sie klar.
Wiederholt messen statt Einzel-Snapshot.

Willst du das für deine Marke konkret machen? Starte mit dem kostenlosen Brand Radar, oder buch dir direkt eine kostenlose Erstberatung, in der wir deine GEO- und SEO-Sichtbarkeit evidenzbasiert einordnen.

Abkürzungen und Fachbegriffe erklärt

Damit dieser Text auch ohne Vorwissen lesbar bleibt, hier die wichtigsten Begriffe in je einem Satz:

GEO (Generative Engine Optimization): Inhalte so optimieren, dass sie in den Antworten generativer KI-Systeme (ChatGPT, Perplexity und Co.) genannt und zitiert werden.
AEO (Answer Engine Optimization): Nahezu deckungsgleich mit GEO, Fokus auf „Antwortmaschinen“, die eine direkte Antwort statt einer Linkliste liefern.
C-SEO (Conversational SEO): SEO für dialogbasierte KI-Suche; im Korpus der Sammelbegriff für die getesteten Content-Tricks.
GSE (Generative Search Engine): KI-Suchsystem, das Quellen abruft und daraus eine generierte Antwort formuliert.
LLM (Large Language Model): Großes Sprachmodell, die KI hinter der Antwortgenerierung.
RAG (Retrieval-Augmented Generation): Verfahren, bei dem das Modell vor dem Antworten passende Quellen abruft (Retrieval) und in die Antwort einbindet.
Retrieval / Retrieval-Rang: Das Abrufen von Quellen und die Position, an der eine Quelle dem Modell als Kontext vorliegt; laut Evidenz der stärkste Sichtbarkeitshebel.
Earned Media: Reichweite durch autoritative Drittquellen (Presse, Fachseiten, Wikipedia) statt eigener Kanäle oder bezahlter Werbung.
PAWC (Position-Adjusted Word Count): Proxy-Metrik aus der Aggarwal-Studie, ein positionsgewichteter Wortanteil einer Quelle in der KI-Antwort, kein gemessener Traffic und kein Zitationsrang.
Proxy-Metrik: Ersatzgröße, die das eigentliche Ziel (z. B. Traffic) nur annähert; starke Versprechen auf Proxy-Basis sind mit Vorsicht zu lesen.
STS (Strategic Text Sequence): Eingefügte Textsequenz, die ein Modell dazu bringt, ein bestimmtes Produkt zu bevorzugen, eine Manipulationstechnik.
Hedging: Sprachliche Unsicherheitsmarker („möglicherweise“, „laut Quelle“); sinken in KI-Antworten, wodurch diese sicherer klingen, als die Quellenlage trägt.
CTR (Click-Through-Rate): Klickrate, der Anteil der Nutzer, die auf ein angezeigtes Ergebnis klicken.
Benchmark: Standardisierter Testdatensatz, an dem Methoden objektiv und vergleichbar gemessen werden (z. B. ALCE, C-SEO Bench, CC-GSEO-Bench).
Preprint: Vorab veröffentlichte Studie (meist auf arXiv), noch ohne abgeschlossene Begutachtung.
Peer-Review: Begutachtung durch unabhängige Fachkollegen vor der Veröffentlichung, ein Qualitätsfilter, den Preprints noch nicht durchlaufen haben.
D2C (Direct-to-Consumer): Marken, die ohne Zwischenhandel direkt an Endkunden verkaufen.

Weiterlesen und vertiefen

Wie LLMs Marken ranken, eine statistische Studie zur KI-Sichtbarkeit mit Claude, GPT-4o und Gemini
E-Commerce GEO Case Study mit PURELEI
Andrej Karpathy, „Deep Dive into LLMs like ChatGPT“ (Video) – youtube.com/watch?v=7xTGNNLPyMI

Quellen

Liu, N. F., Zhang, T. & Liang, P. (2023) – Evaluating Verifiability in Generative Search Engines. Findings of EMNLP 2023. arxiv.org/abs/2304.09848
Gao, T., Yen, H., Yu, J. & Chen, D. (2023) – Enabling Large Language Models to Generate Text with Citations (ALCE). EMNLP 2023. arxiv.org/abs/2305.14627
Wan, A., Wallace, E. & Klein, D. (2024) – What Evidence Do Language Models Find Convincing? ACL 2024. arxiv.org/abs/2402.11782
Aggarwal, P. et al. (2024) – GEO: Generative Engine Optimization. KDD 2024, DOI 10.1145/3637528.3671900. arxiv.org/abs/2311.09735
Pfrommer, S., Bai, Y., Gautam, T. & Sojoudi, S. (2024) – Ranking Manipulation for Conversational Search Engines. EMNLP 2024. arxiv.org/abs/2406.03589
Kumar, A. & Lakkaraju, H. (2024) – Manipulating Large Language Models to Increase Product Visibility. arxiv.org/abs/2404.07981
Nestaas, F., Debenedetti, E. & Tramèr, F. (2024) – Adversarial Search Engine Optimization for Large Language Models. arxiv.org/abs/2406.18382
Li, A. & Sinnamon, L. (2024) – Generative AI Search Engines as Arbiters of Public Knowledge: An Audit of Bias and Authority. Proc. ASIS&T 2024. DOI 10.1002/pra2.1021
Kuai, J., Brantner, C., Karlsson, M., Van Couvering, E. & Romano, S. (2025) – AI chatbot accountability in the age of algorithmic gatekeeping. New Media & Society. DOI 10.1177/14614448251321162
Miroyan, M., Wu, T.-H. et al. (2025) – Search Arena: Analyzing Search-Augmented LLMs. ICLR 2026. arxiv.org/abs/2506.05334
Yang, K.-C. (2025) – News Source Citing Patterns in AI Search Systems. arxiv.org/abs/2507.05301
Zhang, P., Ye, Q., Peng, Z., Garimella, K. & Tyson, G. (2025) – Source Coverage and Citation Bias in LLM-based vs. Traditional Search Engines. arxiv.org/abs/2512.09483
Kirsten, E. et al. (2025) – Characterizing Web Search in the Age of Generative AI. arxiv.org/abs/2510.11560
Huang, M., Goyal, A., Saha, K. & Chandrasekharan, E. (2026) – Answer Bubbles: Information Exposure in AI-Mediated Search. arxiv.org/abs/2603.16138
Allaham, M. & Diakopoulos, N. (2026) – Synthetic Sources? Auditing Generative Search Engine Citations for Evidence of AI-Generated Sources. AAAI 2026. arxiv.org/abs/2605.23684
Seo, Y., Jeong, W., Kim, E., Jang, H. & Lee, D. (2026) – Verified Misguidance: Measuring Structural Citation Failures in Search-Augmented LLMs (Work in Progress). arxiv.org/abs/2605.28565
Chen, M., Wang, X., Chen, K. & Koudas, N. (2025) – Generative Engine Optimization: How to Dominate AI Search. arxiv.org/abs/2509.08919
Puerto, H., Gubri, M., Green, T., Oh, S. J. & Yun, S. (2025) – C-SEO Bench: Does Conversational SEO Work? NeurIPS 2025 Datasets & Benchmarks. arxiv.org/abs/2506.11097
Tian, Z., Chen, Y., Tang, Y., Liu, J. & Jia, R. (2026) – Diagnosing and Repairing Citation Failures in Generative Engine Optimization (AgentGEO). arxiv.org/abs/2603.09296
Chen, Q., Chen, J., Huang, H., Shao, Q., Chen, J., Hua, R., Xu, H., Wu, R., Chuan, R. & Wu, J. (2025) – CC-GSEO-Bench: A Content-Centric Benchmark for Measuring Source Influence in Generative Search Engines. arxiv.org/abs/2509.05607
Ja&zacute;wi&nacute;ska, K. & Chandrasekar, A. (2025) – We compared eight AI search engines. They’re all bad at citing news. Columbia Journalism Review / Tow Center for Digital Journalism. cjr.org

Wie hilfreich war dieser Beitrag?

Klicke auf die Sterne um zu bewerten!

Durchschnittliche Bewertung 5 / 5. Anzahl Bewertungen: 1

Bisher keine Bewertungen! Sei der Erste, der diesen Beitrag bewertet.

Share0

Tweet0

Share0

Vorher

Über den Autor

Hi, ich bin Antonio.
Ich optimiere SEO datengetrieben mit Python, Verkaufspsychologie und meinem Neuro-SEO System®. So verstehe ich, wie Käufer ticken, und entwickle gezielte Strategien für mehr Sichtbarkeit.
Auf YouTube, LinkedIn und Instagram teile ich regelmäßig praxisnahe Anleitungen, Insights und aktuelle SEO-Tricks.
Abonniere gern meine Kanäle und bleib immer auf dem neuesten Stand.

Share 0

SEO B2B: Was große Marken 2026 wirklich anders machen

0 (0) SEO B2B: Was große Marken 2026 wirklich anders machen Ich

Podcast, SEO

SEO B2B: Was große Marken 2026 wirklich anders machen

0 (0) SEO B2B: Was große Marken 2026 wirklich anders machen Ich [...]

Podcast, SEO

Immobilien Steuern Sparen: Was Unternehmer wissen müssen

0 (0) Immobilien Steuern Sparen: Was Unternehmer wirklich wissen müssen Mit Immobilien [...]

Podcast, SEO

Link Building im KI-Zeitalter: Was wirklich funktioniert und warum externe Signale wichtiger werden

0 (0) Link Building im KI-Zeitalter: Was wirklich funktioniert und warum externe [...]

Podcast, SEO

Nomaden in Deutschland: Webdesign, Positionierung & Erfolg

0 (0) Nomaden in Deutschland: Webdesign, Positionierung & Remote-Erfolg Nomaden in Deutschland [...]

KI Halluzinationen: Was DELEGATE-52 für Unternehmen zeigt

0 (0) Microsoft Research hat mit DELEGATE-52 einen Benchmark veröffentlicht, der 19 [...]

SEO

Microsoft Copilot Agenten erstellen: Workshop bei Paroc

0 (0) „Vorher war KI für mich nur eine Möglichkeit. Jetzt weiß [...]

GEO-Studie: Was die Forschung über KI-Suche wirklich zeigt [META Studie]

Zusammenfassung mit einem Klick

Quick Overview

Der Forschungsstand: jung, methodisch uneinheitlich, aber belastbar

Der Bewertungsrahmen: Objektivität, Aktualität, Relevanz, Verlässlichkeit

Auf den Punkt

Zitationsqualität: selektiv, unstetig, strukturell irreführend

Die wichtigsten Zahlen auf einen Blick

Praxis-Beleg: KI-Suche antwortet oft selbstbewusst falsch

Das Zitations-Paradox: mehr Zitate ≠ mehr Wahrheit

Was KI-Suche überhaupt zitiert: Konzentration und Bias

White-Hat-GEO auf dem Prüfstand: die 40-Prozent-Frage

Was die „40 Prozent“ wirklich messen

Die Gegenprobe: C-SEO Bench

Was stattdessen stabil wirkt: Earned Media

Wie man in KI-Antworten auftaucht: die neuere Evidenz

Black-Hat: Manipulation ist empirisch machbar

Die 20 Kernstudien im Überblick

Transparenzhinweis: eigene, ergänzende Forschung

Was Marken und SEO-Teams aus der Evidenz ziehen sollten

Wie sichtbar ist deine Marke wirklich?

Fazit

Abkürzungen und Fachbegriffe erklärt

Weiterlesen und vertiefen

Quellen

SEO B2B: Was große Marken 2026 wirklich anders machen

SEO B2B: Was große Marken 2026 wirklich anders machen

Immobilien Steuern Sparen: Was Unternehmer wissen müssen

Link Building im KI-Zeitalter: Was wirklich funktioniert und warum externe Signale wichtiger werden

Nomaden in Deutschland: Webdesign, Positionierung & Erfolg

KI Halluzinationen: Was DELEGATE-52 für Unternehmen zeigt

Microsoft Copilot Agenten erstellen: Workshop bei Paroc

Nutze meinen SEO Fahrplan, wie du bei Google auf Seite 1 kommst!