Microsoft Research hat mit DELEGATE-52 einen Benchmark veröffentlicht, der 19 Frontier-LLMs in mehrstufigen Dokument-Pipelines testet [1]. Das Ergebnis ist unbequem: Selbst die stärksten Modelle korrumpieren rund 25 % der Inhalte, wenn ein Dokument mehrfach durch sie hindurch läuft. Wenn dein Agent-Stack heute schon Inhalte weiterreicht, ist KI Halluzinationen keine seltene Anomalie mehr, sondern ein Erwartungswert – und genau das verändert die Bewertung jeder KI-Roadmap.
Für die Geschäftsführung und KI-Verantwortliche heißt das: Pipeline-Länge und Übergabe-Punkte werden zur Risiko-Variable, nicht das Modell allein. Dieser Artikel ordnet die Studie ein, verbindet sie mit den unabhängigen Befunden zu Context Rot [2] und Vibe-Coding-Risiken [3][4] und benennt fünf konkrete Maßnahmen, die du heute starten kannst.
Kernzahl: 8.840 Dokumente, 52 Domänen, 19 LLMs, bis zu 20 Hops pro Pipeline. Ergebnis: rund 25 % Informationsverlust selbst bei Frontier-Modellen wie GPT-4o, Claude 3.7 Sonnet und Gemini 2.5 Pro [1].
Wie DELEGATE-52 LLM-Pipelines testet
Der Benchmark misst nicht, wie gut ein Modell auf eine Frage antwortet, sondern was passiert, wenn ein Dokument mehrfach durch ein LLM weitergereicht wird – ein realistisches Setup für Agenten, die Inhalte zusammenfassen, übersetzen, restrukturieren und wieder ausgeben. Microsoft nennt das Round-Trip-Relay: Inhalt rein, Inhalt raus, Inhalt wieder rein, bis zu zwanzig Mal.

Die zweite Dimension ist Domain-Breite: Die Pipeline läuft über 52 Domänen – Finance, Legal, Medical, Marketing, Code, wissenschaftliche Literatur. Das macht das Ergebnis robust gegenüber dem Einwand „vielleicht ist das nur in Code so“.

Pro Domäne werden gemittelt rund 170 Dokumente getestet, insgesamt 8.840. Für die Bewertung kombinieren die Autoren Faithfulness (bleibt der Inhalt korrekt?) und Completeness (geht Information verloren?) zu einem Pipeline-Score.
Frontier-Modelle verlieren ein Viertel der Information
Table 1 ist die Kernaussage des Papers. Sie zeigt 19 LLMs – von Open-Source Llama 3 über Mixtral bis zu den geschlossenen Frontier-Modellen – und ihren Informationsverlust pro Pipeline-Schritt.

Drei Beobachtungen sind für die Geschäftsführung entscheidend:
- Frontier ist nicht safe. GPT-4o, Claude 3.7 Sonnet und Gemini 2.5 Pro liegen alle bei ungefähr 25 % Informationsverlust nach 20 Hops. Der Abstand zu kleineren Modellen ist real, aber er ändert die Größenordnung nicht.
- Der Fehler ist kumulativ. Pro Schritt verliert das beste Modell rund 1,3 %. Klingt unkritisch – bis du es zwanzig Mal multiplizierst.
- Domain spielt eine Rolle, aber sie rettet dich nicht. Auch in „einfachen“ Domänen wie Marketing-Copy liegen die Spitzenmodelle nicht unter 15 % Verlust.
„Wenn dein Workflow mehr als drei LLM-Übergaben enthält, ist die Halluzinations-Wahrscheinlichkeit nicht mehr eine Modell-Frage, sondern eine Pipeline-Frage.“
Sinngemäße Lesart von Table 1, DELEGATE-52
Drei Verstärker für KI Halluzinationen
Die spannendste Hälfte der Studie zeigt, was den Fehler verstärkt. Microsoft testet das in zwei zusätzlichen Setups, die jeder Praxis-Pipeline sehr nahe kommen.
Verstärker 1: Distractor-Inhalte
Sobald irrelevanter Kontext mit ins Prompt wandert – ein zweiter Absatz, ein zweiter Datensatz, eine Fußnote – steigt der Informationsverlust signifikant. Genau das passiert in jedem RAG-Setup, wenn der Retriever zu viel zieht.

Verstärker 2: Context Rot
Chroma Research hat 2025 unabhängig gezeigt, dass LLMs nicht „länger = besser“ skalieren: Mit wachsendem Input-Token-Count fällt die Antwortqualität auch innerhalb des deklarierten Context-Windows ab [2]. DELEGATE-52 misst genau diesen Effekt in der Pipeline. Beide Befunde zusammen sind die methodische Bestätigung, dass Context Rot kein Tool-Bug ist, sondern eine Architektur-Eigenschaft.
Verstärker 3: Multimodalität
Sobald Bilder ins Spiel kommen, verstärkt sich der Effekt noch einmal. Table 8 zeigt das für Image-Editing-Pipelines – ein realistisches Setup für jeden, der Produktbilder oder Reports mit LLM-Agenten verarbeitet.

Die gleiche Mechanik findet sich übrigens in der Code-Generation: CodeRabbit und Veracode dokumentieren 2025, dass Vibe-Coding-Pipelines – also schnelle, mehrstufige Code-Generation ohne Diff-Review – Sicherheitslücken und stille Halluzinationen in deutlich höherer Frequenz produzieren als monolithische Generationen [3][4].
Quellen-Hinweis: Die fünf Tabellen und Figuren in diesem Artikel sind Screenshots aus dem Paper LLMs Corrupt Your Documents When You Delegate (Laban, Schnabel, Rashkin, Neville, Microsoft Research 2026, arXiv:2604.15597). Die Wiedergabe erfolgt zu Zwecken der Berichterstattung mit Quellenangabe.
Was die Geschäftsführung jetzt tun sollte
DELEGATE-52 verändert nicht, ob du KI einsetzt, sondern wie du sie operativ absicherst. Gartner schätzt für 2025, dass über 60 % der KI-Pilotprojekte in deutschen B2B-Unternehmen ohne formales Risk-Management gestartet werden [5]. Genau das ist der Hebel. Fünf konkrete Maßnahmen, die du heute starten kannst:
- Pipeline-Length-Audit. Zähl in jedem produktiven Agent-Stack die LLM-Hops. Alles über drei Hops gehört auf eine Watchlist. Alles über fünf gehört in eine Diff-Review-Pipeline.
- Retrieval statt Round-Trip. Wo immer möglich: nicht „LLM schreibt um, was LLM geschrieben hat“, sondern „LLM antwortet mit Quell-Referenz“. RAG mit Source-Citation reduziert die Round-Trip-Distanz drastisch.
- Pflicht-Diff-Checks bei jeder Übergabe. Jeder Output zwischen zwei LLMs bekommt einen Diff-Check gegen das Original – entweder durch ein zweites Modell, durch Embeddings-Similarity oder durch deterministische Regex-Checks bei Zahlen und Eigennamen.
- Domain-Benchmarks selbst messen. DELEGATE-52 ist als Methode adaptierbar. Gib an deine Entwickler den Auftrag aus 50 internen Dokumenten einen eigenen Mini-Benchmark zu erstellen, schick sie zehnmal durch deinen Stack und miss den Drift. Das kostet weniger als einen Workshop-Tag und verändert deine Modell-Auswahl.
- AI Risk Management als Vorstands-KPI. Glean und Adlib berichten 2025 von zweistelligen Halluzinations-Quoten in produktiven Enterprise-Setups [6]. Diese Zahl gehört in die gleiche Tabelle wie Conversion-Rate und MRR – nicht in einen separaten Tech-Report, den niemand liest.
Fazit
DELEGATE-52 macht KI Halluzinationen zu einer messbaren System-Eigenschaft. Sie sind kein Modell-Bug, der mit dem nächsten Release verschwindet, sondern ein architektonischer Effekt von Round-Trip-Pipelines – ein Effekt, der mit Distractor-Inhalten, langem Context und Multimodalität skaliert. Für jede KI-Roadmap heißt das: die Frage „welches Modell?“ ist nachrangig gegenüber „wie viele Hops und welche Übergabe-Checks?“.
„Trust but verify“ ist mit DELEGATE-52 operationalisierbar geworden. Wer KI-Pipelines produktiv betreibt, testet sie ab jetzt wie kritische Infrastruktur – mit Domain-Benchmarks, Pipeline-Length-Limits und Diff-Checks an jeder Übergabe. Das ist der Unterschied zwischen einem Piloten, der schnell skaliert, und einem, der still verbrennt.
Du willst wissen, wie robust deine eigene KI-Pipeline ist? In einem kostenlosen Erstgespräch schauen wir uns deinen Agent-Stack an und identifizieren die drei grössten Halluzinations-Risiken – konkret und ohne Tool-Verkauf.
Quellen
- Laban, P., Schnabel, T., Rashkin, H., Neville, J. (2026) – LLMs Corrupt Your Documents When You Delegate. arXiv:2604.15597. Microsoft Research. arxiv.org
- Chroma Research (2025) – Context Rot: How Increasing Input Tokens Impacts LLM Performance. research.trychroma.com
- CodeRabbit (2025) – Vibe Coding Risk Report. coderabbit.ai
- Veracode (2025) – AI-Generated Code Vulnerabilities. veracode.com
- Gartner (2025) – Top Strategic Predictions: AI Hallucination Risk Management. gartner.com
- Glean & Adlib (2025) – Enterprise-Surveys zu LLM-Halluzinationen in produktiven Workflows. glean.com


