Synthetische Forschung 2026 — was die Studien tatsächlich sagen

Die Zahl steht in jedem zweiten Produkt-Pitchdeck der letzten achtzehn Monate: 85 Prozent. 85 Prozent Übereinstimmung zwischen KI-generierten Antworten und echten Menschen. Je nach Quelle wird daraus „85 bis 92 Prozent” oder „nahezu menschlich”. Was selten dabei steht: Was gemessen wurde, unter welchen Bedingungen, mit welchem Vergleichsmaßstab.

Dieser Artikel liest die wichtigsten Studien im Detail. Er ist bewusst technisch, weil synthetische Forschung ohne methodisches Verständnis gefährlich wird — nicht weil sie falsch wäre, sondern weil sie den Anschein von Exaktheit erzeugt, wo Differenzierung nötig ist.

Was Park et al. 2024 tatsächlich gemacht haben

Das Stanford-HAI-Paper von Joon Sung Park und Kollegen (Generative Agent Simulations of 1,000 People, arXiv 2024) ist der aktuell meistzitierte Beleg für synthetische Forschung. Es verdient eine genaue Lektüre.

Die Studie rekrutierte 1.052 Teilnehmer:innen aus den USA, die über die Plattform Prolific gescreent wurden. Jede Teilnehmerin gab ein zweistündiges, halbstrukturiertes Interview, das anschließend als Kontext-Dokument in einen Generativen Agenten eingespeist wurde. Die Agenten basierten auf GPT-4o und nutzten ein spezialisiertes Persona-Framework (reflective memory).

Nach zwei Wochen kamen dieselben Teilnehmer:innen zurück — sowohl zum erneuten Beantworten ihrer eigenen Fragen (Test-Retest-Reliabilität) als auch zum Beantworten neuer Fragen, die parallel auch den Agenten gestellt wurden. Die Hauptmetrik war die Übereinstimmung der Agenten-Antworten mit den späteren menschlichen Antworten, normalisiert auf die Test-Retest-Reliabilität der Menschen selbst.

Der zentrale Befund:

Die Agenten erreichten 85 % der Test-Retest-Reliabilität der Menschen selbst (General Social Survey) — das heißt, sie waren etwa so konsistent mit der späteren menschlichen Antwort wie die Menschen mit ihren eigenen früheren Antworten.

Das ist eine andere Aussage als „85 Prozent der Antworten waren identisch”. Test-Retest-Reliabilität misst, wie zuverlässig eine Person sich selbst wiederholt. Menschen wiederholen sich bei Big-Five-Items typischerweise nicht perfekt: Die übliche Zwei-Wochen-Korrelation liegt bei r = 0.75–0.85 (nicht eine Trefferquote, sondern ein Korrelationskoeffizient). Als Heuristik zur Veranschaulichung: Wenn man die Park-et-al.-Zahl von 85 % auf diese menschliche Selbst-Reliabilität multipliziert, landet man irgendwo bei zwei Dritteln echter Konsistenz mit der späteren Antwort — das ist keine saubere mathematische Ableitung, sondern ein Daumenwert, um die Größenordnung einzuordnen.

Das ist ein sehr beachtlicher Befund — und er ist weniger spektakulär, als die Überschriften suggerieren. Er bedeutet: KI-Agenten können individuelle Menschen annähern, aber sie sind nicht identisch mit ihnen.

Was Test-Retest-Reliabilität wirklich heißt

Wer mit Umfrage-Methodik nicht vertraut ist, braucht einen Moment Orientierung. Eine Test-Retest-Reliabilität gibt an, wie stark eine Messung sich selbst gleicht, wenn sie zu zwei Zeitpunkten durchgeführt wird. Bei psychologischen Konstrukten wie Big Five liegen die Werte typischerweise bei r = 0.75–0.85 über zwei Wochen. Das heißt: Auch ohne jede äußere Veränderung antworten Menschen nicht zu 100 % identisch.

Diese Tatsache ist wichtig, weil sie die Obergrenze für jede synthetische Methode setzt. Ein Agent kann nie zuverlässiger sein als die Person selbst. Wenn Park et al. 85 % der menschlichen Reliabilität erreichen, stoßen sie an eine theoretische Decke, nicht an ihre Methode.

Umgekehrt bedeutet das aber auch: Wenn jemand 95 % oder 99 % Übereinstimmung verspricht, hat er ein methodisches Problem. Solche Werte sind unterhalb der Selbst-Reliabilität nicht plausibel — und oberhalb der Selbst-Reliabilität nicht informativ.

Wo synthetische Forschung zuverlässig ist

Aus Park et al. 2024 sowie aus Argyle et al. 2023 (Out of One, Many: Using Language Models to Simulate Human Samples, Cambridge University Press) lassen sich drei Bedingungen identifizieren, unter denen synthetische Forschung methodisch robust wird:

Bedingung 1: Persönlichkeits-Items und Einstellungsfragen

Die höchste Übereinstimmung erreichen synthetische Agenten bei persönlichkeits-nahen und werte-nahen Items: Big-Five-Skalen, politische Einstellungen, ethische Grundhaltungen, Vertrauens-Fragen. Das ist konsistent damit, dass diese Konstrukte über Zeit stabil sind und sprachlich gut operationalisiert.

Bedingung 2: Breite Verhaltenstendenzen

Würde diese Person eher ein Risiko eingehen oder Sicherheit suchen? — solche Tendenz-Fragen werden von Agenten mit ca. 70–85 % Trefferquote beantwortet, je nach Kontext-Tiefe. Das genügt für viele Design-Entscheidungen.

Bedingung 3: Copy- und Framing-Sparring

Eine der unterbewerteten Anwendungen: Synthetische Personas sind exzellent darin, sprachliche Fehltöne zu erkennen. Ein Text, der bei fünfzehn unterschiedlich charakterisierten Agenten durchgespielt wird, zeigt Inkonsistenzen, die einem Einzelleser entgehen. Das ist keine Forschung im engen Sinn, aber eine valide Testmethode — vergleichbar mit Code-Review in der Software-Entwicklung.

Wo synthetische Forschung versagt

Ebenso wichtig: die Grenzen. Die Nielsen Norman Group hat 2025 in einem Artikel von Kate Moran systematisch aufgelistet, wo synthetische User-Forschung nicht ausreicht:

Versagen 1: Extreme Reaktionen werden unterschätzt. Synthetische Agenten tendieren zu Durchschnitts-Antworten. Eine echte Testperson, die aus Frust das Interview abbricht oder eine unerwartete, idiosynkratische Einsicht liefert — solche Momente produzieren Agenten seltener.

Versagen 2: Kontext-sensitives Verhalten. Wie reagiert die Person, wenn die Ladeseite drei Sekunden braucht, das Formular einen Schreibfehler hat und draußen gerade ein Paket kommt? — für solche multifaktoriellen Situationen sind Agenten zu glatt. Sie konstruieren plausible, aber nicht realistische Reaktions-Sequenzen.

Versagen 3: Neue Kategorien, keine Analogie. Wenn ein Produkt konzeptionell neu ist — nicht die zehnte SaaS-Variante, sondern ein Kategorie-Vorstoß — fehlt den Agenten die Basis für valide Projektion. Sie greifen auf nahe Analogien zurück, was zu systematischer Unterschätzung von Verhaltens-Varianz führt.

Die Nielsen Norman Group (Moran, 2025) beschreibt qualitativ, was Teams in der Praxis beobachten: Synthetische Personas wirken „eindimensional”, produzieren „einen flachen Durchschnitt vieler Erfahrungen” und neigen zu Sycophancy — sie bewerten auch schwache Ideen zustimmend. Quantitative Messungen zur Varianz-Reduktion bei synthetischen Personas sind 2026 noch spärlich publiziert; Teams, die Kategorie-Innovation testen wollen, sollten mit systematisch zu optimistischen Signalen rechnen und echte Nutzer-Samples einplanen.

Was Bias-Audits wirklich prüfen müssen

Wer synthetische Forschung wissenschaftlich sauber aufstellt, muss eine Bias-Audit-Schleife einbauen. Das heißt konkret:

1. Kontrollieren Sie Demografie-Drift. LLMs haben Trainings-Biases. Eine unkontrollierte synthetische Stichprobe ist in Alter, Geschlecht und Bildungs-Niveau oft zu westlich-urban. Gewichten oder stratifizieren Sie bewusst.

2. Prüfen Sie Antwort-Homogenität. Wenn alle dreißig Agenten in dieselbe Richtung antworten, stimmt etwas nicht. Echte Nutzer-Samples produzieren breitere Streuung. Homogenität ist ein Warnsignal für Prompt-Leckage oder Persona-Uniformität.

3. Vergleichen Sie periodisch mit echten Samples. Mindestens einmal pro Quartal sollte eine Frage, die synthetisch beantwortet wurde, auch mit echten Nutzer:innen getestet werden. Die Abweichung zwischen den beiden ist Ihre Methoden-Qualitäts-Metrik.

4. Dokumentieren Sie Prompt-Versionen. Ein Agent, der vor sechs Monaten auf GPT-4 lief, antwortet heute auf GPT-4o anders. Ohne Versionskontrolle ist keine Longitudinal-Forschung möglich.

Wie man synthetische Studien sauber aufstellt

Aus der zusammengenommenen Evidenz ergibt sich ein praktisches Vorgehen für Teams, die synthetische Forschung valide nutzen wollen:

Definieren Sie den Zweck. Hypothesen-Vor-Test? Copy-Sparring? Breite Einstellungsmessung? Für jede Klasse gelten andere Reliabilitäts-Anforderungen.
Wählen Sie die Persona-Granularität. Archetypen (generisch) reichen für Framing-Tests. Individuelle Personas mit psychologisch dichtem Profil (Big Five, Bias-Muster, Kulturkontext) sind für Verhaltenstendenz-Studien nötig.
Bauen Sie Redundanz ein. Mindestens fünf, idealerweise fünfzehn Agenten pro Testlauf. Ein einzelner Agent ist keine Studie.
Kombinieren Sie qualitative und quantitative Auswertung. Scores allein übersehen, was in den Freitext-Antworten als Muster auftaucht.
Validieren Sie selektiv. Die teuren Studien mit echten Nutzer:innen werden nicht ersetzt, sondern gezielter eingesetzt. Synthetische Forschung kürzt die Hypothesen-Trichter, echte Forschung bestätigt die Endauswahl.

Was bis 2030 zu erwarten ist

Drei Entwicklungen zeichnen sich methodisch ab:

Erstens: Die Validierungs-Corpora werden größer. Park et al. (1.052) war 2024 Stand der Kunst; 2026 entstehen Studien mit fünf- bis zehntausend Teilnehmer:innen. Die Konsequenz: engere Konfidenz-Intervalle, präzisere Abschätzungen, wo die Methode funktioniert.

Zweitens: Die Reliabilität bei Verhaltens-Vorhersagen wird sich verbessern — aber langsamer als die Reliabilität bei Einstellungs-Items. Verhaltens-Kontext ist multifaktorieller Natur, und LLMs sind strukturell schlecht darin, Wechselwirkungen zu modellieren, die sie nicht in Trainings-Daten gesehen haben.

Drittens: Der Ersatz-Anspruch wird verschwinden. Die Branche bewegt sich von „Synthetische Personas ersetzen echte Forschung” zu „Synthetische Personas erweitern echte Forschung”. Das ist eine Korrektur, keine Niederlage.

Was daraus folgt

Synthetische Forschung 2026 ist eine valide, aber präzise begrenzte Methode. Wer sie als Ersatz für Nutzer-Interviews verkauft, verkauft ein Versprechen, das die Empirie nicht deckt. Wer sie als erstes Sieb einsetzt — für Copy-Sparring, Hypothesen-Screening, Persona-Stress-Tests — erhält ein Werkzeug, das Research-Produktivität signifikant erhöht.

Die ehrliche Zusammenfassung: Die 85-Prozent-Zahl ist real, sie ist aber eine Angabe über Reliabilitäts-Annäherung, nicht über Antwort-Identität. Zwischen diesen beiden Lesarten liegt die Differenz zwischen einem seriösen Tool und einer Marketing-Aussage.

Für die methodischen Grundlagen unserer eigenen Implementierung — Big-Five-Validierung, Bias-Kompositions-Regeln und Bias-Audit-Schleifen — siehe die Seite Wissenschaft.