§ I Auftakt

Wissenschaftliche Grundlage

Ob eine synthetische Persona verlässlich ist, hängt nicht vom Sprachmodell ab.

Sie hängt davon ab, ob die Theorie stimmt, auf der sie beruht. Diese Seite legt diese Theorie offen — die Säulen, die Grenzen, und die Stelle, an der unsere Arbeit aufhört und unsere Verantwortung beginnt.

Wir haben nicht vier Jahrzehnte (1979–2024) Persönlichkeits- und Entscheidungsforschung in einen Prompt gepackt. Wir haben sie als Architektur implementiert. Was folgt, ist die ehrliche Dokumentation dessen, was öffentlich ist, was wir intern validiert haben, und wo synthetische Personas systematisch versagen — eine Grenze, die wir offen benennen, weil Vertrauen ohne sie nicht möglich ist.

Methode in der Praxis sehen Kostenlos starten

§ II Kurzfassung

Kurzversion · 30 Sekunden

Die drei Kern-Aussagen.

Kern-Aussage

Peer-reviewed Grundlage

Big Five (Schmitt 2007, n=17.837, 56 Nationen) + Kahneman-Biases + Sinus-Milieus + Hofstede. Alle öffentlich, alle extern validiert.
Zu den Säulen →
Kern-Aussage

85 % Übereinstimmung

Stanford HAI 2024: KI-Agenten replizieren Umfrage-Antworten bei 1.052 Teilnehmern mit ≈ 85 % der menschlichen Test-Retest-Reliabilität.
Zur Validierung →
Kern-Aussage

Ehrliche Grenzen

Synthetische Antworten bilden Durchschnittswerte stärker ab als Extrempositionen (Nielsen Norman Group 2025).
Zu den Grenzen →

Weiterlesen unten · Oder direkt zur Praxis-Anwendung: Methode in der Praxis sehen →

§ III Vier Säulen

Die vier Säulen

Vier Theorien, aus vier Jahrzehnten empirischer Forschung (1979–2024).

Keine davon ist exklusiv unsere. Jede ist dokumentiert, repliziert, peer-reviewed oder kommerziell validiert. Gemeinsam bilden sie das Fundament, auf dem jede unserer Personas steht.

Säule 1

Dispositionelle Persönlichkeitstheorie

Die Big-Five-Taxonomie — Offenheit, Gewissenhaftigkeit, Extraversion, Verträglichkeit und Neurotizismus — ist die dominante Struktur der modernen Persönlichkeitspsychologie. Sie geht zurück auf lexikalische Studien der frühen 1980er-Jahre und wurde durch McCrae und Costa¹ in ein testgestütztes Inventar überführt (NEO-PI). Ihr entscheidender Vorzug: sie ist nicht kulturspezifisch, sondern sprach- und kulturübergreifend replizierbar.

Für synthetische Personas bedeutet das: wir können die psychologische Disposition einer Persona als fünf-dimensionalen Vektor ausdrücken, der sich in Befragungen, in Verhaltensexperimenten und in Sprachmuster-Analysen konsistent messen lässt. Das ist keine Approximation eines „Typs”. Es ist eine operationalisierbare Größe mit bekannter Reliabilität und Validität.

Big Five validiert in 56 Nationen, n=17.837 — sprach- und kulturübergreifend replizierbar.

Schmitt et al., 2007 — 56 Nationen

Säule 2

Verhaltensökonomie und kognitive Verzerrungen

Kahneman und Tversky³ zeigten 1979 mit der Prospect Theory, dass menschliche Entscheidungen unter Risiko systematisch von der normativen Erwartungsnutzentheorie abweichen. Menschen überbewerten sichere Gewinne, unterbewerten kleine Wahrscheinlichkeiten, und reagieren auf Verluste stärker als auf symmetrische Gewinne. Diese Abweichungen sind keine Fehler — sie sind vorhersagbare Muster.

Dazu kommen über 180 dokumentierte kognitive Verzerrungen, viele davon in Real-World-Settings replizierbar: Status-quo-Bias, Anker-Effekt, Verfügbarkeitsheuristik, In-Group-Bias. Für jede unserer Personas wählen wir eine Teilmenge dieser Biases — deterministisch, nicht zufällig — und machen sie zu einer konstanten Variable ihres Entscheidungsverhaltens. Das ist der Kern dessen, was eine Persona von einem Stereotyp unterscheidet.

Säule 3

Kulturelle Wertedimensionen

Hofstede⁴ legte mit seiner IBM-Studie 1980 den Grundstein und entwickelte seine Kulturdimensionen in den folgenden Jahrzehnten weiter — die maßgeblich rezipierte Auflage „Cultures and Organizations“ erschien erstmals 1991, überarbeitet 2010. Seine Dimensionen zeigen, dass sich nationale Kulturen entlang weniger, messbarer Dimensionen systematisch unterscheiden: Machtdistanz, Individualismus, Unsicherheitsvermeidung, Langzeitorientierung, Maskulinität, und später Indulgence. Seine Dimensionen sind umstritten — sie reduzieren komplexe Gesellschaften auf wenige Zahlen — aber sie sind replizierbar und prognostisch nützlich in organisatorischen und Konsumkontexten.

Für den deutschsprachigen Markt ergänzen wir Hofstede um die Sinus-Milieus⁵ — ein seit 1979 kommerziell lizenziertes Modell, das die Sozialstruktur in Österreich, Deutschland und der Schweiz in zehn bis zwölf Werte-Milieus (z. B. Traditionelle, Bürgerliche Mitte, Expeditive, Konservativ-Etablierte) abbildet. Beide Rahmen laufen zusammen: Hofstede gibt die nationale Makrostruktur, Sinus-Milieus geben die intranationale Feinstruktur.

Säule 4

Simulierbarkeit durch Sprachmodelle

Der letzte Baustein ist neu — und er ist der fragilste. Park et al.⁶ zeigten 2024 in einer Studie mit 1.052 Teilnehmenden am Stanford Human-Centered AI Institute (arXiv-Preprint, Peer-Review noch ausstehend), dass Interview-geführte KI-Agenten die Antworten ihrer menschlichen Vorbilder auf General-Social-Survey-Items mit einer Genauigkeit replizierten, die rund 85 % der Zwei-Wochen-Retest-Reliabilität menschlicher Teilnehmender entsprach. Zusätzlich: weniger demographische Verzerrung als bei deskriptions-basierten Agenten.

Was das Paper zeigt: Grundlage-Modelle können — wenn richtig konditioniert — Befragungsantworten fiktiver Personen plausibel erzeugen. Was das Paper nicht zeigt: Alltagsverhalten, Kaufhandlungen, emotionale Überraschungen, Randfälle. Die 85 %-Zahl ist eine Replikationsgröße, keine universelle Korrektheitsquote. Dieses Paper schließt die zentrale Kausalbrücke, auf der unser Produkt steht: von „die Theorien sind valide” (Säulen 1-3) zu „ein Sprachmodell kann sie reliabel operationalisieren”. Ohne diesen Nachweis wäre unsere Methodik eine Hoffnung; mit ihm ist sie eine testbare Architektur.

85 % Übereinstimmung — gemessen relativ zur Test-Retest-Reliabilität.

Park et al., 2024 — Stanford HAI

§ IV Zeitlinie

Vier Jahrzehnte

Die wissenschaftlichen Wurzeln, chronologisch.

Vom ersten Entwurf der Prospect Theory bis zur Stanford-Studie zur synthetischen Personensimulation: eine Forschungslinie, die wir nicht erfunden haben, aber auf der wir aufbauen.

1979

Kahneman & Tversky

Prospect Theory — systematische Abweichung von Erwartungsnutzen.
1980

Sinus-Institut

Erstes Milieu-Modell für Deutschland.
1991

Hofstede

Erste Auflage „Cultures and Organizations” — fünf Kulturdimensionen.
1992

Costa & McCrae

NEO-PI-R — testgestütztes Big-Five-Inventar.
2002

Kahneman

Wirtschafts-Nobelpreis für Prospect Theory.
2007

Schmitt et al.

56 Nationen, n=17.837: Big Five repliziert global.
2010

Hofstede

Überarbeitete Auflage mit sechster Dimension (Indulgence).
2024

Park et al. · Stanford HAI

n=1.052: LLM-Agenten replizieren Survey-Antworten bei 85 % der Retest-Reliabilität.

1979
Kahneman & Tversky

Prospect Theory — systematische Abweichung von Erwartungsnutzen.
1980
Sinus-Institut

Erstes Milieu-Modell für Deutschland.
1991
Hofstede

Erste Auflage „Cultures and Organizations” — fünf Kulturdimensionen.
1992
Costa & McCrae

NEO-PI-R — testgestütztes Big-Five-Inventar.
2002
Kahneman

Wirtschafts-Nobelpreis für Prospect Theory.
2007
Schmitt et al.

56 Nationen, n=17.837: Big Five repliziert global.
2010
Hofstede

Überarbeitete Auflage mit sechster Dimension (Indulgence).
2024
Park et al. · Stanford HAI

n=1.052: LLM-Agenten replizieren Survey-Antworten bei 85 % der Retest-Reliabilität.

← seitlich scrollen →

§ V Validierung

Validierungsstand

Was unabhängig gezeigt wurde — und was wir intern prüfen.

Die wissenschaftliche Literatur validiert drei Dinge unabhängig von uns: die Stabilität der Big-Five-Struktur über Kulturen hinweg², die systematische Abweichung menschlicher Entscheidungen von normativem Erwartungsnutzen³, und die grundsätzliche Fähigkeit von Sprachmodellen, interview-basierte Antworten plausibel zu replizieren⁶. Keine dieser Validierungen stammt von uns. Alle drei sind peer-reviewed oder von etablierten Forschungsinstituten publiziert.

Was wir intern validieren, ist enger gefasst: die Kalibrierung unserer Layer-Gewichtung für konkrete Anwendungsfälle im DACH-Markt. Wir führen laufend A/B-Tests gegen echte Nutzer-Panels durch, dokumentieren Abweichungen, und passen die Orchestrierung schichtweise an. Diese interne Validierung ist kein Ersatz für peer-reviewte externe Forschung — sie ist die Due-Diligence eines Produkts, nicht die Due-Diligence eines Theoriebeitrags.

Für 2026 ist eine externe Kollaborationsstudie mit einer österreichischen Universität geplant. Bis diese Ergebnisse vorliegen, bitten wir Sie, unsere internen Validierungszahlen als das zu lesen, was sie sind: Produktaussagen mit interner Evidenz, nicht publizierte Wissenschaft.

Studie	Methode	n	Befund	Einschränkung
Schmitt et al., 2007²	Cross-nationale Big-Five-Erhebung	17.837	Big-Five-Struktur repliziert in 56 Nationen	Osteuropa/Afrika unterrepräsentiert
Park et al., 2024⁶	Interview-basierte LLM-Agenten vs. GSS-Retest arXiv-Preprint	1.052	85 % Replikation der Zwei-Wochen-Retest-Reliabilität	Survey-Antworten, nicht Alltagsverhalten
Qualtrics, 2025⁷	Branchenumfrage Marktforschung	—	73 % der Marktforscher nutzen synthetische Responses	Self-Report, kein Validitätsnachweis
Radical Personas intern	A/B gegen reale Panels, laufend	≈200 / Quartal seit Q3 2025	Kalibrierung der Layer-Gewichtung DACH	Nicht peer-reviewed, produktbegleitend

§ VI Grenzen

Ehrliche Grenzen

Was synthetische Personas nicht können.

Die Nielsen Norman Group⁸ dokumentierte 2025 in einer qualitativen Gegenüberstellung zwischen synthetischen und echten Nutzern, dass KI-basierte Nutzer-Simulationen systematisch Erfolgsraten überschätzen. Sie neigen zu sycophantischem Verhalten — zur Bestätigung dessen, was der Auftraggeber erwartet. Sie liefern keine Verhaltensdaten aus echter Produktnutzung. Sie entdecken keine Randfälle, weil sie diese nicht leben.

Synthetisch ergänzt echte Forschung — ersetzt sie nicht.

Nielsen Norman Group, 2025

Das ist nicht ein Bug unserer Implementierung. Das ist eine strukturelle Grenze jeder Methode, die auf Sprach- und Befragungsdaten beruht statt auf Beobachtung. Keine Layer-Gewichtung kann diese Grenze verschieben.

Synthetische Personas ersetzen keine Nutzertests. Sie machen die Zeit vor dem Nutzertest produktiver — sie finden das offensichtlich Schlechte, bevor Ihre echten Teilnehmenden es finden. Was sie nicht liefern: echte Emotion, echte Überraschung, echtes Kaufverhalten. Wer das Gegenteil verspricht, übertreibt.

§ VII Standpunkt

Unser Standpunkt

Wir sind ein Produkt — aber wir behandeln unsere Methodik wie eine Forschungsorganisation.

Unsere eigene Methodik ist noch nicht peer-reviewed publiziert. Wir sind ein zweijähriges Produkt im Frühzugang, nicht ein Forschungsinstitut mit fünfzehn Jahren Publikationsliste. Diese Einordnung gehört zur ehrlichen Positionierung.

Was wir haben: laufende interne A/B-Kalibrierung gegen echte Nutzerpanels, eine geplante externe Kollaborationsstudie mit einer österreichischen Universität für 2026, und eine offene Gesprächsbereitschaft gegenüber unabhängigen Gutachterinnen.

Was würde uns widerlegen? Wenn unsere synthetischen Personas in systematischen Doppelblindtests gegen echte DACH-Nutzerpanels schlechter abschneiden als deskriptions-basierte LLM-Prompts — also wenn unsere Schichten-Architektur keinen messbaren Vorsprung liefert. Diesen Test bauen wir aktuell. Wenn er negativ ausgeht, sagen wir das.

§ VIII Literatur

Literaturverzeichnis

Alle Quellen. Alle Links.

1.

[Peer-reviewed]

Costa, P. T. & McCrae, R. R. (1992). Revised NEO Personality Inventory (NEO-PI-R) and NEO Five-Factor Inventory (NEO-FFI): Professional Manual. Psychological Assessment Resources.
scholar.google.com/scholar?q=Costa+McCrae+1992+NEO-PI-R (externer Link, öffnet in neuem Tab)
2.

[Peer-reviewed]

Schmitt, D. P., Allik, J., McCrae, R. R. & Benet-Martínez, V. (2007). The Geographic Distribution of Big Five Personality Traits: Patterns and Profiles of Human Self-Description Across 56 Nations. Journal of Cross-Cultural Psychology, n=17.837.
scholar.google.com/scholar?q=schmitt+2007+geographic+distrib (externer Link, öffnet in neuem Tab)
3.

[Peer-reviewed]

Kahneman, D. & Tversky, A. (1979). Prospect Theory: An Analysis of Decision under Risk. Econometrica.
www.jstor.org/stable/1914185 (externer Link, öffnet in neuem Tab)
4.

[Buchpublikation]

Hofstede, G., Hofstede, G. J. & Minkov, M. (2010). Cultures and Organizations: Software of the Mind (3. Auflage). McGraw-Hill · ISBN 978-0071664189.
geerthofstede.com/culture-geert-hofstede-gert-jan-hofstede/ (externer Link, öffnet in neuem Tab)
5.

[Lizenzprodukt]

Sinus-Institut (1979ff.). Sinus-Milieus in Österreich und Deutschland. Sinus-Institut Heidelberg · laufend aktualisiert, abgerufen April 2026.
www.sinus-institut.de/sinus-milieus (externer Link, öffnet in neuem Tab)
6.

[arXiv-Preprint]

Park, J. S. et al. (2024). Generative Agent Simulations of 1,000 People. Stanford HAI · arXiv-Preprint (noch kein formales Peer-Review), n=1.052.
arxiv.org/abs/2411.10109 (externer Link, öffnet in neuem Tab)
7.

[Praktiker-Bericht]

Qualtrics (2025). State of Synthetic Research. Qualtrics (Branchenumfrage, nicht peer-reviewed).
www.qualtrics.com/blog/state-of-synthetic-research/ (externer Link, öffnet in neuem Tab)
8.

[Praktiker-Bericht]

Nielsen Norman Group (2025). Synthetic Users: What They Can and Cannot Do. NN/g (qualitative Gegenüberstellung, nicht peer-reviewed).
www.nngroup.com/articles/synthetic-users-gen-ai/ (externer Link, öffnet in neuem Tab)

Ab €29/Monat · Free-Plan ohne Kreditkarte · Jederzeit kündbar Alle Pläne ansehen →

§ IX Einstieg

Weiter zur Methodik in Anwendung

Sie haben die Theorie. Sehen Sie, wie wir sie verwenden.

Auf der Produktseite zeigen wir, wie aus den vier Säulen eine konkrete Persona wird — mit Foto, Biografie, Bias-Profil und O-Ton-Bewertung. Wenn die Theorie sitzt, macht das dort Sinn.

Methodik in Anwendung sehen Methodik-Briefing mit dem Team

Das Methodik-Briefing ist ein 45-Minuten-Gespräch mit den Gründern, in dem wir Ihre Anwendungskontexte gegen unsere Schichten-Architektur diskutieren. Kein Pitch, keine Demo-Software.

Ob eine synthetische Persona verlässlich ist, hängt nicht vom Sprachmodell ab.

Die drei Kern-Aussagen.

Peer-reviewed Grundlage

85 % Übereinstimmung

Ehrliche Grenzen

Vier Theorien, aus vier Jahrzehnten empirischer Forschung (1979–2024).

Dispositionelle Persönlichkeitstheorie

Verhaltensökonomie und kognitive Verzerrungen

Kulturelle Wertedimensionen

Simulierbarkeit durch Sprachmodelle

Die wissenschaftlichen Wurzeln, chronologisch.

Kahneman & Tversky

Sinus-Institut

Hofstede

Costa & McCrae

Kahneman

Schmitt et al.

Hofstede

Park et al. · Stanford HAI

Kahneman & Tversky

Sinus-Institut

Hofstede

Costa & McCrae

Kahneman

Schmitt et al.

Hofstede

Park et al. · Stanford HAI

Was unabhängig gezeigt wurde — und was wir intern prüfen.

Was synthetische Personas nicht können.

Wir sind ein Produkt — aber wir behandeln unsere Methodik wie eine Forschungsorganisation.

Alle Quellen. Alle Links.

Sie haben die Theorie. Sehen Sie, wie wir sie verwenden.