Direkt zum Inhalt springen
Radical Personas
§ I Auftakt
Wissenschaftliche Grundlage

Ob eine synthetische Persona verlässlich ist, hängt nicht vom Sprachmodell ab.

Sie hängt davon ab, ob die Theorie stimmt, auf der sie beruht. Diese Seite legt diese Theorie offen — die Säulen, die Grenzen, und die Stelle, an der unsere Arbeit aufhört und unsere Verantwortung beginnt.

Wir haben nicht vier Jahrzehnte (1979–2024) Persönlichkeits- und Entscheidungsforschung in einen Prompt gepackt. Wir haben sie als Architektur implementiert. Was folgt, ist die ehrliche Dokumentation dessen, was öffentlich ist, was wir intern validiert haben, und wo synthetische Personas systematisch versagen — eine Grenze, die wir offen benennen, weil Vertrauen ohne sie nicht möglich ist.

§ II Kurzfassung
Kurzversion · 30 Sekunden

Die drei Kern-Aussagen.

  • Kern-Aussage

    Peer-reviewed Grundlage

    Big Five (Schmitt 2007, n=17.837, 56 Nationen) + Kahneman-Biases + Sinus-Milieus + Hofstede. Alle öffentlich, alle extern validiert.

    Zu den Säulen →
  • Kern-Aussage

    85 % Übereinstimmung

    Stanford HAI 2024: KI-Agenten replizieren Umfrage-Antworten bei 1.052 Teilnehmern mit ≈ 85 % der menschlichen Test-Retest-Reliabilität.

    Zur Validierung →
  • Kern-Aussage

    Ehrliche Grenzen

    Synthetische Antworten bilden Durchschnittswerte stärker ab als Extrempositionen (Nielsen Norman Group 2025).

    Zu den Grenzen →

Weiterlesen unten · Oder direkt zur Praxis-Anwendung: Methode in der Praxis sehen →

§ III Vier Säulen
Die vier Säulen

Vier Theorien, aus vier Jahrzehnten empirischer Forschung (1979–2024).

Keine davon ist exklusiv unsere. Jede ist dokumentiert, repliziert, peer-reviewed oder kommerziell validiert. Gemeinsam bilden sie das Fundament, auf dem jede unserer Personas steht.

Säule 1

Dispositionelle Persönlichkeitstheorie

Die Big-Five-Taxonomie — Offenheit, Gewissenhaftigkeit, Extraversion, Verträglichkeit und Neurotizismus — ist die dominante Struktur der modernen Persönlichkeitspsychologie. Sie geht zurück auf lexikalische Studien der frühen 1980er-Jahre und wurde durch McCrae und Costa1 in ein testgestütztes Inventar überführt (NEO-PI). Ihr entscheidender Vorzug: sie ist nicht kulturspezifisch, sondern sprach- und kulturübergreifend replizierbar.

Für synthetische Personas bedeutet das: wir können die psychologische Disposition einer Persona als fünf-dimensionalen Vektor ausdrücken, der sich in Befragungen, in Verhaltensexperimenten und in Sprachmuster-Analysen konsistent messen lässt. Das ist keine Approximation eines „Typs”. Es ist eine operationalisierbare Größe mit bekannter Reliabilität und Validität.

Big Five validiert in 56 Nationen, n=17.837 — sprach- und kulturübergreifend replizierbar.

Schmitt et al., 2007 — 56 Nationen
Säule 2

Verhaltensökonomie und kognitive Verzerrungen

Kahneman und Tversky3 zeigten 1979 mit der Prospect Theory, dass menschliche Entscheidungen unter Risiko systematisch von der normativen Erwartungsnutzentheorie abweichen. Menschen überbewerten sichere Gewinne, unterbewerten kleine Wahrscheinlichkeiten, und reagieren auf Verluste stärker als auf symmetrische Gewinne. Diese Abweichungen sind keine Fehler — sie sind vorhersagbare Muster.

Dazu kommen über 180 dokumentierte kognitive Verzerrungen, viele davon in Real-World-Settings replizierbar: Status-quo-Bias, Anker-Effekt, Verfügbarkeitsheuristik, In-Group-Bias. Für jede unserer Personas wählen wir eine Teilmenge dieser Biases — deterministisch, nicht zufällig — und machen sie zu einer konstanten Variable ihres Entscheidungsverhaltens. Das ist der Kern dessen, was eine Persona von einem Stereotyp unterscheidet.

Säule 3

Kulturelle Wertedimensionen

Hofstede4 legte mit seiner IBM-Studie 1980 den Grundstein und entwickelte seine Kulturdimensionen in den folgenden Jahrzehnten weiter — die maßgeblich rezipierte Auflage „Cultures and Organizations“ erschien erstmals 1991, überarbeitet 2010. Seine Dimensionen zeigen, dass sich nationale Kulturen entlang weniger, messbarer Dimensionen systematisch unterscheiden: Machtdistanz, Individualismus, Unsicherheitsvermeidung, Langzeitorientierung, Maskulinität, und später Indulgence. Seine Dimensionen sind umstritten — sie reduzieren komplexe Gesellschaften auf wenige Zahlen — aber sie sind replizierbar und prognostisch nützlich in organisatorischen und Konsumkontexten.

Für den deutschsprachigen Markt ergänzen wir Hofstede um die Sinus-Milieus5 — ein seit 1979 kommerziell lizenziertes Modell, das die Sozialstruktur in Österreich, Deutschland und der Schweiz in zehn bis zwölf Werte-Milieus (z. B. Traditionelle, Bürgerliche Mitte, Expeditive, Konservativ-Etablierte) abbildet. Beide Rahmen laufen zusammen: Hofstede gibt die nationale Makrostruktur, Sinus-Milieus geben die intranationale Feinstruktur.

Säule 4

Simulierbarkeit durch Sprachmodelle

Der letzte Baustein ist neu — und er ist der fragilste. Park et al.6 zeigten 2024 in einer Studie mit 1.052 Teilnehmenden am Stanford Human-Centered AI Institute (arXiv-Preprint, Peer-Review noch ausstehend), dass Interview-geführte KI-Agenten die Antworten ihrer menschlichen Vorbilder auf General-Social-Survey-Items mit einer Genauigkeit replizierten, die rund 85 % der Zwei-Wochen-Retest-Reliabilität menschlicher Teilnehmender entsprach. Zusätzlich: weniger demographische Verzerrung als bei deskriptions-basierten Agenten.

Was das Paper zeigt: Grundlage-Modelle können — wenn richtig konditioniert — Befragungsantworten fiktiver Personen plausibel erzeugen. Was das Paper nicht zeigt: Alltagsverhalten, Kaufhandlungen, emotionale Überraschungen, Randfälle. Die 85 %-Zahl ist eine Replikationsgröße, keine universelle Korrektheitsquote. Dieses Paper schließt die zentrale Kausalbrücke, auf der unser Produkt steht: von „die Theorien sind valide” (Säulen 1-3) zu „ein Sprachmodell kann sie reliabel operationalisieren”. Ohne diesen Nachweis wäre unsere Methodik eine Hoffnung; mit ihm ist sie eine testbare Architektur.

85 % Übereinstimmung — gemessen relativ zur Test-Retest-Reliabilität.

Park et al., 2024 — Stanford HAI
§ IV Zeitlinie
Vier Jahrzehnte

Die wissenschaftlichen Wurzeln, chronologisch.

Vom ersten Entwurf der Prospect Theory bis zur Stanford-Studie zur synthetischen Personensimulation: eine Forschungslinie, die wir nicht erfunden haben, aber auf der wir aufbauen.

  1. 1979

    Kahneman & Tversky

    Prospect Theory — systematische Abweichung von Erwartungsnutzen.

  2. 1980

    Sinus-Institut

    Erstes Milieu-Modell für Deutschland.

  3. 1991

    Hofstede

    Erste Auflage „Cultures and Organizations” — fünf Kulturdimensionen.

  4. 1992

    Costa & McCrae

    NEO-PI-R — testgestütztes Big-Five-Inventar.

  5. 2002

    Kahneman

    Wirtschafts-Nobelpreis für Prospect Theory.

  6. 2007

    Schmitt et al.

    56 Nationen, n=17.837: Big Five repliziert global.

  7. 2010

    Hofstede

    Überarbeitete Auflage mit sechster Dimension (Indulgence).

  8. 2024

    Park et al. · Stanford HAI

    n=1.052: LLM-Agenten replizieren Survey-Antworten bei 85 % der Retest-Reliabilität.

← seitlich scrollen →

§ V Validierung
Validierungsstand

Was unabhängig gezeigt wurde — und was wir intern prüfen.

Die wissenschaftliche Literatur validiert drei Dinge unabhängig von uns: die Stabilität der Big-Five-Struktur über Kulturen hinweg2, die systematische Abweichung menschlicher Entscheidungen von normativem Erwartungsnutzen3, und die grundsätzliche Fähigkeit von Sprachmodellen, interview-basierte Antworten plausibel zu replizieren6. Keine dieser Validierungen stammt von uns. Alle drei sind peer-reviewed oder von etablierten Forschungsinstituten publiziert.

Was wir intern validieren, ist enger gefasst: die Kalibrierung unserer Layer-Gewichtung für konkrete Anwendungsfälle im DACH-Markt. Wir führen laufend A/B-Tests gegen echte Nutzer-Panels durch, dokumentieren Abweichungen, und passen die Orchestrierung schichtweise an. Diese interne Validierung ist kein Ersatz für peer-reviewte externe Forschung — sie ist die Due-Diligence eines Produkts, nicht die Due-Diligence eines Theoriebeitrags.

Für 2026 ist eine externe Kollaborationsstudie mit einer österreichischen Universität geplant. Bis diese Ergebnisse vorliegen, bitten wir Sie, unsere internen Validierungszahlen als das zu lesen, was sie sind: Produktaussagen mit interner Evidenz, nicht publizierte Wissenschaft.

Studie Methode n Befund Einschränkung
Schmitt et al., 20072 Cross-nationale Big-Five-Erhebung 17.837 Big-Five-Struktur repliziert in 56 Nationen Osteuropa/Afrika unterrepräsentiert
Park et al., 20246 Interview-basierte LLM-Agenten vs. GSS-Retest
arXiv-Preprint
1.052 85 % Replikation der Zwei-Wochen-Retest-Reliabilität Survey-Antworten, nicht Alltagsverhalten
Qualtrics, 20257 Branchenumfrage Marktforschung 73 % der Marktforscher nutzen synthetische Responses Self-Report, kein Validitätsnachweis
Radical Personas intern A/B gegen reale Panels, laufend ≈200 / Quartal
seit Q3 2025
Kalibrierung der Layer-Gewichtung DACH Nicht peer-reviewed, produktbegleitend
§ VI Grenzen
Ehrliche Grenzen

Was synthetische Personas nicht können.

Die Nielsen Norman Group8 dokumentierte 2025 in einer qualitativen Gegenüberstellung zwischen synthetischen und echten Nutzern, dass KI-basierte Nutzer-Simulationen systematisch Erfolgsraten überschätzen. Sie neigen zu sycophantischem Verhalten — zur Bestätigung dessen, was der Auftraggeber erwartet. Sie liefern keine Verhaltensdaten aus echter Produktnutzung. Sie entdecken keine Randfälle, weil sie diese nicht leben.

Synthetisch ergänzt echte Forschung — ersetzt sie nicht.

Nielsen Norman Group, 2025

Das ist nicht ein Bug unserer Implementierung. Das ist eine strukturelle Grenze jeder Methode, die auf Sprach- und Befragungsdaten beruht statt auf Beobachtung. Keine Layer-Gewichtung kann diese Grenze verschieben.

Synthetische Personas ersetzen keine Nutzertests. Sie machen die Zeit vor dem Nutzertest produktiver — sie finden das offensichtlich Schlechte, bevor Ihre echten Teilnehmenden es finden. Was sie nicht liefern: echte Emotion, echte Überraschung, echtes Kaufverhalten. Wer das Gegenteil verspricht, übertreibt.

§ VII Standpunkt
Unser Standpunkt

Wir sind ein Produkt — aber wir behandeln unsere Methodik wie eine Forschungsorganisation.

Unsere eigene Methodik ist noch nicht peer-reviewed publiziert. Wir sind ein zweijähriges Produkt im Frühzugang, nicht ein Forschungsinstitut mit fünfzehn Jahren Publikationsliste. Diese Einordnung gehört zur ehrlichen Positionierung.

Was wir haben: laufende interne A/B-Kalibrierung gegen echte Nutzerpanels, eine geplante externe Kollaborationsstudie mit einer österreichischen Universität für 2026, und eine offene Gesprächsbereitschaft gegenüber unabhängigen Gutachterinnen.

Was würde uns widerlegen? Wenn unsere synthetischen Personas in systematischen Doppelblindtests gegen echte DACH-Nutzerpanels schlechter abschneiden als deskriptions-basierte LLM-Prompts — also wenn unsere Schichten-Architektur keinen messbaren Vorsprung liefert. Diesen Test bauen wir aktuell. Wenn er negativ ausgeht, sagen wir das.

§ VIII Literatur
Literaturverzeichnis

Alle Quellen. Alle Links.

  1. 1.
    [Peer-reviewed]
    Costa, P. T. & McCrae, R. R. (1992). Revised NEO Personality Inventory (NEO-PI-R) and NEO Five-Factor Inventory (NEO-FFI): Professional Manual. Psychological Assessment Resources.
    scholar.google.com/scholar?q=Costa+McCrae+1992+NEO-PI-R (externer Link, öffnet in neuem Tab)
  2. 2.
    [Peer-reviewed]
    Schmitt, D. P., Allik, J., McCrae, R. R. & Benet-Martínez, V. (2007). The Geographic Distribution of Big Five Personality Traits: Patterns and Profiles of Human Self-Description Across 56 Nations. Journal of Cross-Cultural Psychology, n=17.837.
    scholar.google.com/scholar?q=schmitt+2007+geographic+distrib (externer Link, öffnet in neuem Tab)
  3. 3.
    [Peer-reviewed]
    Kahneman, D. & Tversky, A. (1979). Prospect Theory: An Analysis of Decision under Risk. Econometrica.
    www.jstor.org/stable/1914185 (externer Link, öffnet in neuem Tab)
  4. 4.
    [Buchpublikation]
    Hofstede, G., Hofstede, G. J. & Minkov, M. (2010). Cultures and Organizations: Software of the Mind (3. Auflage). McGraw-Hill · ISBN 978-0071664189.
    geerthofstede.com/culture-geert-hofstede-gert-jan-hofstede/ (externer Link, öffnet in neuem Tab)
  5. 5.
    [Lizenz­produkt]
    Sinus-Institut (1979ff.). Sinus-Milieus in Österreich und Deutschland. Sinus-Institut Heidelberg · laufend aktualisiert, abgerufen April 2026.
    www.sinus-institut.de/sinus-milieus (externer Link, öffnet in neuem Tab)
  6. 6.
    [arXiv-Preprint]
    Park, J. S. et al. (2024). Generative Agent Simulations of 1,000 People. Stanford HAI · arXiv-Preprint (noch kein formales Peer-Review), n=1.052.
    arxiv.org/abs/2411.10109 (externer Link, öffnet in neuem Tab)
  7. 7.
    [Praktiker-Bericht]
    Qualtrics (2025). State of Synthetic Research. Qualtrics (Branchenumfrage, nicht peer-reviewed).
    www.qualtrics.com/blog/state-of-synthetic-research/ (externer Link, öffnet in neuem Tab)
  8. 8.
    [Praktiker-Bericht]
    Nielsen Norman Group (2025). Synthetic Users: What They Can and Cannot Do. NN/g (qualitative Gegenüberstellung, nicht peer-reviewed).
    www.nngroup.com/articles/synthetic-users-gen-ai/ (externer Link, öffnet in neuem Tab)

Ab €29/Monat · Free-Plan ohne Kreditkarte · Jederzeit kündbar Alle Pläne ansehen →

§ IX Einstieg
Weiter zur Methodik in Anwendung

Sie haben die Theorie. Sehen Sie, wie wir sie verwenden.

Auf der Produktseite zeigen wir, wie aus den vier Säulen eine konkrete Persona wird — mit Foto, Biografie, Bias-Profil und O-Ton-Bewertung. Wenn die Theorie sitzt, macht das dort Sinn.

Das Methodik-Briefing ist ein 45-Minuten-Gespräch mit den Gründern, in dem wir Ihre Anwendungskontexte gegen unsere Schichten-Architektur diskutieren. Kein Pitch, keine Demo-Software.