Wie wir Adaptivität in den Übungsmodulen denken – DeepSpectrum Lab

Warum Adaptivität hier eine Rolle spielt

Übungsmodule für soziale Kognition, Theory of Mind und Emotionsregulation entfalten ihre Wirkung dort, wo der Schwierigkeitsgrad an die aktuelle Fähigkeit des Kindes anschließt. Vygotsky hat das mit der Zone der nächsten Entwicklung beschrieben; in der instruktionspsychologischen Tradition wird dasselbe Phänomen seit Bloom (1984) unter dem Stichwort „Mastery Learning" diskutiert. Beide Linien laufen empirisch auf dieselbe Beobachtung hinaus: Übung, die deutlich unter oder über der momentanen Fähigkeit liegt, erzeugt entweder Stagnation oder Rückzug.

In unseren Modulen steuert Adaptivität drei Dimensionen: Itemauswahl (welche Übung als nächste kommt), Wiederholungssteuerung (wann ein bereits beherrschtes Konzept reaktiviert wird) und Komplexitätsstufe (auf welcher Tiefe ein Konstrukt operationalisiert wird). Die zugrundeliegenden Inhalte steuert sie nicht. Die Übungen sind fest und an den Konstrukten ausgerichtet, die wir im Artikel zu den Forschungsgrundlagen beschreiben.

Was Adaptivität bei uns nicht ist

Adaptivität ist bei uns kein Persönlichkeitsmodell des Kindes. Wir leiten keine Lernstile, keine Persönlichkeitsdimensionen und keine stabilen Aufmerksamkeitsmerkmale ab. Die Meta-Analyse von Pashler und Kollegen (2008) hat die Lernstil-Hypothese als nicht replizierbar markiert; spätere Übersichten (Kirschner 2017) haben dieses Bild bestätigt. Stabile Trait-Zuschreibungen aus kurzen Interaktionssequenzen behandeln wir entsprechend als methodisch nicht tragfähig.

Adaptivität ist auch keine Empfehlungs-Engine in dem Sinn, wie man sie aus Konsumsoftware kennt. Es gibt keinen latenten Score, der vorhersagt, welche Übung das Kind „mögen" oder abschließen wird. Engagement ist nicht das Optimierungsziel. Wäre es eines, fielen die Module systematisch dorthin zurück, wo sie kein Konstrukt mehr trainieren, sondern nur noch die Bestätigungsschleife bedienen.

Das psychometrische Gerüst: Rasch-Modell als Ausgangspunkt

Die formale Basis der Schwierigkeitssteuerung ist das Rasch-Modell, der einparametrige Spezialfall der Item-Response-Theorie. Jede Übung trägt einen Schwierigkeitsparameter β, jedes Kind eine geschätzte Fähigkeit θ. Die Wahrscheinlichkeit einer korrekten Lösung wird durch die logistische Funktion modelliert. Bei θ = β liegt die Lösungswahrscheinlichkeit bei 0,5.

P(X = 1 \mid \theta, \beta) = \dfrac{1}{1 + \exp(\beta - \theta)}

Rasch-Modell (1)Wahrscheinlichkeit einer korrekten Antwort als Funktion von Fähigkeit θ und Schwierigkeit β.

Logistische Kennlinie des Rasch-Modells. Die Lösungswahrscheinlichkeit beträgt 0,5 bei θ = β; wir steuern Items auf eine Ziel-Trefferquote P* ≈ 0,75.

Die Wahl des Rasch-Modells gegenüber dem zweiparametrigen Modell (zusätzlicher Diskriminationsparameter α) oder dem dreiparametrigen (Rateparameter γ) ist methodisch begründet. Rasch erlaubt suffizienz-basierte Schätzung, die Trennung der Personen- und Itemparameter (specific objectivity, Rasch 1960) und stabile Schätzungen bei kleinen Stichproben. Genau das brauchen wir, weil wir mit kleinen Pilotgruppen und kontinuierlicher Modellpflege arbeiten, nicht mit Großstudiendaten.

Die Fähigkeitsschätzung θ̂ wird inkrementell nach jeder Antwort aktualisiert. In der Praxis erfolgt das über eine Bayes-Expected-a-posteriori-Schätzung (EAP) mit informativem Prior aus der Altersgruppe. Das macht die Schätzung robust gegen einzelne ungewöhnliche Antworten, was bei einer effektiven Stichprobengröße von einer Person pro Sitzung wesentlich ist.

\hat{\theta}_{\mathrm{EAP}} = \dfrac{\int \theta \cdot L(x \mid \theta) \cdot \pi(\theta)\, d\theta}{\int L(x \mid \theta) \cdot \pi(\theta)\, d\theta}

EAP-Schätzer (4)Posteriori-Erwartungswert: L(x | θ) ist die Rasch-Likelihood der bisherigen Antworten x, π(θ) der altersgruppenspezifische Prior.

I_{\mathrm{total}}(\theta) = \sum_{i} P_i(\theta) \cdot \bigl(1 - P_i(\theta)\bigr)

Testinformation (5)Information akkumuliert additiv über bereits präsentierte Items; daraus ergibt sich der Schätzfehler SE(θ̂) = 1 / √I_total(θ̂).

\text{95\,\%-KI} = \hat{\theta} \pm 1.96 \cdot \mathrm{SE}(\hat{\theta})

Konfidenzintervall (6)Praxispartner sehen θ̂ stets mit zugehörigem Intervall, nicht als Punktschätzung.

Algorithmus 3 — Posterior-Update nach jeder Antwort

function update_posterior(posterior, item, x_i):
    # posterior: diskrete Verteilung über Stützstellen θ_1..θ_K
    # x_i ∈ {0, 1}: falsch / richtig auf Item mit Schwierigkeit β_i
    for k in 1..K:
        p_ik         ←  1 / (1 + exp(β_i − θ_k))
        likelihood_k ←  (p_ik)^x_i  ·  (1 − p_ik)^(1 − x_i)
        posterior_k  ←  posterior_k · likelihood_k

    Z          ←  Σ_k posterior_k
    posterior  ←  posterior / Z          # Normierung

    θ̂          ←  Σ_k θ_k · posterior_k    # EAP
    var        ←  Σ_k (θ_k − θ̂)^2 · posterior_k
    SE         ←  √var
    return (posterior, θ̂, SE)

Konstrukt-spezifische Verankerung der Schwierigkeit

Die β-Werte sind nicht frei wählbar, sondern an die entwicklungspsychologische Literatur zum jeweiligen Konstrukt gebunden. Für Theory of Mind orientieren wir uns an der Wellman-Liu-Skala (2004), die fünf Aufgabentypen in einer empirisch validierten Guttman-Ordnung anordnet: unterschiedliche Wünsche, unterschiedliche Überzeugungen, Wissenszugang, falsche Überzeugung, versteckte Emotion. Diese Ordnung liefert eine Vorab-Hierarchie der β-Parameter, die wir anhand der Praxisdaten kalibrieren.

Bei Exekutivfunktionen folgen wir der dreikomponentigen Struktur nach Miyake und Kollegen (2000): Inhibition, Aktualisierung des Arbeitsgedächtnisses, Set Shifting. Die Komponenten korrelieren empirisch moderat (r ≈ 0,42 bis 0,63 in der Originalarbeit), sind aber faktoriell trennbar und gehen nicht in einer einzigen Fähigkeitsdimension θ auf. Wir führen innerhalb jeder Komponente getrennte Schätzungen.

Welche Signale wir auswerten

Drei Signale fließen in die Schätzung ein: Lösungsrate, Reaktionszeit, Fehlertyp. Die Lösungsrate ist das primäre Signal und aktualisiert direkt θ̂. Die Reaktionszeit behandeln wir als Hilfsvariable im Sinn der erweiterten Rasch-Modelle (Linacre 2006). Sie kann Hinweise auf den Grad der Beherrschung liefern, geht aber nicht als Strafgröße in die Schwierigkeitssteuerung ein. Langsamer ist nicht schlechter, und wir bestrafen Langsamkeit ausdrücklich nicht.

Der Fehlertyp ist eine qualitative Kovariate. Bei einer falschen Antwort auf eine False-Belief-Aufgabe ist es nicht gleichgültig, ob das Kind die eigene Überzeugung statt der fremden gewählt hat (klassischer ToM-Fehler) oder eine inhaltlich unverbundene Option. Die zweite Fehlerart deutet auf Aufmerksamkeits- oder Verständnisprobleme jenseits des Konstrukts hin und führt zu einer anderen Adaptionsentscheidung als die erste.

Ein Signal, das wir bewusst nicht verwenden, ist freiwilliger Sitzungsabbruch. Ein Kind, das eine Sitzung früher verlässt, gilt nicht als gescheitert. Die Deutung dieses Signals gehört zu den Praxispartnern, nicht zum System.

Itemauswahl: Fisher-Information und Frustrationsschutz

In der computerisierten adaptiven Testung (CAT) ist das Standardkriterium für die Itemauswahl die Maximierung der Fisher-Information am aktuellen θ̂. Für das Rasch-Modell vereinfacht sich die Information auf eine kompakte Form, die ihr Maximum bei P = 0,5 erreicht, also bei θ̂ = β. Diese Auswahl ist informationstheoretisch optimal für Diagnostik.

I(\theta) = P(\theta) \cdot \bigl(1 - P(\theta)\bigr)

Fisher-Information (2)Maximum 0,25 bei P = 0,5; jenseits davon nimmt der diagnostische Informationsgewinn rasch ab.

Fisher-Information des Rasch-Modells über die Differenz θ − β. Für Diagnostik wäre dieses Maximum optimal, für Übung suchen wir bewusst eine Position rechts davon.

Für ein Übungssetting ist dieses Kriterium fehl am Platz. Eine konstante Erfolgsquote von 50 Prozent ist motivational ungünstig, weil die affektive Last bei dieser Quote zu hoch ist, besonders für Kinder mit erhöhter Frustrationssensitivität. Wir verschieben das Auswahlkriterium auf eine Zielwahrscheinlichkeit P* zwischen 0,70 und 0,80 und wählen Items, deren Schwierigkeit β unter dem aktuellen θ̂ liegt.

\beta^{*} = \hat{\theta} - \ln\!\left(\dfrac{P^{*}}{1 - P^{*}}\right)

Zielschwierigkeit (3)Für P* = 0,75 ergibt sich β* ≈ θ̂ − 1,099; das Item liegt eine Logit-Einheit unter der aktuellen Fähigkeit.

Eine zweite Korrektur betrifft die Streuung. Rein deterministische Auswahl führt zu wiederkehrenden Items, was Lerneffekte durch Auswendiglernen verfälschen kann. Wir ziehen das nächste Item aus einer kleinen Kandidatenmenge in einem Schwierigkeitsfenster um den Zielwert, gewichtet nach Zeit seit der letzten Präsentation desselben Items.

Algorithmus 1 — Itemauswahl pro Übungsschritt

function select_next_item(θ̂, P*, items, ε):
    β*       ←  θ̂  −  ln(P* / (1 − P*))
    window   ←  { i ∈ items  :  |β_i − β*|  <  ε }
    weights  ←  time_since_last_presentation(window)
    return weighted_sample(window, weights)

Wiederholungssteuerung: der Spacing-Effekt

Die Wiederholungssteuerung folgt dem Spacing-Effekt, einem der robustesten Befunde der Gedächtnisforschung seit Ebbinghaus (1885). Cepeda und Kollegen (2006) haben in einer Meta-Analyse gezeigt, dass die Retentionswahrscheinlichkeit nichtmonoton vom Wiederholungsintervall abhängt: zu kurze Intervalle verschwenden Zeit, zu lange führen zu Vergessen. Das optimale Intervall hängt vom angestrebten Retentionszeitraum ab.

R(t) = \exp(-t / \tau)

Vergessenskurve (7)Ebbinghaus’ exponentieller Retentionsverlauf: τ wächst mit jeder erfolgreichen Wiederholung; je größer τ, desto flacher der Abfall.

\mathrm{gap}^{*} \,/\, \mathrm{RI} \approx 0.10 \ldots 0.20

Cepeda-Verhältnis (8)Empirisch optimales Verhältnis von Wiederholungslücke gap* zur Zielretentionsdauer RI; wir kalibrieren Spacing-Intervalle in diesem Korridor.

Drei Vergessenskurven mit wachsender Zeitkonstante τ (1.5, 6, 24 Tage). Jede erfolgreiche Wiederholung flacht die Kurve ab; das ist die operative Grundlage der Spacing-Steuerung.

Operativ verwenden wir eine vereinfachte Variante des SM-2-Algorithmus von Wozniak. Items haben ein expandierendes Wiederholungsintervall mit einem Ease-Factor, der nach jeder Bewertung angepasst wird. Anders als bei klassischen Vokabel-Anwendungen ist der Bewertungsmaßstab nicht eine subjektive Selbsteinschätzung, sondern wird aus Lösungsrate und Fehlertyp abgeleitet. Das ist kein originärer Forschungsbeitrag, sondern die Anwendung eines etablierten Algorithmus in einem neuen Kontext, und das benennen wir auch so.

Algorithmus 2 — Spacing-Update nach SM-2

function update_schedule(item, q):
    # q ∈ {0..5} aus Lösungsrate und Fehlertyp abgeleitet
    EF  ←  EF  +  0.1  −  (5 − q) · (0.08  +  (5 − q) · 0.02)
    EF  ←  max(EF, 1.3)

    if q < 3:
        n              ←  0
        next_interval  ←  1
    else if n = 0:
        n              ←  1
        next_interval  ←  1
    else if n = 1:
        n              ←  2
        next_interval  ←  6
    else:
        n              ←  n + 1
        next_interval  ←  previous_interval · EF

    return (n, next_interval, EF)

Warum keine gelernte Adaptionsschicht

Mehrere Familien gelernter Modelle wären methodisch denkbar: Bayesian Knowledge Tracing (Corbett und Anderson 1995), Deep Knowledge Tracing (Piech und Kollegen 2015), kontextuelle Multi-Armed Bandits (LinUCB, Thompson Sampling) oder vollständiges Reinforcement Learning. Wir setzen keines davon ein. Die Gründe sind nicht prinzipiell, sondern stichprobenbedingt und epistemisch.

BKT braucht stabile Schätzungen seiner vier Parameter pro Skill: Initialwissen P(L_0), Lernrate P(T), Slip P(S) und Guess P(G). Die Posteriori-Aktualisierung nach jeder Antwort folgt einer Bayes-Regel, deren Wert ohne stabile Parameter zusammenbricht. Bei kleinen Stichproben sind diese Schätzungen so unsicher, dass das Modell de facto bei seinen Priors bleibt; der Mehrwert gegenüber expliziten Regeln verschwindet.

P(L_t \mid \text{richtig}) = \dfrac{P(L_t) \cdot (1 - S)}{P(L_t) \cdot (1 - S) + \bigl(1 - P(L_t)\bigr) \cdot G}

BKT-Update (9)Posteriori-Wahrscheinlichkeit des „Beherrscht"-Zustands nach einer richtigen Antwort; analog für falsche Antworten. Nach der Beobachtung gilt P(L_t+1) = P(L_t | obs) + (1 − P(L_t | obs)) · T.

Deep Knowledge Tracing liefert in der Literatur höhere Vorhersagegenauigkeit als BKT, ist aber eine RNN-basierte Black Box. Die Frage „warum hat das Modul diese Übung gezeigt?" lässt sich nicht beantworten. Für ein praxisvermitteltes Setting, in dem das Modul gemeinsam mit einer Fachperson genutzt wird, ist das ein Designfehler.

Multi-Armed Bandits und Reinforcement Learning setzen eine Explore-Exploit-Logik voraus, in der das System gezielt suboptimale Aktionen wählen darf, um zu lernen. UCB1 (Auer et al. 2002) hat zwar nachgewiesen logarithmisches Regret, akkumuliert dieses Regret jedoch durch reale Fehlentscheidungen am Kind. Dieses Framing ist für ein klinisch eingebettetes Übungsmodul ethisch und pragmatisch falsch. Wir wollen keine Exploration auf einzelnen Kindern als Bestandteil der Systemarchitektur.

R_T \,\le\, 8 \cdot \sum_{i:\, \Delta_i > 0} \dfrac{\ln T}{\Delta_i} \,+\, \left(1 + \dfrac{\pi^{2}}{3}\right) \cdot \sum_i \Delta_i

UCB1-Regret-Schranke (10)Cumulative Regret nach T Zügen für K Arme mit Lücken Δ_i = μ* − μ_i. Asymptotisch O(√(K · T · ln T)); jeder dieser logarithmischen Lerner kostet beim Kind realisierte Fehlentscheidungen.

Schließlich erschwert jedes dieser Modelle die geplante methodische Publikation erheblich. Die Verhaltensreproduktion eines Regelsets ist trivial; die eines trainierten neuronalen Netzes ist es nicht.

Was Praxispartner sehen, und was offen bleibt

Adaptivität ist im praxisvermittelten Modell nur dann nützlich, wenn sie sichtbar wird. Wir konzipieren eine Sitzungsauswertung, die folgende Größen offen ausweist: die aktuelle Fähigkeitsschätzung θ̂ mit Konfidenzintervall, die zuletzt präsentierten Items mit ihrem β, die beobachteten Fehlertypen und die durch die Regeln ausgelöste Anpassung. Damit kann die Praxispartnerin die Beobachtungen ohne Rückwärtsableitung in die Sitzung einbeziehen.

Mehrere Fragen sind nicht geklärt. Wie wird die Zielwahrscheinlichkeit P* konstrukt- und altersspezifisch kalibriert? Welche Priors sind für die Fähigkeitsschätzung in der Initialphase angemessen, ohne in Richtung erwarteter Defizite zu verzerren? Wie verändern sich Spacing-Intervalle unter Therapiepausen oder schulischen Belastungsphasen? Welche Operationalisierung des Fehlertyps trägt für die Emotionsregulationsmodule, in denen die Antwortdimension nicht binär ist?

Die methodische Publikation auf unserer Roadmap deckt diese Arbeit mit ab. Bis dahin werden die Regelsets, Parametrisierungen und Kalibrierungstabellen offen dokumentiert, damit Praxispartner und Forschende sie hinterfragen und wir sie revidieren können, wenn die Praxis das nahelegt.