Hoe wij adaptiviteit in de oefenmodules opvatten – DeepSpectrum Lab

Waarom adaptiviteit hier relevant is

Oefenmodules voor sociale cognitie, theory of mind en emotieregulatie werken waar het moeilijkheidsniveau zuiver aansluit op de actuele vaardigheid van het kind. Vygotsky beschreef dat met de zone van naaste ontwikkeling; in de instructiepsychologische traditie wordt hetzelfde fenomeen sinds Bloom (1984) onder de noemer „mastery learning" besproken. Beide lijnen leiden empirisch tot dezelfde observatie: oefening die duidelijk onder of boven de actuele vaardigheid ligt, leidt tot stagnatie of terugtrekking.

In onze modules stuurt adaptiviteit drie dimensies: itemkeuze (welke oefening als volgende komt), herhalingsplanning (wanneer een al beheerst concept opnieuw wordt geactiveerd) en complexiteitsniveau (op welke diepte een construct wordt geoperationaliseerd). De onderliggende inhoud wordt niet gestuurd. De oefeningen liggen vast en zijn afgestemd op de constructen die we in het artikel over de onderzoeksgrondslagen beschrijven.

Wat adaptiviteit bij ons niet is

Adaptiviteit is bij ons geen persoonlijkheidsmodel van het kind. We leiden geen leerstijlen, persoonlijkheidsdimensies of stabiele aandachtskenmerken af. De meta-analyse van Pashler en collega’s (2008) markeerde de leerstijlhypothese als niet-repliceerbaar; latere overzichten (Kirschner 2017) bevestigden dat beeld. Stabiele trait-toeschrijvingen op basis van korte interactiesequenties beschouwen we daarom als methodisch niet houdbaar.

Adaptiviteit is ook geen aanbevelingsmotor in de zin die we uit consumentensoftware kennen. Er bestaat geen latente score die voorspelt welke oefening het kind „leuk vindt" of zal afronden. Engagement is niet het optimalisatiedoel. Was het dat wel, dan zouden de modules systematisch afdrijven naar situaties waarin ze geen construct meer trainen maar alleen een bevestigingslus voeden.

Het psychometrische skelet: Rasch-model als uitgangspunt

De formele basis van de moeilijkheidssturing is het Rasch-model, het éénparametrige bijzondere geval van item response theory. Elke oefening draagt een moeilijkheidsparameter β, elk kind een geschatte vaardigheid θ. De kans op een correct antwoord wordt gemodelleerd door de logistische functie. Bij θ = β ligt de oplossingskans op 0,5.

P(X = 1 \mid \theta, \beta) = \dfrac{1}{1 + \exp(\beta - \theta)}

Rasch-model (1)Kans op een correct antwoord als functie van vaardigheid θ en moeilijkheid β.

Logistische responskromme van het Rasch-model. Bij θ = β is de oplossingskans 0,5; wij sturen items naar een doelkans P* ≈ 0,75.

De keuze voor Rasch boven het tweeparametermodel (extra discriminatieparameter α) of het drieparametermodel (gokparameter γ) is methodisch gemotiveerd. Rasch staat sufficiëntiegebaseerde schatting toe, scheiding van persoons- en itemparameters (specific objectivity, Rasch 1960) en stabiele schattingen bij kleine steekproeven. Dat is precies wat we nodig hebben: kleine pilotgroepen en doorlopend modelonderhoud, geen grootschalige studiedata.

De vaardigheidsschatting θ̂ wordt na elke respons incrementeel bijgewerkt. In de praktijk gebeurt dat via een Bayes expected-a-posteriori (EAP) schatting met een informatieve prior uit de leeftijdsgroep. Dat houdt de schatting robuust tegen individuele afwijkende antwoorden, wat essentieel is bij een effectieve steekproefgrootte van één persoon per sessie.

\hat{\theta}_{\mathrm{EAP}} = \dfrac{\int \theta \cdot L(x \mid \theta) \cdot \pi(\theta)\, d\theta}{\int L(x \mid \theta) \cdot \pi(\theta)\, d\theta}

EAP-schatter (4)Posterieure verwachtingswaarde: L(x | θ) is de Rasch-likelihood van de tot dusver gegeven antwoorden x, π(θ) de leeftijdsgroep-prior.

I_{\mathrm{total}}(\theta) = \sum_{i} P_i(\theta) \cdot \bigl(1 - P_i(\theta)\bigr)

Testinformatie (5)Informatie cumuleert additief over reeds gepresenteerde items; de schattingsfout is SE(θ̂) = 1 / √I_total(θ̂).

\text{95\,\%-BI} = \hat{\theta} \pm 1.96 \cdot \mathrm{SE}(\hat{\theta})

Betrouwbaarheidsinterval (6)Praktijkpartners zien θ̂ steeds met bijbehorend interval, nooit als puntschatting.

Algoritme 3 — posterieur-update na elke respons

function update_posterior(posterior, item, x_i):
    # posterior: discrete verdeling over rooster θ_1..θ_K
    # x_i ∈ {0, 1}: incorrect / correct op item met moeilijkheid β_i
    for k in 1..K:
        p_ik         ←  1 / (1 + exp(β_i − θ_k))
        likelihood_k ←  (p_ik)^x_i  ·  (1 − p_ik)^(1 − x_i)
        posterior_k  ←  posterior_k · likelihood_k

    Z          ←  Σ_k posterior_k
    posterior  ←  posterior / Z          # normaliseren

    θ̂          ←  Σ_k θ_k · posterior_k    # EAP
    var        ←  Σ_k (θ_k − θ̂)^2 · posterior_k
    SE         ←  √var
    return (posterior, θ̂, SE)

Constructspecifieke verankering van moeilijkheid

De β-waarden zijn niet vrij kiesbaar maar verbonden aan de ontwikkelingspsychologische literatuur over het betreffende construct. Voor theory of mind volgen we de Wellman-Liu-schaal (2004), die vijf taaktypen rangschikt in een empirisch gevalideerde Guttman-volgorde: verschillende verlangens, verschillende overtuigingen, toegang tot kennis, valse overtuiging, verborgen emotie. Deze ordening levert een a-priori hiërarchie van β-parameters die we vervolgens kalibreren op basis van praktijkdata.

Voor executieve functies volgen we de driecomponentenstructuur volgens Miyake en collega’s (2000): inhibitie, updaten van het werkgeheugen, en set shifting. De componenten correleren in het oorspronkelijke werk in matige sterkte (r ≈ 0,42 tot 0,63), maar zijn factorieel scheidbaar en vallen niet samen tot één vaardigheidsdimensie θ. We houden binnen elke component aparte schattingen bij.

De signalen die we gebruiken

Drie signalen voeden de schatting: oplossingspercentage, reactietijd en fouttype. Het oplossingspercentage is het primaire signaal en werkt θ̂ rechtstreeks bij. De reactietijd behandelen we als ancillair signaal in de zin van de uitgebreide Rasch-modellen (Linacre 2006). Ze kan informatie dragen over de mate van beheersing, maar gaat niet als strafgrootheid in de moeilijkheidssturing. Langzamer is niet slechter, en we straffen langzaamheid expliciet niet af.

Het fouttype is een kwalitatieve covariate. Bij een onjuist antwoord op een valse-overtuigingstaak is het niet onverschillig of het kind de eigen overtuiging in plaats van de andere persoons overtuiging koos (klassieke ToM-fout) of een inhoudelijk niet-verbonden optie. Het tweede fouttype wijst op aandachts- of begripsproblemen buiten het construct en leidt tot een andere adaptatiebeslissing dan het eerste.

Eén signaal dat we bewust niet gebruiken is vrijwillig afhaken in een sessie. Een kind dat een sessie eerder verlaat, geldt niet als gefaald. De interpretatie van dat signaal hoort bij de praktijkpartners, niet bij het systeem.

Itemkeuze: Fisher-informatie en frustratiebescherming

In computergestuurd adaptief testen (CAT) is het standaardcriterium voor itemkeuze de maximalisatie van Fisher-informatie bij de huidige θ̂. Voor het Rasch-model vereenvoudigt de informatie zich tot een compacte vorm met een maximum bij P = 0,5, dus bij θ̂ = β. Die keuze is informatietheoretisch optimaal voor diagnostiek.

I(\theta) = P(\theta) \cdot \bigl(1 - P(\theta)\bigr)

Fisher-informatie (2)Maximum 0,25 bij P = 0,5; diagnostische informatie neemt snel af zodra P daar vandaan beweegt.

Fisher-informatie van het Rasch-model over θ − β. Optimaal voor diagnostiek; voor oefenen kiezen we bewust items rechts van de top.

Voor een oefensetting is dit criterium misplaatst. Een constant succespercentage van 50 procent is motivationeel ongunstig, omdat de affectieve last bij dat percentage te hoog is, in het bijzonder voor kinderen met verhoogde frustratiegevoeligheid. We verschuiven het keuzecriterium naar een doelkans P* tussen 0,70 en 0,80 en kiezen items waarvan de moeilijkheid β onder de actuele vaardigheidsschatting ligt.

\beta^{*} = \hat{\theta} - \ln\!\left(\dfrac{P^{*}}{1 - P^{*}}\right)

Doelmoeilijkheid (3)Voor P* = 0,75 geldt β* ≈ θ̂ − 1,099; het gekozen item ligt één logit-eenheid onder de actuele vaardigheid.

Een tweede correctie betreft de spreiding. Strikt deterministische keuze leidt tot terugkerende items, wat leerwinst en routinematige herkenning vermengt. We trekken het volgende item uit een kleine kandidatenset in een moeilijkheidsvenster rond de doelwaarde, gewogen naar de tijd sinds de laatste presentatie van hetzelfde item.

Algoritme 1 — itemkeuze per oefenstap

function select_next_item(θ̂, P*, items, ε):
    β*       ←  θ̂  −  ln(P* / (1 − P*))
    window   ←  { i ∈ items  :  |β_i − β*|  <  ε }
    weights  ←  time_since_last_presentation(window)
    return weighted_sample(window, weights)

Herhalingsplanning: het spacing-effect

De herhalingsplanning volgt het spacing-effect, één van de robuustste bevindingen in het geheugenonderzoek sinds Ebbinghaus (1885). Cepeda en collega’s (2006) toonden in een meta-analyse dat de retentiekans niet-monotoon afhangt van het herhalingsinterval: te korte intervallen verspillen tijd, te lange leiden tot vergeten. Het optimale interval hangt af van de beoogde retentieduur.

R(t) = \exp(-t / \tau)

Vergeetkromme (7)Ebbinghaus’ exponentieel retentieverloop: τ groeit met elke succesvolle herhaling; hoe groter τ, hoe vlakker de afname.

\mathrm{gap}^{*} \,/\, \mathrm{RI} \approx 0.10 \ldots 0.20

Cepeda-verhouding (8)Empirisch optimale verhouding van herhalingsspleet gap* tot beoogd retentie-interval RI; we kalibreren spacing-intervallen binnen deze marge.

Drie vergeetkrommen met groeiende tijdconstante τ (1.5, 6, 24 dagen). Elke succesvolle herhaling vlakt de kromme af; dat is de operationele basis van de spacing-sturing.

Operationeel gebruiken we een vereenvoudigde variant van het SM-2-algoritme van Wozniak. Items hebben een uitbreidend herhalingsinterval met een ease-factor die na elke evaluatie wordt aangepast. Anders dan bij klassieke woordenschattoepassingen is de beoordelingsschaal geen subjectieve zelfevaluatie, maar wordt ze afgeleid uit oplossingspercentage en fouttype. Dit is geen oorspronkelijke onderzoeksbijdrage; het is de toepassing van een gevestigd algoritme in een nieuwe context, en zo benoemen we het ook.

Algoritme 2 — spacing-update volgens SM-2

function update_schedule(item, q):
    # q ∈ {0..5} afgeleid uit oplossingspercentage en fouttype
    EF  ←  EF  +  0.1  −  (5 − q) · (0.08  +  (5 − q) · 0.02)
    EF  ←  max(EF, 1.3)

    if q < 3:
        n              ←  0
        next_interval  ←  1
    else if n = 0:
        n              ←  1
        next_interval  ←  1
    else if n = 1:
        n              ←  2
        next_interval  ←  6
    else:
        n              ←  n + 1
        next_interval  ←  previous_interval · EF

    return (n, next_interval, EF)

Waarom geen geleerde adaptatielaag

Verschillende families geleerde modellen zouden methodisch denkbaar zijn: Bayesian Knowledge Tracing (Corbett en Anderson 1995), Deep Knowledge Tracing (Piech en collega’s 2015), contextuele multi-armed bandits (LinUCB, Thompson sampling) of volledige reinforcement learning. We gebruiken geen daarvan. De redenen zijn niet principieel, maar steekproefgebonden en epistemisch.

BKT heeft stabiele schattingen nodig van zijn vier parameters per vaardigheid: initiële kennis P(L_0), leersnelheid P(T), slip P(S) en guess P(G). De posterieure update na elke respons volgt een Bayes-regel waarvan de waarde zonder stabiele parameters instort. Bij kleine steekproeven zijn die schattingen zo onzeker dat het model in de praktijk bij zijn priors blijft; de meerwaarde boven expliciete regels verdwijnt.

P(L_t \mid \text{correct}) = \dfrac{P(L_t) \cdot (1 - S)}{P(L_t) \cdot (1 - S) + \bigl(1 - P(L_t)\bigr) \cdot G}

BKT-update (9)Posterieure kans op de „beheerst"-toestand na een correct antwoord; analoog voor incorrecte antwoorden. Na de observatie geldt P(L_t+1) = P(L_t | obs) + (1 − P(L_t | obs)) · T.

Deep Knowledge Tracing geeft in de literatuur hogere voorspelnauwkeurigheid dan BKT, maar is een RNN-gebaseerde black box. De vraag „waarom toonde de module deze oefening?" kan niet worden beantwoord. Voor een praktijkbemiddeld setting, waarin de module samen met een hulpverlener wordt gebruikt, is dat een ontwerpfout.

Multi-armed bandits en reinforcement learning veronderstellen een explore-exploit-logica waarin het systeem doelbewust suboptimale acties kiest om te leren. UCB1 (Auer et al. 2002) bereikt aantoonbaar logaritmische regret, maar accumuleert die regret door reële verkeerde beslissingen bij het kind. Dat frame is voor een klinisch ingebedde oefenmodule ethisch en pragmatisch verkeerd. We willen exploratie op individuele kinderen niet als onderdeel van de systeemarchitectuur.

R_T \,\le\, 8 \cdot \sum_{i:\, \Delta_i > 0} \dfrac{\ln T}{\Delta_i} \,+\, \left(1 + \dfrac{\pi^{2}}{3}\right) \cdot \sum_i \Delta_i

UCB1-regretgrens (10)Cumulatieve regret na T trekkingen voor K armen met gaten Δ_i = μ* − μ_i. Asymptotisch O(√(K · T · ln T)); elk van die logaritmische leerders betaalt in werkelijk verkeerde beslissingen bij het kind.

Tot slot bemoeilijkt elk van deze modellen de geplande methodische publicatie aanzienlijk. Het gedrag van een regelset reproduceren is triviaal; het gedrag van een getraind neuraal netwerk reproduceren is dat niet.

Wat praktijkpartners zien, en wat open blijft

Adaptiviteit is in een praktijkbemiddeld model alleen nuttig wanneer ze zichtbaar is. We ontwerpen een sessiesamenvatting die de volgende grootheden expliciet toont: de actuele vaardigheidsschatting θ̂ met betrouwbaarheidsinterval, de recent gepresenteerde items met hun β, de waargenomen fouttypen en de door de regels uitgelokte aanpassing. Daarmee kan de praktijkpartner de observaties in de sessie meenemen zonder het systeemgedrag te moeten reconstrueren.

Verschillende vragen zijn nog niet beslecht. Hoe wordt de doelkans P* per construct en leeftijd gekalibreerd? Welke priors voor de vaardigheidsschatting in de beginfase zijn passend zonder te vertekenen in de richting van verwachte tekorten? Hoe verschuiven spacing-intervallen onder therapiepauzes of perioden met hoge schoolse belasting? Welke operationalisering van fouttype draagt voor de emotieregulatiemodules, waarin de antwoorddimensie niet binair is?

De methodische publicatie op onze roadmap omvat dit werk. Tot dan zijn de regelsets, parametriseringen en kalibratietabellen die we inzetten openlijk gedocumenteerd, zodat praktijkpartners en onderzoekers ze kunnen bevragen en wij ze kunnen herzien wanneer de praktijk dat aangeeft.