Jak rozumiemy adaptywność w modułach ćwiczeniowych – DeepSpectrum Lab

Dlaczego adaptywność jest tu istotna

Moduły ćwiczeniowe z zakresu poznania społecznego, teorii umysłu i regulacji emocji działają tam, gdzie poziom trudności jest spójny z aktualnymi zdolnościami dziecka. Wygotski opisał to w pojęciu strefy najbliższego rozwoju; w tradycji psychologii instrukcji to samo zjawisko bywa omawiane od Blooma (1984) pod hasłem „mastery learning". Obie linie prowadzą empirycznie do tej samej obserwacji: ćwiczenie wyraźnie poniżej lub powyżej aktualnych zdolności kończy się albo stagnacją, albo wycofaniem.

W naszych modułach adaptywność steruje trzema wymiarami: doborem pozycji (jakie ćwiczenie pojawi się jako kolejne), harmonogramem powtórek (kiedy już opanowane pojęcie zostaje ponownie aktywowane) oraz poziomem złożoności (na jakiej głębi konstrukt jest operacjonalizowany). Samej treści nie steruje. Ćwiczenia są stałe i dostrojone do konstruktów opisanych w artykule o podstawach badawczych.

Czym adaptywność u nas nie jest

Adaptywność nie jest u nas modelem osobowości dziecka. Nie wyprowadzamy stylów uczenia się, wymiarów osobowości ani stabilnych cech uwagi. Meta-analiza Pashlera i współpracowników (2008) wykazała, że hipoteza stylów uczenia się nie jest replikowalna; późniejsze przeglądy (Kirschner 2017) ten obraz potwierdziły. Stabilne przypisywanie cech na podstawie krótkich sekwencji interakcji traktujemy zatem jako metodologicznie nieuzasadnione.

Adaptywność nie jest też silnikiem rekomendacji w sensie znanym z oprogramowania konsumenckiego. Nie istnieje ukryty wynik przewidujący, które ćwiczenie dziecko „polubi" lub ukończy. Zaangażowanie nie jest celem optymalizacji. Gdyby nim było, moduły dryfowałyby systematycznie ku sytuacjom, w których nie ćwiczą już żadnego konstruktu, a jedynie napędzają pętlę potwierdzeń.

Szkielet psychometryczny: model Rascha jako punkt wyjścia

Formalną podstawą sterowania trudnością jest model Rascha, jednoparametrowy przypadek szczególny teorii odpowiedzi na pozycję testową. Każde ćwiczenie ma parametr trudności β, każde dziecko oszacowanie zdolności θ. Prawdopodobieństwo poprawnego rozwiązania modelujemy funkcją logistyczną. Przy θ = β prawdopodobieństwo rozwiązania wynosi 0,5.

P(X = 1 \mid \theta, \beta) = \dfrac{1}{1 + \exp(\beta - \theta)}

Model Rascha (1)Prawdopodobieństwo poprawnej odpowiedzi jako funkcja zdolności θ i trudności pozycji β.

Logistyczna krzywa odpowiedzi modelu Rascha. Przy θ = β prawdopodobieństwo rozwiązania wynosi 0,5; pozycje dobieramy w stronę docelowej skuteczności P* ≈ 0,75.

Wybór modelu Rascha zamiast modelu dwuparametrowego (dodatkowy parametr dyskryminacji α) lub trójparametrowego (parametr zgadywania γ) jest uzasadniony metodologicznie. Rasch dopuszcza estymację opartą na statystykach dostatecznych, rozdzielność parametrów osobowych i pozycyjnych (specific objectivity, Rasch 1960) oraz stabilne oszacowania przy małych próbach. Tego właśnie potrzebujemy: małych grup pilotażowych i ciągłej pielęgnacji modelu, nie danych z badań wielkoskalowych.

Oszacowanie zdolności θ̂ jest aktualizowane przyrostowo po każdej odpowiedzi. W praktyce robi to bayesowskie oszacowanie expected-a-posteriori (EAP) z informacyjnym priorem właściwym dla grupy wiekowej. Dzięki temu oszacowanie pozostaje odporne na pojedyncze nietypowe odpowiedzi, co jest kluczowe przy efektywnej liczebności próby równej jednej osobie na sesję.

\hat{\theta}_{\mathrm{EAP}} = \dfrac{\int \theta \cdot L(x \mid \theta) \cdot \pi(\theta)\, d\theta}{\int L(x \mid \theta) \cdot \pi(\theta)\, d\theta}

Estymator EAP (4)Wartość oczekiwana rozkładu a posteriori: L(x | θ) to wiarygodność Rascha dla dotychczasowych odpowiedzi x, π(θ) to prior grupy wiekowej.

I_{\mathrm{total}}(\theta) = \sum_{i} P_i(\theta) \cdot \bigl(1 - P_i(\theta)\bigr)

Informacja testu (5)Informacja kumuluje się addytywnie po prezentowanych pozycjach; błąd oszacowania SE(θ̂) = 1 / √I_total(θ̂).

\text{95\,\%\,CI} = \hat{\theta} \pm 1.96 \cdot \mathrm{SE}(\hat{\theta})

Przedział ufności (6)Partnerzy praktyczni zawsze widzą θ̂ wraz z odpowiadającym mu przedziałem, nigdy jako punkt.

Algorytm 3 — aktualizacja rozkładu a posteriori po każdej odpowiedzi

function update_posterior(posterior, item, x_i):
    # posterior: rozkład dyskretny na siatce θ_1..θ_K
    # x_i ∈ {0, 1}: niepoprawnie / poprawnie na pozycji o trudności β_i
    for k in 1..K:
        p_ik         ←  1 / (1 + exp(β_i − θ_k))
        likelihood_k ←  (p_ik)^x_i  ·  (1 − p_ik)^(1 − x_i)
        posterior_k  ←  posterior_k · likelihood_k

    Z          ←  Σ_k posterior_k
    posterior  ←  posterior / Z          # normalizacja

    θ̂          ←  Σ_k θ_k · posterior_k    # EAP
    var        ←  Σ_k (θ_k − θ̂)^2 · posterior_k
    SE         ←  √var
    return (posterior, θ̂, SE)

Konstrukt-specyficzne zakotwiczenie trudności

Wartości β nie są swobodnie dobierane, lecz związane z literaturą rozwojową dotyczącą danego konstruktu. Dla teorii umysłu kierujemy się skalą Wellman-Liu (2004), która porządkuje pięć typów zadań w empirycznie zwalidowanej kolejności guttmanowskiej: różne pragnienia, różne przekonania, dostęp do wiedzy, fałszywe przekonanie, ukryta emocja. Ta kolejność daje a priori hierarchię parametrów β, którą następnie kalibrujemy na danych praktycznych.

Dla funkcji wykonawczych przyjmujemy trójskładnikową strukturę zaproponowaną przez Miyake i współpracowników (2000): hamowanie, aktualizacja pamięci roboczej i przełączanie zbiorów. Składniki korelują w oryginalnej pracy umiarkowanie (r ≈ 0,42 do 0,63), ale są faktorialnie rozdzielne i nie redukują się do jednego wymiaru zdolności θ. W obrębie każdego składnika prowadzimy oddzielne oszacowania.

Sygnały, które wykorzystujemy

Do oszacowania wchodzą trzy sygnały: odsetek rozwiązań, czas reakcji i typ błędu. Odsetek rozwiązań jest sygnałem podstawowym i bezpośrednio aktualizuje θ̂. Czas reakcji traktujemy jako zmienną pomocniczą w sensie rozszerzonych modeli Rascha (Linacre 2006). Może nieść informację o stopniu opanowania, ale nie wchodzi jako kara w sterowanie trudnością. Wolniej nie znaczy gorzej, a wolności reakcji wyraźnie nie karzemy.

Typ błędu jest jakościową kowariatą. W zadaniu na fałszywe przekonanie nie jest obojętne, czy dziecko wybrało własne przekonanie zamiast cudzego (klasyczny błąd ToM), czy też opcję merytorycznie niezwiązaną. Drugi typ błędu wskazuje na problemy z uwagą lub rozumieniem poza danym konstruktem i prowadzi do innej decyzji adaptacyjnej niż pierwszy.

Jeden sygnał świadomie pomijamy: dobrowolne przerwanie sesji. Dziecko, które kończy sesję wcześniej, nie zostaje uznane za „przegrane". Interpretacja tego sygnału należy do partnerów praktycznych, nie do systemu.

Wybór pozycji: informacja Fishera i ochrona przed frustracją

W komputerowym testowaniu adaptacyjnym (CAT) standardowym kryterium doboru pozycji jest maksymalizacja informacji Fishera przy bieżącym θ̂. Dla modelu Rascha informacja redukuje się do zwartej postaci z maksimum przy P = 0,5, czyli przy θ̂ = β. Ten wybór jest informacyjnie optymalny dla celów diagnostycznych.

I(\theta) = P(\theta) \cdot \bigl(1 - P(\theta)\bigr)

Informacja Fishera (2)Maksimum 0,25 przy P = 0,5; informacja diagnostyczna szybko maleje w miarę oddalania się od tego punktu.

Informacja Fishera modelu Rascha w funkcji θ − β. Optymalna dla diagnostyki; w trybie ćwiczeniowym świadomie wybieramy pozycje na prawo od maksimum.

Dla ustawienia ćwiczeniowego to kryterium jest nietrafione. Stały wskaźnik sukcesu 50 procent jest motywacyjnie niekorzystny, ponieważ obciążenie afektywne przy takim wskaźniku jest zbyt wysokie, w szczególności dla dzieci ze zwiększoną wrażliwością na frustrację. Przesuwamy kryterium wyboru na prawdopodobieństwo docelowe P* między 0,70 a 0,80 i wybieramy pozycje, których trudność β leży poniżej aktualnego oszacowania zdolności.

\beta^{*} = \hat{\theta} - \ln\!\left(\dfrac{P^{*}}{1 - P^{*}}\right)

Trudność docelowa (3)Dla P* = 0,75 mamy β* ≈ θ̂ − 1,099; wybrana pozycja leży o jedną jednostkę logitową poniżej aktualnej zdolności.

Druga korekta dotyczy rozrzutu. Ściśle deterministyczny wybór prowadzi do powracających pozycji, co miesza przyrost uczenia z rozpoznawaniem zapamiętanego materiału. Kolejną pozycję losujemy z małego zbioru kandydatów w oknie trudności wokół wartości docelowej, ważonego czasem od ostatniej prezentacji tej samej pozycji.

Algorytm 1 — wybór pozycji w kroku ćwiczeniowym

function select_next_item(θ̂, P*, items, ε):
    β*       ←  θ̂  −  ln(P* / (1 − P*))
    window   ←  { i ∈ items  :  |β_i − β*|  <  ε }
    weights  ←  time_since_last_presentation(window)
    return weighted_sample(window, weights)

Harmonogram powtórek: efekt rozłożenia

Harmonogramowanie powtórek opiera się na efekcie rozłożenia, jednym z najbardziej powtarzalnych wyników badań nad pamięcią od czasów Ebbinghausa (1885). Cepeda i współpracownicy (2006) w meta-analizie pokazali, że prawdopodobieństwo retencji zależy w sposób niemonotoniczny od odstępu między powtórkami: zbyt krótkie odstępy marnują czas, zbyt długie prowadzą do zapominania. Optymalny odstęp zależy od oczekiwanego horyzontu retencji.

R(t) = \exp(-t / \tau)

Krzywa zapominania (7)Wykładnicze tempo retencji wg Ebbinghausa: τ rośnie z każdą udaną powtórką; im większe τ, tym płaszczy spadek.

\mathrm{gap}^{*} \,/\, \mathrm{RI} \approx 0.10 \ldots 0.20

Stosunek Cepedy (8)Empirycznie optymalny stosunek odstępu gap* do docelowego okresu retencji RI; kalibrujemy odstępy powtórek w tym przedziale.

Trzy krzywe zapominania z rosnącą stałą czasową τ (1.5, 6, 24 dni). Każda udana powtórka spłaszcza krzywą; to operacyjna podstawa sterowania powtórkami.

Operacyjnie korzystamy z uproszczonego wariantu algorytmu SM-2 Wozniaka. Pozycje mają rozszerzający się odstęp powtórek z czynnikiem ease, korygowanym po każdej ocenie. W odróżnieniu od klasycznych zastosowań do nauki słówek skala oceny nie jest subiektywną samooceną, lecz wyprowadza się z odsetka rozwiązań i typu błędu. Nie jest to oryginalny wkład badawczy; to zastosowanie ugruntowanego algorytmu w nowym kontekście, i tak też to nazywamy.

Algorytm 2 — aktualizacja harmonogramu według SM-2

function update_schedule(item, q):
    # q ∈ {0..5} wyprowadzone z odsetka rozwiązań i typu błędu
    EF  ←  EF  +  0.1  −  (5 − q) · (0.08  +  (5 − q) · 0.02)
    EF  ←  max(EF, 1.3)

    if q < 3:
        n              ←  0
        next_interval  ←  1
    else if n = 0:
        n              ←  1
        next_interval  ←  1
    else if n = 1:
        n              ←  2
        next_interval  ←  6
    else:
        n              ←  n + 1
        next_interval  ←  previous_interval · EF

    return (n, next_interval, EF)

Dlaczego brak wyuczonej warstwy adaptacji

Kilka rodzin wyuczonych modeli byłoby metodologicznie do pomyślenia: Bayesian Knowledge Tracing (Corbett i Anderson 1995), Deep Knowledge Tracing (Piech i współpracownicy 2015), kontekstowe wieloramienne bandyty (LinUCB, Thompson sampling) lub pełne uczenie ze wzmocnieniem. Żadnego z nich nie stosujemy. Powody nie są pryncypialne, lecz zależne od próby i epistemiczne.

BKT wymaga stabilnych oszacowań czterech parametrów na umiejętność: wiedzy początkowej P(L_0), tempa uczenia P(T), slip P(S) i guess P(G). Aktualizacja a posteriori po każdej odpowiedzi odbywa się regułą Bayesa, której wartość bez stabilnych parametrów się załamuje. Przy małych próbach te oszacowania są tak niepewne, że model praktycznie pozostaje przy priorach; dodatkowa wartość ponad jawne reguły znika.

P(L_t \mid \text{poprawne}) = \dfrac{P(L_t) \cdot (1 - S)}{P(L_t) \cdot (1 - S) + \bigl(1 - P(L_t)\bigr) \cdot G}

Aktualizacja BKT (9)Prawdopodobieństwo a posteriori stanu „opanowane" po poprawnej odpowiedzi; analogicznie dla niepoprawnych. Po obserwacji P(L_t+1) = P(L_t | obs) + (1 − P(L_t | obs)) · T.

Deep Knowledge Tracing daje w literaturze wyższą trafność predykcji niż BKT, ale jest czarną skrzynką opartą na sieciach rekurencyjnych. Pytanie „dlaczego moduł pokazał to ćwiczenie?" pozostaje bez odpowiedzi. W ustawieniu zapośredniczonym praktyką, w którym moduł jest używany razem ze specjalistą, jest to błąd projektowy.

Wieloramienne bandyty i uczenie ze wzmocnieniem zakładają logikę explore-exploit, w której system celowo wybiera działania suboptymalne, aby się uczyć. UCB1 (Auer i in. 2002) osiąga dowodliwie logarytmiczne regret, ale akumuluje je przez realne złe decyzje na dziecku. Takie ramowanie jest dla klinicznie osadzonego modułu ćwiczeniowego etycznie i pragmatycznie błędne. Nie chcemy, by eksploracja na pojedynczych dzieciach była częścią architektury systemu.

R_T \,\le\, 8 \cdot \sum_{i:\, \Delta_i > 0} \dfrac{\ln T}{\Delta_i} \,+\, \left(1 + \dfrac{\pi^{2}}{3}\right) \cdot \sum_i \Delta_i

Granica regret UCB1 (10)Skumulowane regret po T krokach dla K ramion z luką Δ_i = μ* − μ_i. Asymptotycznie O(√(K · T · ln T)); każdy z tych logarytmicznych uczniaków płaci w realnie błędnych decyzjach na dziecku.

Wreszcie każdy z tych modeli istotnie utrudniłby planowaną publikację metodologiczną. Reprodukcja zachowania zestawu reguł jest trywialna; reprodukcja zachowania wytrenowanej sieci neuronowej już nie.

Co widzą partnerzy praktyczni i co pozostaje otwarte

Adaptywność w modelu zapośredniczonym praktyką jest użyteczna tylko wtedy, gdy jest widoczna. Projektujemy podsumowanie sesji, które jawnie pokazuje: bieżące oszacowanie zdolności θ̂ z przedziałem ufności, ostatnio prezentowane pozycje wraz z ich β, zaobserwowane typy błędów oraz adaptację wywołaną przez reguły. Dzięki temu partner praktyczny może uwzględnić obserwacje w sesji bez rekonstruowania zachowania systemu.

Kilka pytań pozostaje nierozstrzygniętych. Jak kalibrować prawdopodobieństwo docelowe P* w zależności od konstruktu i wieku? Jakie priory dla oszacowania zdolności w fazie początkowej są właściwe, by nie zniekształcać go w kierunku oczekiwanych deficytów? Jak zmieniają się odstępy powtórek przy przerwach terapeutycznych lub w okresach wysokiego obciążenia szkolnego? Jaka operacjonalizacja typu błędu jest nośna dla modułów regulacji emocji, w których wymiar odpowiedzi nie jest binarny?

Publikacja metodologiczna na naszej roadmapie obejmuje tę pracę. Do tego czasu zestawy reguł, parametryzacje i tabele kalibracyjne, których używamy, są otwarcie dokumentowane, tak by partnerzy praktyczni i badacze mogli je kwestionować, a my mogli je weryfikować, gdy praktyka tego wymaga.