Proefexamen
P0S37A Thema’s uit de kwantitatieve methodologie
Academiejaar 2022-2023
1. Bij een 6-jarig meisje met een autismespectrumstoornis wordt in rusttoestand een elektro-encefalogram
afgenomen om de elektrische activiteit van de hersenen te meten. Het Toledo-bestand EEG.txt in de folder
“Cursusdocumenten / Gegevensbestanden / Oefeningen proefexamen” bevat 1002 metingen van die elektrische
activiteit in rusttoestand, weergegeven als de variabele “EEG”. Deze gegevens kunnen in R worden ingelezen met
de instructie
read.table(file.choose(new=FALSE))
Een orthopedagoog wil eerst een goed passend ARIMA-model voor deze gegevens in rusttoestand vinden om
daarna het effect van een aandachtstaak op de elektrische activiteit van de hersenen na te gaan.
Beantwoord de volgende vragen:
(a) Welk ARIMA model past bij deze gegevens in rusttoestand?
(b) Wat zijn de parameterschattingen en de standaardfouten van de parameters in dit ARIMA model?
(c) Zijn deze parameterschattingen statistisch significant als het 5% significantieniveau zou worden gehanteerd?
Hoe kan je dat in de uitvoer aflezen?
(d) Welke alternatieve ARIMA modellen hebt u nog overwogen en welke argumenten hebt u gehan teerd om de
keuze voor één van die modellen te maken?
Tijdreeksanalyse
A) Welk ARIMA model past bij deze gegevens in rusttoestand?
Bij deze gegevens past best een ARIMA (1,2,1) model
Zie werkwijze: Script:
#Stap 1
> EEG <- read.table(file.choose(new=FALSE))
> EEG
#Stap 2
> acf(EEG,plot=FALSE)
> acf(EEG)
#Stap 3
> pacf(EEG,plot=FALSE)
> pacf(EEG)
#Stap 4
> model1 <- arima(EEG,order=c(1,0,0))
> model1
#Stap 5
> tsdiag(model1)
, 1
B) Wat zijn de parameterschattingen en de standaardfouten van de parameters in dit ARIMA model?
De schatting van de AR1 parameter bedraagt 0.4262, met een standaardfout van 0,0362.
De schatting van de MA1 parameter bedraagt 0.5442, met een standaardfout van 0.334.
Deze getallen zijn te vinden in volgende deel van de output
(c) Zijn deze parameterschattingen statistisch significant als het 5% significantieniveau zou worden
gehanteerd? Hoe kan je dat in de uitvoer aflezen?
Beide parameterschattingen zijn statistisch significant als het 5% significantieniveau zou worden gehanteerd.
Dit kan je in de uitvoer aflezen door de standaardfout te verdubbelen en vast te stellen dat de (absolute waarde van
de) parameterschatting groter is dan die verdubbelde standaardfout.
Hoe kan je dat in de uitvoer aflezen?
AR1: (2*0,0362) = 0,0724 |0,4262| > 0,0724 Statistisch significant onder het 5% significantieniveau
MA1: (2*0,0334) = 0,0668 |0,5442| > 0,0668 Statistisch significant onder het 5% significantieniveau
(d) Welke alternatieve ARIMA modellen hebt u nog overwogen en welke argumenten hebt u gehanteerd om de
keuze voor één van die modellen te maken?
Omdat de ACF van de tijdreeks slechts heel traag daalt, ben ik begonnen met een ARIMA(0,1,0) model. De
diagnostische plots geven echter aan dat het model niet goed bij de gegevens past. Als je specifiek naar de ACF van
de residuen kijkt dan zie je dat er nog steeds hoge autocorrelaties in de residuen aanwezig zijn en dat die
autocorrelaties traag dalen voor stijgende stapwaarde. Dat wil zeggen dat er nog steeds aanwijzingen zijn voor een
trend in de residuen en dus dat het aangewezen is om nogmaals verschilscores te nemen.
De volgende stap die ik zet is dus een ARIMA(0,2,0) model. Dit model is aanzienlijk beter dan het voorgaande met
een AIC van 3571.09 (tegenover een AIC van 10595.18 bij het ARIMA(0,1,0) model). De diagnostische plots geven
echter aan dat het model nog steeds niet goed bij de gegevens past. De ACF van de residuen toont een snelle daling
van de autocorrelaties met stijgende stapwaarde, wat indicatief is voor een resterend autoregressief proces.
De volgende stap die ik zet is dus een ARIMA(1,2,0) model. Dit model is alweer een verbetering tegenover het
voorgaande model, met een AIC van 2951.23, maar de diagnostische plots geven nog steeds aan dat het model niet
goed bij de gegevens past. De ACF van de residuen toont nog enkele pieken bij lage stapwaarde, wat een indicatie is
voor een resterend voortschrijdend gemiddelde proces.
We proberen eerst een voortschrijdend gemiddelde proces van eerste orde toe te voegen: dus een ARIMA(1,2,1)
model. Dit model heeft een AIC van 2810.15 en de diagnostische plots geven aan dat het model bij de gegevens past.
In de Standardized Residuals zijn er namelijk geen opvallende resultaten of patronen op te merken; in de ACF van de
residuen zitten geen opvallend hoge autocorrelaties meer en de p-waarden van de Ljung-Box statistic zijn allemaal
hoog. Omdat dit model al goed bij de gegevens past, hoeven we geen complexere modellen meer uit te proberen.