dataverwerking
1. herhaling/inleiding
beslissingsregels
Aanvaarden Verwerpen H0
H0
p≥α p<α
x≤c x >c
#vrijgheisgraden verdeling= #gegevens - #geschatte parameters
Shapiro.test testen op normaliteit: indien p>alfa: de gegevens zijn normaal verdeeld
Wilcox.test niet parametrische test op normaliteit
As.factor wanneer er getallen staat die geen volgorde hebben maar een groep voorstellen
Rm(list=ls()) command window clearen
Continue variabele: een variabele zonder vaste waarde vb. tijd, lengte,…
Factor variabele: stelt een bepaalde categorie voor vb. 1=man, 2=vrouw
1.7 ANOVA
= 2/meer gemiddeldes met elkaar vergelijken (Analysis Of VAriance)
Statistisch model: y ij =µi+ ε ij
- i: de nummer van de groep
- j: de nummer van de waarneming in een groep
- µi: het geschatte gemiddelde van groep i
- ε ij: de residuele afwijking van de reële waarden t.o.v. het model
Andere vorm: y ij =µ0 +α i+ ε ij
- µ0: het gemiddelde van een referentiegroep
- α i: verschil in gemiddelde van groep i met de referentiegroep indien H0 juist: i=0
Verschil in variantie
Totale variantie SST opsplitsen in 2 componenten
SSA (deel verklaard door model): variantie/verschillen tussen de groepen
SSE (residuele variantie): de variantie binnen een groep (tussen individuele waarnemingen)
i= groep k= # groepen
j= waarneming n=#waarnemingen
Als alle gemiddeldes gelijk zijn aan elkaar: MSA=MSE
F test: F= MSA/MSE (met k-1 en n-k vrijgheidsgraden)
Commando’s uitvoeren:
1. lm1 <-lm(y~x)
2. anova(lm1) Nulhypothese: alle gemiddeldes zijn gelijk aan elkaar
3. controle assumpties: diagnostische plots (ANOVA is vrij robuust dus kleine kans op afwijkingen)
a. residuele waarden normaal verdeeld
, b. gelijkheid van varianties
par(mfrow=c(2,2))
plot(lm1)
c. indien afwijking: Kruskal-Wallis test (niet-parametrisch)
kruskal.test(y~x)
4. indien nulhypothese verworpen: kijken waar verschillen zitten 2 aan 2 vergelijken met Tukey
methode
TukeyHSD(aov(y~x))
Extra uitleg diagnostische plots
Vb1: lineair verband
- grote grafiek: rechte= gefitte model, bolletjes=residuele
waarden
- residuals vs Fitted: scatterplot van de gefitte waarden t.o.v. de
resiuele waarden
o indien lineair verband: horizontale puntenwolk
(varianties constant)
- Normal probability plot: bestuderen van de normaliteit
o Indien mooie rechte: gegevens normaal verdeeld
- Residuals vs leverage: geeft de afwijking van metingen van de
rechte (standardized residuals) tov de mate waarin ze de
rechte scheef trekken (leverage) weer
o Cook’s distance: indien groter dan 1 invloedrijke
waarneming
Vb2: niet-lineair verband
- Rediuals vs Fitted: we zien dat bij lage waarden en bij hoge
waarden de residuelen sterk afwijken van het regressieverband
(hieruit kan je besluiten dat het geen regressieverband is)
- Normal Q-Q: de waarden zijn redelijk normaal verdeeld
- Residuals vs leverage: veel waarden hebben een grote invloed
op de regressierechte
Vb3: uitschieter zonder sterke invloed
- Rediuals vs Fitted: we zien dat de uitschieter afwijkt van het
horizontale verband, maar de lijn is nog altijd horizontaal we
hebben nog wel een lineair verband
- Residuals vs leverage: de uitschietende waarde heeft een grote
standardized residuals (-4) maar een lage leverage (want ligt
eerder centraal in de rechte) dus heeft niet zo een sterke
invloed
Vb4: uitschieter met sterke invloed
- Rediuals vs Fitted: uitschieter trekt de horizontale lijn helemaal
scheef door deze waarde een sterke afwijking van de
residuals tot het model
- Residuals vs leverage: de uitschieter heeft een hoge leverage en
hoge residuals bijgevolg een hoge cooks distance (is dus een
invloedrijke uitschieter)