Volledige samenvatting Statistiek
Topic 4: ANOVA en Kruskal-Wallis
→ One-way ANOVA
Vergelijking van meerdere onafhankelijke groepen.
Ongepaarde test met continue variabelen.
Meer dan 2 groepen.
ANOVA = Analysis Of VAriance
Basiskennis standaarddeviatie en variantie nodig.
→ S (steekproef) als schatting voor (populatie).
→ n-1 is het aantal vrijheidsgraden.
→ In welke mate wijken waarden gemiddeld af van het gemiddelde.
→ standaarddeviatie = standaardafwijking = s.
→ OF
→ Variantie= s2
→
Je hebt 3 soorten variantie: totale variantie, “within” groep variantie (er is binnen de groep
een afwijking), “between” groep variantie (er is tussen de groepen een variantie).
Nulhypothese: H0: groepsgemiddelden zijn gelijk [between-group variantie = within-group
variantie].
De test is gebaseerd op de F-test.
Er zijn 3 voorwaarden:
→ Continue variabelen EN
→ GAUSSIAANS verdeeld (=normaalverdeeld) EN
→ Variantie in de groepen zijn gelijk.
Enkel indien significant verschil ga je kijken waar de verschillen zitten met posthoc test.
Posthoc: Student’s t-test MET correctie (aanpassing voor meervoudige hypothesetesten).
→ Bonferroni-correctie voor meervoudige testen.
𝛼
→ 𝑘 met k (Kappa) = posthoc onderlinge vergelijkingen.
𝑘 (𝑘−1) 3 (3−1)
→ Vb: bij 3 groepen → k= 2
= 2
=3
0,05 𝛼
→ Post-hoc mag men pas spreken van significantie indien < (= ) → < 0,017
3 𝑘
1
, → MAAR…Bonferroni soms te conservatief!
Voorwaarde 2: normaal verdeeld.
→ Indien bij Shapiro-Wilk staat in de kolom ‘sig.’ dat de waarden <0,05 is, dan is het
scheef verdeeld. We kijken ook naar QQ-plot of hier afwijkingen van de rechte zijn.
Indien er afwijkingen zijn dan is het ook volgens de QQ-plot scheef verdeeld.
→ Herinner: Centraal Limiet Theorema (CLT). Neemt men herhaaldelijk aselecte
steekproeven van n observaties uit een populatie met gemiddelde en
standaarddeviatie , dan zullen de steekproefgemiddelden (op voorwaarde dat n
groot genoeg is) zich bij benadering Gaussiaans verdelen met gemiddelde 𝑥̅ en SEM
𝑠
𝑛
. → Met andere woorden: als n groot genoeg is mag je aan de hand van CLT
√
parametrisch testen (ondanks dat het volgens Shapiro-Wilk en QQ-plot scheef
verdeeld is).
Voorwaarde 3: Varianties gelijk.
→ Dit kijk je na aan de hand van de Levene test.
→ De varianties zijn gelijk indien onder de kolom ‘sig.’, alle waarden groter zijn dan
0,05.
Indien aan alle voorwaarden is voldaan, ga je de ANOVA test doen.
Na het uitvoeren van de ANOVA test, krijg je in uw output een tabel waaruit je uw F-waarde
kan halen. Deze kan je ook zelf berekenen door het volgende te doen:
→ Je deelt de waarde van ‘sum of square’ door het aantal vrijheidsgraden (df). Dit doe
je zowel voor ‘between groups’ als ‘within groups’. Je bekomt dan de ‘mean square’.
Vervolgens deel je de ‘mean square’ van uw ‘between groups’ door de ‘mean square’
van uw ‘within groups’. Het getal dat je uitkomt is uw F.
𝑆𝑢𝑚 𝑜𝑓 𝑠𝑞𝑢𝑎𝑟𝑒𝑠
→ 𝑑𝑓
= 𝑚𝑒𝑎𝑛 𝑠𝑞𝑢𝑎𝑟𝑒
𝑚𝑒𝑎𝑛 𝑠𝑞𝑢𝑎𝑟𝑒 (𝑏𝑒𝑡𝑤𝑒𝑒𝑛)
→ 𝑚𝑒𝑎𝑛 𝑠𝑞𝑢𝑎𝑟𝑒 (𝑤𝑖𝑡ℎ𝑖𝑛)
=𝐹
F= het verschil tussen de verschillende groepen.
Indien onder de kolom ‘sig.’, alle waarden kleiner zijn dan 0,05, dan is het verschil significant.
Methode: Voor de analyse van een continue variabele (geboortegewicht (g)) en meerdere
ongepaarde groepen (leeftijd) werd de One Way ANOVA uitgevoerd. In geval van ongelijke
varianties werd de Brown Forsythe test geïnterpreteerd. Er werd tweezijdig getest bij alpha
=0.05.
Resultaat: Er is een significant verschil voor geboortegewicht (g) tussen de verschillende
leeftijdsgroepen (F(2, 4990)= 6,169; p=0.02).
Indien je bij ANOVA significantie hebt dan mag je post-hoc uitvoeren.
→ Je test ofwel aan de hand van Tukey ofwel aan de hand van Scheffe. Welke je kiest, is
een vrije keuze.
Resultaat: Uit de Tukey HSD gecorrigeerde post hoc testen blijkt dat het gemiddelde
geboortegewicht voor kinderen van moeders <25j lager is dan kinderen van oudere moeders.
Voor kinderen van moeders 25j-30j bedraagt het geschat verschil 60,6g (95% BI 11g;110g,
p=0.012) meer dan voor kinderen van moeders <25j. Kinderen van moeders >=30j wegen
geschat 73g (95% BI 27g; 123g, p=0.002) meer dan kinderen van moeders <25j.
Indien bij het noteren van je resultaat, de waarden in de tabel negatief zijn voor 95% BI, dan
kan je deze positief maken door de tekens weg te laten en de waarden te wisselen van
plaats.
→ Vb. 95% BI: -110; -11 → 95% BI: 11; 110.
Grafische weergave: boxplot.
2
, In de tabel zet je uw aantal (n), uw gemiddelde en uw standaarddeviatie. Hier wordt geen
mediaan en IQR gezet aangezien het parametrisch is.
Indien niet voldaan is aan voorwaarde 3 dus de varianties zijn niet gelijk, dan gaat men testen
aan de hand van de Brown-Forsythe ANOVA-test.
→ Men gaat eerst nagaan of de variabele continu is en of hij normaal verdeeld is. Dit is
dus hetzelfde zoals bij de One-Way ANOVA.
→ Resultaat: De Brown-Forsythe ANOVA-test gaf aan dat er een significant verschil was
voor geboortegewicht (g) tussen verschillende groepen qua ligging (F(3,
144,723)=12,676; p<0.001). Op basis van de Tamhane gecorrigeerde post hoc testen
kan men besluiten dat het gemiddelde geboortegewicht voor kinderen in
achterhoofdligging hoger is dan dat van kinderen in stuitligging’. Het geschat
gemiddeld verschil bedraagt 254g (95% BI 132g;376g, p<0.001) meer dan voor
kinderen in achterhoofdligging.
→ Grafische weergave: boxplot.
→ Kruskal-Wallis test
Wanneer de variabele niet normaal verdeeld is en dus niet is voldaan aan de voorwaarden
voor de one-way ANOVA.
Voorwaarde 1 niet voldaan: niet normaal verdeeld.
Methode: Voor de analyse van een continue variabele (geboortegewicht (g)) en meerdere
ongepaarde groepen (ligging) werd de Kruskal Wallis test uitgevoerd. Er werd tweezijdig
getest bij alpha =0.05.
Besluit: Een statistisch significant verschil werd gevonden tussen het geboortegewicht en de
ligging van het kind bij moeders die drie keer of meer zijn bevallen (H(3)=9,091, p=0.028.
Post-hoc analyse met Bonferroni-correctie toonde aan dat kinderen in andere ligging minder
wegen dan kinderen in achterhoofdligging (p=0.030). Tussen de andere groepen qua ligging
werd geen statistisch verschil gevonden.
In je output van SPSS kijk je bij ‘pairwise comparisons of…’ in de tabel enkel naar ‘Adj. Sig.a’ in
plaats van ‘Sig.’ omdat daar de Bonferroni correctie is op toegepast.
Indien je gebruik maakt van Legacy Dialogs, moet je manueel gaan kijken of de resultaten
significant zijn en dit is ZEER tijdrovend dus niet de meest ideale manier maar het kan wel.
Grafische voorstelling: boxplot.
In tabel zet je uw aantal (n), uw mediaan met uw IQR en uw min-max. Hier wordt geen
gemiddelde en standaarddeviatie gezet aangezien het niet-parametrisch is.
Ze raadt aan om de boxplot echt zelf te maken in plaats van deze te gebruiken die je
automatisch krijgt bij je nonparametrische test.
3
, Topic 4: ANOVA en Kruskal-Wallis
➢ Syntax file
4