Onderzoeksmethodologie en statistiek 3:
ANOVA’s en hun niet parametrische analogen
2e BACHELOR REVALIDATIEWETENSCHAPPEN EN KINESITHERAPIE
ACADEMIEJAAR 2022-2023
, ANOVA’s en hun niet-parametrische analogen
Voorkennis opfrissen:
Variantie + berekening van kwadratensommen (kijk hieronder)
Mann-Whitney U test
Niet-parametrisch testen!
Hoe in SPSS?
→ Analyze
→ Non-parametric tests
→ Legacy Dialogs
→ 2 Independent Samples
→ Onderaan Mann-Whitney U test aanduiden
Je kan automatisch hierbij beschrijvende statistiek opvragen bij options.
Let op:
- De data worden ordinaal behandeld.
- Er wordt gewerkt met mediaan ipv gemiddelde
Outcome:
- Mann-Whitney U
- Wilcoxon W
- Z
- Asymp. sig
- Verkiezen bij grotere steekproeven (N > 20)
- Exact Sig
- Verkiezen bij kleinere steekproeven (N ⩽ 20)
Wilcoxon rangtekentoets voor 2 steekproeven:
Verschil onderzoeken tussen 2 gepaarde steekproeven met een niet-parametrische test.
Hoe in SPSS?
→ Analyze
→ Non-parametric tests
→ Legacy Dialogs
→ 2 related samples
→ Wilcoxon is normaal standaard aangevinkt
Je kan automatisch hierbij beschrijvende statistiek opvragen bij options.
Outcome (test statistics):
- Z
- Asymp. Sig.
Combinatie (overbodig)
,ANOVA’s en hun niet-parametrische analogen:
Herhaling: parametrisch ⇔ niet-parametrisch
= We testen liefst parametrisch.
We testen niet-parametrisch als:
1) Het gaat over een nominale of ordinale variabele
2) Bij een scale variabele als de steekproeven heel klein zijn (<10)
3) Bij een scale variabele als de steekproeven klein zijn (<30 én ≥10) en de variabele
niet normaal verdeeld is (minstens in één groep) → nagegaan aan de hand van
Kolmogorov-Smirnov test
We testen parametrisch als:
1) Bij een scale variabele als de steekproeven (elke groep apart) voldoende groot zijn
(≥30)
2) Bij een scale variabele als de steekproeven niet groot genoeg zijn (<30 én ≥10) maar
de variabele wel normaal verdeeld is (in elke groep) → nagegaan aan de hand van
Kolmogorov-Smirnov test
,Herhaling: Niet-gepaard (onafhankelijk) ⇔ gepaard (afhankelijk)
Gepaard: Er bestaat een verband
- Data zijn gepaard als er tweemaal (of meer) bij dezelfde personen een meting
gedaan is.
→ Als mensen uit hetzelfde gezin komen, kan het zijn dat de metingen als voldoende
gepaard zijn om resultaten te gaan vertekenen.
Voorbeelden gepaard:
- Voorbeeld 1: Er is een nieuw apparaat op de markt dat bloeddruk kan meten. Wij
willen dit apparaat vergelijken met de huidige gouden standaard van
bloeddrukbepalingen m.b.v. een bloeddrukband. We hebben bij 30 patiënten de
bloeddruk bepaald, tegelijkertijd met het nieuwe apparaat én met de gangbare
bloeddrukband.
- Voorbeeld 2: Bij 10 patiënten wordt de bloeddruk gemeten vóór én 6 uur na
toediening van een geneesmiddel.
→ Indien de metingen betrekking hebben op dezelfde patiënten, dan zijn het geen
onafhankelijke metingen. Je hebt dan gepaarde metingen.
→ Als er sprake is van aparte, onafhankelijke groepen, dan zijn data niet-gepaard.
Voorbeelden niet-gepaard:
- Voorbeeld 1: Is de gemiddelde PPT-waarde (PPT = pressure pain thresholds) van de
rechterhand verschillend bij CVS patiënten versus controlegroep?
- Voorbeeld 2: De lengte van een groep vrouwen en een groep mannen werd bepaald.
We willen nu onderzoeken of er een verschil is in gemiddelde lengte tussen mannen
en vrouwen.
Indien de metingen betrekking hebben op verschillende groepen, dan zijn het onafhankelijke
metingen. Je hebt dan niet-gepaarde metingen.
Herhaling: p-waarde
- Testen met overschrijdingskans
- p > α: nulhypothese H0 behouden
- p < α: nulhypothese H0 verwerpen en de alternatieve hypothese H1 aanvaarden
- Significantie α = 0,05 = 5% indien niet vermeld in de opgave
- Dus ook maar 5% kans dat we een type 1 fout maken
- Andere waarden van α zijn mogelijk → wordt expliciet vermeld in opgave
- Alternatieve manier van testen:
- Testen met kritieke waarden
- Testen met betrouwbaarheidsintervallen
,Testen: Voorbeeld 1:
- Kolmogorov-Smirnov test
- One-way ANOVA (parametrisch testen)
→ eigenlijk is het de N-way ANOVA, waarbij de N staat voor het aantal factoren
- ANOVA = Analysis of variance (meerdere soorten variantie definiëren)
- Variantie = spreidingsmaat, hoe verspreid metingen kunnen zijn tov het gem.
- (= standaardafwijking is de vierkantswortel van de variantie)
- We kennen tot nu toe 1 variantie: formule voor steekproefvariantie:
Er wordt hier een verschil genomen van alle meetwaarden min het
gemiddelde, tot de 2e macht. Hier wordt een som van genomen voor alle
meetwaarden. Uiteindelijk gaan we delen door N - 1 (N - 1 noemt men ook
het aantal vrijheidsgraden).
→ Voorbeeld om ANOVA te introduceren:
Aan de hand van eenvoudige dataset begrippen uitleggen.
8 proefpersonen met meetwaarden. Elke proefpersoon behoort tot
een groep (1, 2 of 3).
We gaan het gemiddelde van alle scores bepalen (alles optellen
en delen door het aantal) = 23,375
→ xi - 𝑥
- vb 1: 23 - 23,375 = - 0,375 (minteken betekent dat de
meting onder het gemiddelde ligt, dit is een deviatie)
We willen eigenlijk alle deviaties bij elkaar gaan optellen, maar dan
botsen we op een probleem doordat de positieve en negatieve
deviaties elkaar kunnen opheffen.
Oplossing: als we het kwadraat nemen van de deviatie, wordt dit
positief.
Als je dan de kwadraten van alle deviaties optelt, krijg je een ‘sum
of squares’ = som van kwadraten
→ In deze databank komen we op 263,875 opgeteld
Deze som of squares delen door (het aantal proefpersonen - 1) ⇒
uitkomst dan is de variantie
Maar wat met die groepen = dat is nieuwe leerstof!
→ Je kan zien hoe het zit binnen elke groep. Je kan dan het
groepsgemiddelde bepalen. Met ANOVA kan je onderzoeken of er
echt een verschil is tussen de groepen of dat dit is door toeval.
, - 2e soort variantie kennen = 2e soort som van kwadraten nodig
→ SSW = sum of squares within (binnen elke groep)
= Hoe ver liggen de meetwaarden van de eerste groep af van het
groepsgemiddelde en dit dan kwadrateren
→ Voorbeeld voor SSW:
Groep 1 (bestaat uit de 3 eerste proefpersonen) :
- Groepsgemiddelde: (23 + 25 + 18) / 3 = 22
- Deviaties:
- Deviatie van proefpersoon 1 in het kwadraat: (23-22)²
- Deviatie van proefpersoon 2 in het kwadraat: (25 -
22)²
- Deviatie van proefpersoon 3 in het kwadraat: (18 -
22)²
→ Optellen van alle deviaties van alle groepen: (23-22)² + (25 - 22)²
+ …. = 244
⇒ Dit geeft een maat van de spreiding van u meetwaarden, maar
wel binnen elke groep.
Als iedereen dezelfde meetwaarde binnen zijn groep zou hebben,
zal het gemiddelde ook hetzelfde zijn en zou de deviatie overal 0
worden. Ook de sum of squares zal dan 0 zijn.
- 3e soort variantie: SSB = Sum of squares between
→ onderzoeken of er een spreiding zit tussen de groepen
= Hoeveel liggen de groepsgemiddelden af van het totale gemiddelde
→ Voorbeeld voor SSB:
Groepsgemiddelden:
- Groep 1: (23 + 25 + 18) / 3 = 22
- Groep 2: (29 + 19 + 21) / 3 = 23
- Groep 3/ (35 + 17) / 2 = 26
Groepsgemiddelden per proefpersoon aftrekken van het totale
gemiddelde en dit in het kwadraat:
- We doen dit per proefpersoon om te laten meewegen
hoeveel mensen er in de groep zaten
→ (22 - 23,375)² + (22 - 23,375)² + (22 - 23,375)² + (23 - 23,375)² +
(23 - 23,375)² = (23 - 23,375)² + (26 - 23,375)² + (26 - 23,375)² =
19,875
Als alle groepsgemiddelden hetzelfde zouden zijn, zal er geen
spreiding zijn tussen de groepen. Dan zal je een SSB van 0 hebben.
Wat moet je onthouden van al deze varianties? Vroeger kenden we maar 1 soort
variantie, nu voegen we 2 kwadraten sommen toe en kunnen we dus 2 nieuwe
varianties definiëren
- Post hoc analyse
,Database Cholesterol
Gegevens + onderzoeksvraag:
Er werd een observationeel cross-sectioneel cohortonderzoek uitgevoerd waarbij de
cholesterolconcentratie in het bloed werd gemeten (N = 100).
- We zien dat het aantal proefpersonen meer is dan 30, dus we mogen parametrisch
testen (want we gaan er dan van uit dat deze normaal verdeeld zijn)
- MAAR we moeten hier kijken naar de groepen, deze moeten allemaal boven de 30
personen zijn.
→ ‘split file: compare groups’ + beschrijvend onderzoek om dit te onderzoeken
Naast de cholesterolconcentratie werden ook de variabelen leeftijd, geslacht, roken en
alcoholgebruik voor alle proefpersonen opgelijst. Kijken in variable view:
- Geslacht:
- Vrouw = 0
- Man = 1
- Alcoholgebruik:
- 0 = niet drinken
- 1 = 1-2 glazen per dag
- 2 = meer dan 2 glazen per dag
→ Hiervan kijken of er een verschil is in cholesterolconcentratie (significant)
Onderzoeksvraag:
- Is er een verschil in cholesterolconcentratie in bloed tussen de 3 groepen
alcoholgebruikers?
→ je gaat kijken hoe dicht iedereen ligt tegen het gemiddelde of dat er meer
spreiding is
One-way ANOVA (niet gepaard en parametrisch)
- Analoog aan een niet-gepaarde of onafhankelijke t-test maar dan voor meer dan 2
groepen
- Om op basis van drie of meer onafhankelijke steekproeven te testen of gemiddelden
van drie of meer groepen (populaties) aan elkaar gelijk zijn
- H0 : µ1 = µ2 = … = µn
- Nulhypothese = alle gemiddelden van de groepen zijn hetzelfde
- Hier is H0 = alcohol gaat geen invloed hebben op cholesterolconcentratie
→ Dus bij kleiner als 0,05 nulhypothese verwerpen
- Niet-parametrisch analoog: Kruskal-Wallis test
,Berekening aan de hand van SPSS:
Via beschrijvende statistiek kunnen de aantallen per groep opgevraagd worden:
→ Data
→ Split file op variabele alcohol
→ Compare groups + group based on alcohol
→ Analyze
→ Descriptive Statistics
→ Descriptives
- N1 (niet drinkers) = 40
- N2 (matige drinkers) = 38
- N1 (zware drinkers) = 22
→ K-S test uitvoeren voor de laatste groep,
want deze groep heeft minder dan 30
proefpersonen.
⇒ Je ziet al wel dat er een verschil is tussen de
gemiddelden, maar om te weten of dit verschil
significant is moet je nog een statistische toets doen.
,K-S test: berekening aan de hand van SPSS:
- K-S test uitvoeren (split file per groep!!!)
- Bij K-S test: H0 = de verdeling van de
variabele is normaal verdeeld
- In SPSS: Analyze
- Nonparametric Tests
- Legacy Dialogs
- 1-Sample K-S
- Cholesterol
- Vergelijken met normaalverdeling: ‘normal’
aanduiden
- Voor elke groep p > 0,05 (kijken naar Asymp.
sig 2 tailed)
⇒ H0 (dat het normaal verdeeld is) behouden
⇒ de variabele cholesterol is normaal
verdeeld
⇒ We kunnen parametrisch testen, dus we
mogen de One-Way ANOVA gebruiken
, Hoe komen we op de N-way ANOVA test?
Vraag 1:
- Testen we een verschil: JA
Vraag 2:
- 1 steekproef met constante vergelijken?: NEE
Vraag 3:
- 2 steekproeven?: NEE
Vraag 4:
- Gepaard?: NEE
Vraag 5:
- Parametrisch testen?: JA
→ We komen op N-way ANOVA
- n = aantal factoren dat we willen onderzoeken
- Hier 1 factor dus One-Way ANOVA
Berekening aan de hand van SPSS:
→ In SPSS: Analyze
> Compare Means
> One-Way ANOVA…
OPGELET: Split file afzetten!!!
Alcoholgebruik als factor omdat hierop de groepen zijn
verdeeld.