HO 2: ONE-WAY ANOVA
Dataset depressie (medicatie vs cognitieve therapie vs placebo), exploratie van gegevens, notaties,
nulhypothese toetsen dat in populatie drie gemiddeldes aan mekaar gelijk zijn en dat het dus niet
uitmaakt of er nu therapie gegeven wordt of niet.
Om dit te toetsen: ANOVA F toets ontwikkelen. Dit doen we in 4 stappen:
1) Modellen definiëren en beslissen welke we kiezen (obv teststatistiek)
2) Keuze teststatistiek
3) Verdeling onder nulhypothese
4) Effectgrootte
1. Modellen definiëren
We hebben een uitgebreid en een beperkt model.
Uitgebreid: de groepsgemiddelden kunnen van mekaar verschillen op populatieniveau
Beperkt: ze kunnen niet verschillen
Die twee modellen gaan we met elkaar vergelijken:
Parameters schatten van beide modellen en foutenkwadraten sommen berekenen (SSE) = geven in 1
getal weer hoe groot de fout is dat de modellen maken (tussen wat ze schatten en de ‘waarheid’)
- SSE van beperkt model is altijd groter of gelijk aan SSE van uitgebreid model (uitgebreid is
flexibeler, telt meer parameters en ligt dus ook dichter bij de gegevens)
o SSE’s vergelijken (van elkaar aftrekken --> SSEff, effect kwadratensom)
- SSEff = verschil tussen foutenkwadratensommen = hoe veel kan ik de SSE van het beperkt
model naar beneden drijven door rekening te houden met de groepsindeling (SSE full)? Want
als de groepsindeling er eigenlijk niet toe doet dan gaat SSEff klein zijn (nulhypothese waar,
wint niet veel door met groepsindeling rekening te houden). MAAR wat is klein? SSEff op
zichzelf niet zo’n interessante maat want hangt sterk af van hoe de gegevens gedefinieerd zijn
(als we alles x10 doen dan gaat het ook veranderen)
o SSEff altijd groter dan of gelijk aan 0! (omdat uitgebreid model altijd een kleinere
SSE heeft)
MAAR dit is op zich geen voldoende basis om de vergelijking te doen. We moeten ook rekening
houden met hoe complex de modellen zijn.
De complexiteit drukken we uit door te kijken naar het aantal parameters en verder redenerend naar
het aantal vrijheidsgraden te kijken (df).
- df = aantal observaties min aantal geschatte parameters
o Hoe groter aantal parameters --> df kleiner --> complexer model
Df gebruiken we ook voor het berekenen van de gemiddelde kwadratensommen (MSE).
,Er is ook een alternatieve manier om naar het uitgebreide model te kijken (alternative
parameterization). Ipv verschillende gemiddelden is er dan 1 groepsgemiddelde (zoals bij beperkt),
maar je geeft effectparameters mee (alpha’s) vb alpha is +5 wil zeggen dat die groep 5 afwijkt
(positief) van het groepsgemiddelde. Deze alpha’s sommeren tot 0! Dus deze manier is niet
complexer, omdat we niet per se alle alpha’s in de formule moeten gebruiken (dus niet per se meer
elementen in de formule), want je weet wat de andere alpha’s zijn op basis van een paar (omdat ze
sommeren tot 0).
Keuze teststatistiek
Teststatistiek berekenen obv de data. De grootte hiervan bepaalt of we het beperkt model verwerpen of
aanvaarden. We gebruiken hiervoor de F-statistiek.
- Teller: MSEff → variabiliteit TUSSEN groepen: verschillen tussen groepsspecifieke
steekproefgemiddelden en gobale gemiddelde (dus teller is sensitief aan verschillen die per
toeval tot stand gekomen zijn maar ook aan systematische verschillen, want als er echt een
effect is gaan de groepsgemiddelden ook veel verschillen van het globale gemiddelde)
- Noemer: MSEfull → variabiliteit BINNEN groepen: verschillen tussen elke individuele score
en het corresponderende gemiddelde van die groep (enkel gevoelig voor random fluctuaties,
het maakt niet uit hoeveel de groepen van mekaar verschillen)
Hoe groter de tussengroepsvariabiliteit (teller), hoe groter F.
Je kan ook de verwachte waarde van de MSE uitrekenen (is eigenlijk hetzelfde maar op een andere
manier gebracht). Doen we verderop niet meer, maar ze laten goed zien wat er aan de hand is.
- Als we die van de noemer van F berekenen (E(MSEfull)): sigma kwadraat. Als we gaan
terugkijken naar het uitgebreid model, is dit de variantie van de systematische fout, dus
eigenlijk de variantie van de scores binnen de groepen (maar dan samengenomen, want we
veronderstellen dat elke groep dezelfde variantie heeft). Stel dat we experiment telkens
herhalen en telkens de MSEfull berekenen, kunnen we al die MSE’s middelen en dan zouden
we uitkomen op sigma kwadraat. Dit wil zeggen dat wat in de noemer van F staat, dienst kan
doen als een schatting van sigma kwadraat. → nog eens bevestiging dat noemer enkel
gevoelig is aan binnengroepsvariabiliteit (want dat is wat de variantie is)
- Die van de teller van F (E(MSEff)): sigma kwadraat (binnengroepsvariantie) +
tussengroepsvariantie (als verschillen groot zijn tussen groepen, dan gaat deze term ook groot
zijn)
o Als er geen verschil is tussen groepen (nulhypothese waar), zal deze tweede term 0
zijn → teller van F is gelijk aan de noemer (allebei sigma kwadraat) ➔ F rond 1
o Als er wel verschillen zijn tussen groepen (nulhypothese vals), zal deze tweede term
groter zijn dan 0 → teller van F is groter dan de noemer ➔ F groter dan 1
,3. Verdeling onder nulhypothese
Nu hebben we F, dus 1 getal dat niet meer gevoelig is aan het schalingsprobleem. Maar nu hebben we
nog een beslissingsregel nodig om het getal te interpreteren (vb F = 3.67, wat moeten we hiermee?).
Als we de experimenten een aantal keer zouden herhalen en er telkens een F van nemen, krijgen we
een SP verdeling te zien van de F onder de nulhypothese (F a-1, n-a). Dan nemen we de F van onze
geobserveerde SP (vb 3,64) en kijken we waar die ergens ligt op de verdeling. Als die in het grote vlak
ligt, is het een waarde die veel voor kan komen. Ligt die helemaal in de staart, hebben we een
uitzonderlijke gebeurtenis geobserveerd.
In zo’n verdeling is de kans om een exacte waarde (vb 3,64) te observereren 0, want het is een
continue verdeling. Kan wel zeggen: wat is de kans om die waarde of extremer te observeren? (p-
waarde, waarde die rechts ligt van vb 3,64)
- p = kans om een waarde te observeren die groter is dan wat ik geobserveerd heb, gegeven dat
de nulhypothese waar is
o Als nulhypothese waar: geen verschillen tussen groepsgemiddelden (vb therapie
verschilt niet van placebo).
Hoe zo’n p-waarde interpreteren? → Fisher (continue) vs Neyman-Pearson (binair, vastgesteld aan een
alpha van 0,05 of 0,01; minder rekening met complexiteit maar beter om onderzoek te plannen vb
Power)
Effectgrootte
Zonder effectgrootte is analyse niet compleet. Mensen willen weten hoe groot het effect is. Als je
bijvoorbeeld een zeer klein effect hebt, maar genoeg mensen in je studie, dan kan je het oppikken met
een significant resultaat (ook al heeft het niet echt een groot effect).
Hoe kan je die ^R kwadraat begrijpen?
Er zijn 3 kwadratensommen (SSTot, SSEff, SSEfull), die allemaal iets zeggen over een ander stuk
variabiliteit
- SSTot: zegt iets over wat de te verklaren variabiliteit is (scores tov het globale gemiddelde, we
zien variaties in scores in het experiment en dat is de variabiliteit waarmee we aan de slag
gaan, die we moeten verklaren)
- SSEfull: hoeveel variabiliteit er nog binnen de groepen overblijft (scores tov
groepsgemiddelde, variabiliteit die onverklaard gebleven is), scores verschillen binnen een
groep door random fluctuaties (weten niet waarom)
- SSEff: enige dat we kunnen verklaren in het experiment is dat we een groepsindeling hebben
→ verklaarde variabiliteit
,^R kwadraat = proportie verklaarde variabiliteit (hoeveel van de totale variabiliteit hebben we
verklaard met onze factor?)
Deze ^R kwadraat heeft een belangrijk nadeel, namelijk dat het een onzuivere schatter is van de
werkelijke proportie verklaarde variantie in de populatie (want zelfs indien het beperkt model opgaat
en er dus geen effect is van de groepen, ga je een ^R kwadraat vinden die verschilt van 0 en meestal
groter is) → omega kwadraat (iets ingewikkelder formule, betere schatter maar kan soms wel negatief
uitdraaien)
Schattingen van proportie verklaarde variantie hebben geen meeteenheid, zitten tussen 0 en 1. Wat is
dan een groot en een klein effect? → vuistregels
F-waarde kan niet dienen als schatting van effectgrootte, want zowel F als p-waarde afhangen van
grootte van het effect als de steekproefgrootte. Dus zelfs al is er een heel klein effect en je neemt maar
genoeg observaties dan ga je altijd wel iets significants vinden.
Bij de effectgrootte geven we ook altijd een betrouwbaarheidsinterval mee (hoe zeker kunnen we zijn
van de effectgrootte?). Het is namelijk belangrijk dat je aangeeft hoe groot de onzekerheid is bij
hetgene dat je rapporteert, zeker voor latere meta-analyses. Er zijn geen eenvoudige formules voor
betrouwbaarheidsintervallen, dus die moet je adhv simulaties bepalen (zie HO 5).
Een ANOVA F-test geeft dus weer of er verschillen zijn tussen groepen, maar niet hoe de verschillen
juist zijn.
Bij dit experiment kunnen we concluderen dat het een causaal effect is (want per toeval toegewezen
aan groepen, RCT). MAAR dit heeft alles te maken met de opzet van het experiment en niks met de
variantie-analyse (ANOVA). ANOVA leidt niet per definitie tot de conclusie van een causaal effect!
HO3: CONTRASTEN
Zelfde voorbeeld van MDD. We keken naar het verschil tussen het gemiddelde van de twee
behandelingsgroepen (algemeen behandelingseffect) en de placebogroep (medicatie en CT vs
placebo). Dit verschil was een gepland contrast en wordt geschat op -1,98 punten op de HDRS. Dit
verschil tussen de behandelingsgroepen en de placebogroep is negatief, dus wil zeggen dat de
placebogroep hoger zit dan de behandelingsgroepen (placebo scoort hoger op HDRS dus zijn
depressiever) → positief effect van behandelingen. Als we de behandelingsgroepen - de placebogroep
doen en het resultaat is negatief, wil dat dus zeggen dat het gemiddelde van de placebogroep hoger
was (want een klein getal - een groter getal = negatief resultaat).
Dit was een stuk dat gepland was, op voorhand door onderzoekers bedacht van ‘dat gaan we
evalueren’ (hypothese voor data gezien). Er zijn ook analyses die achteraf gekomen zijn, dus
, exploratief van aard → paarsgewijze verschillen (vb behandeling vs medicatie). De paarsgewijze
verschillen kan je ook in een figuur weergeven met simultane betrouwbaarheidsintervallen (zie
lijntjes): enkel voor het bovenste verschil omvat het betrouwbaarheidsinterval niet 0, dus waard om
eens naar te kijken.
Bij deze beschrijving van de analyse zijn ook weer een aantal beperkingen, bijvoorbeeld de missing
data (zelfde als bij ANOVA). Nog een limitatie is dat je als je een rapport leest, niet kan nagaan of de
geplande contrasten wel werkelijk op voorhand bedacht zijn (in ideale wereld zou je die allemaal
preregistreren). Er is namelijk een groot verschil in status tussen hypothesen die je op voorhand hebt
vastgelegd en hypothesen die worden gevormd adhv exploratie van de data.
Contrasten zijn specifieke vergelijkingen die je doet tussen groepen van je experiment.
- Paarsgewijs contrast: verschil tussen gemiddelden van twee condities (vb gemiddelde van
medicatie vs gemiddelde van CT) → hier: vergelijking van behandelingen met elkaar
- Complex contrast: verschil tussen gemiddelden van twee condities en het gemiddelde van de
derde conditie (vb gemiddelde van medicatie en CT vs gemiddelde van placebo) → hier:
vergelijking van behandelingen met placebo
Formeler: een contrast is een lineaire combinatie van steekproefgemiddelden, zodat de coëfficiënten
waarmee we die SP gemiddelden wegen sommeren tot 0. Deze coëfficiënten (Cj’s) moeten we kiezen
en gebruiken we om de contrasten te berekenen.
Als we de contrasten berekend hebben, krijgen we een getal. Dit is de steekproefwaarde (g), die we
kunnen gebruiken als schatting voor de populatiewaarde (gamma).
Je hebt een gepland contrast (op voorhand vastgesteld) vs posthoc contrast (pas na data bekeken te
hebben). Je kan ook verschillende contrasten doen (zowel gepland als posthoc).
1 gepland contrast
We beginnen met het simpelste: 1 gepland contrast (vb verschil tussen behandelingsgroepen en
placebogroep). Deze hebben we geschat op -1,98 dus ongeveer een verschil van 2 punten op de
HDRS. MAAR enkel deze schatting is niet voldoende info om conclusies te trekken! We moeten ook
mate van onzekerheid geven. Hiervoor moeten we de SP verdeling weten: als we herhaaldelijk het
experiment opnieuw zouden doen en telkens hetzelfde contrast berekenen, hoe ziet de verdeling van g
er dan uit?
- Zien dat g gedefinieerd is in termen van SP gemiddelde van (in dit geval) 3 groepen en die
groepen hebben niks met elkaar te maken (allemaal andere patiënten die niks met elkaar te
maken hebben) → alle data onafhankelijk (in dit experiment!)
- Alle data (elke score) komen uit normaalverdeling