Analysis of covariance (ANCOVA):
Dit hoofdstuk bouwt verder door op ANOVA. Het gaat ook om het vergelijken van
situaties/gemiddelden, waarbij je rekening houdt met variabele(n).
Wat is ANCOVA?
Wanneer gebruik je ANCOVA: De regressievergelijking van een ANOVA kan uitgebreider worden met
1 of meer continue variabelen die de uitkomst voorspellen. Zulke continue variabelen die geen deel
zijn van de hoofd-experimentele manipulatie, maar wel een invloed hebben op de afhankelijke
variabele, heten covariaten en deze kunnen in de ANOVA analyse worden opgenomen. Als we
covariaten meten en deze in de analyse van de variantie gooien heet dit ANCOVA. Als we het
voorbeeld van viagra nemen, zijn er nog veel meer variabelen (covariaten) die invloed hebben op het
libido, zoals medicatie etc. Hier kun je controle op uitoefenen. Als we eerst een covariaat in het
regressie model opnemen en dan de dummy variabelen(experimentele manipulatie), dan kunnen we
zien wat voor invloed een onafhankelijke variabele heeft na het effect van de covariaat. We partial out
het effect van de covariaat. Er zijn 2 redenen voor het erin opnemen van covariaten in ANOVA:
1. Within-group error variantie verminderen We vergelijken altijd de variantie die we kunnen
verklaren met de variantie die we niet kunnen verklaren. Als we iets kunnen verklaren van de
onverklaarde variantie(SSR) in termen van andere variabelen (covariaten), dan kunnen we de error
variantie verminderen. Zo kunnen we dus nauwkeuriger beoordelen wat het effect is van de
onafhankelijke variabele (SSM).
2. Eliminatie van confounds In elk experiment zitten ongemeten variabelen die de resultaten
confounden. Als variabelen invloed hebben op de afhankelijke variabele, dan is ANCOVA een goede
oplossing om bias van deze variabelen te verwijderen. Zodra een confounder is gevonden, kan het
gemeten worden en in de analyse worden opgenomen als een covariaat.
ANCOVA and the general linear model: Stel dat we weer het viagra voorbeeld nemen. Een covariaat
die invloed kan hebben op het libido is de invloed van de seksuele partner. Als je partner bv seks
initieert kan je libido omhoog gaan en dit verstoort het effect van viagra op libido. De
regressievergelijking kan dus worden uitgebreid:
Libidoi = b0+b3Partners libidoi+b2Highi+b1Lowi+errori
We kunnen de gemiddelden van de verschillende groepen vergelijken in termen van een lineair model
waarin de groepen gecodeerd worden als dummy variabelen high en low. Hoog neemt dan de
waarde 1 aan in de hoge groep, laag neemt alleen de waarde 1 aan in de lage groep. We kunnen
ANCOVA dus zien als een uitbreiding van het model waarin de covariaat wordt toegevoegd als
predictor aan het model. Dit model test dan verschillen tussen groepsgemiddelden aangepast op de
covariaat. Je kan dmv regressie in SPSS begrijpen wat je doet, maar in principe gebruik je nu een
andere test. Bij regressie zou je bv kunnen zien hoe goed het eerste model verklaart als alleen de
covariaat erin zit en vervolgens een model waarbij de dummy variabelen erbij komen. De b-waarden
voor de dummy variabelen zijn de verschillen tussen de adjusted means(dus gemiddelde hoeveelheid
libido voor elke groep op het gemiddelde niveau van de partners libido). Dit is alleen om te laten zien
dat ANCOVA in principe gewoon regressie is, maar we voeren het dus anders uit in SPSS.
12.3 Assumpties en issues bij ANCOVA:
ANCOVA is een lineair model en dus zijn hierbij alle mogelijke bronnen van bias uit hoofdstuk 5 van
toepassing. Echter zijn er 2 belangrijke toevoegingen: 1) Onafhankelijkheid van de covariaat en
behandeleffect, en 2) homogeniteit van de regressie slopes.
12.3.1 Independence of the covariate and treatment effect Zoals al eerder gezegd kun je de totale
variantie (van bv libido) opdelen in twee delen: verklaarde variantie en onverklaarde variantie. Om
ANVOCA te mogen uitvoeren is het belangrijk dat de covariaat overlapt met de ONverklaarde
,variantie. Alleen dan is het gepast om een ancova uit te voeren. Vaak gebruikt men echter ancova in
een situatie waarin het niet mag: hierbij overlapt de covariaat met de verklaarde variantie(met het
behandeleffect dus), zie blz 485. Dit is problematisch want hierdoor is het experimentele effect
confounded met het effect van de covariaat, waardoor de covariaat het experimentele effect
vermindert omdat het variantie verklaart dat normaal gesproken aan het experiment wordt
toegeschreven. In dat geval zijn ze afhankelijk, terwijl ze onafhankelijk moeten zijn. Hierdoor is
interpretatie niet meer mogelijk. Vaak wordt dit probleem slecht begrepen en genegeerd. Het
belangrijke punt hierbij is dat wanneer behandelgroepen verschillen in de covariaat, je geen
verschillen eruit haalt als je de covariaat meeneemt in je analyse. Dit gebeurt vooral als men niet
willekeurig is toegewezen aan condities. BV: angst en depressie zijn nauw gerelateerd, dus als je een
angstige groep wil vergelijken met een niet-angstige groep, dan heb je grote kans dat de angstige
groep ook depressiever is. Depressie toevoegen als covariaat helpt hierbij niet, want je kijkt dan
alsnog niet naar het pure effect van angst. Depressie pakt dan namelijk variantie weg van angst. Dit
geldt bv ook voor leeftijd. Ancova moet je dan niet gebruiken. Door proefpersonen random toe te
wijzen aan groepen of experimentele groepen te matchen op de covariaat(laag op angst en hoog op
depressie), kan het probleem verhelpen. We kunnen ook checken of het een probleem is door te
kijken of de experimentele groepen verschillen op de covariaat voordat we de analyse doen: dit kan
door anova of t-test. Als de groepen dan bv niet verschillen op depressie(niet significant) dan kunnen
we depressie als covariaat gebruiken.
12.3.2 Homogeneity of regression slopes Als we een ANCOVA hebben uitgevoerd, kijken we naar
de algehele relatie tussen de uitkomst en de covariaat: we maken een regressielijn van de dataset,
onafhankelijk van bij welke groep je hoort. We nemen dus aan dat de algehele relatie geldt voor alle
groepen. Deze assumptie heet homogeniteit van de regressie slopes. Om deze assumptie te testen
maak je voor elke groep een scatterplot met de covariaat op x-as en de uitkomst op y-as. Als er aan
de assumptie wordt voldaaan, zien ze er ongeveer hetzelfde uit. De relatie tussen uitkomst en
covariaat moet dus in elke groep hetzelfde zijn. Soms echter verwacht je juist verschillen in regressie
slopes, bv als je iets op verschillende locaties test. Heterogeniteit van regressie slopes op zich is dus
geen slecht ding. Als je niet voldoet aan deze assumptie of als het een interessante hypothese is, dan
kun je dit gebruiken dmv multilevel linear models. Als er niet aan wordt voldaan gaat je type I fout
omhoog en is de power niet maximaal, vooral als de groepsgroottes niet gelijk zijn en de slopes meer
dan .4 verschillen.
What if we violate assumptions? In H5 kwam het al aan bod. We kunnen bootstrap gebruiken voor de
model parameters en post hoc tests.
ANCOVA in SPSS:
Allereerst kijken naar je data, dus checken op outliers, normaliteit, homogeniteit etc door middel van
boxplots, histogram, descriptives. Hier eventueel voor corrigeren. Vervolgens checken op
onafhankelijkheid van de behandelvariabele en covariaat. Vervolgens de ANCOVA uitvoeren en testen
op Levene's test. Als er een significante uitkomst is, kun je afhankelijk van of je wel of geen specifieke
hypotheses had van tevoren kijken naar planned comparisons of post hoc tests. Check hiervoor wel
de homogeniteit van regressie slopes. Als dit wordt geschonden gebruik je een multilevel model. Aan
het einde bereken je effect sizes.
In SPSS: Analyze General linear model Univariate.
Contrasten Je kan niet op post hoc klikken als je een covariaat hebt gespecificeerd. Klik daarom op
contrasts. Klik op 'simple' en kies de variabele waarmee je alles wil vergelijken en dan op change.
Vergeleken met hoofdstuk 11 one-way anova is het nu niet mogelijk om de contrasten te specificeren.
In principe kan dit via het regressie menu voor een ancova als je dit zou willen.
Andere opties: Je kan een beperkt aantal post hoc tests krijgen door opties. Sleep de onafhankelijke
, variabele naar display means for. Selecteer de optie 'compare main effects'. Je kan dan uit 3 soorten
post hoc kiezen, waarbij Sidak handig is (en anders Bonferroni). Je kunt ook weer descriptives
opvragen, estimates van effect size(zoals partial eta squared), observed power, parameter estimates,
contrast coëfficiënt matrix, homogeniteit tests(Levene's), spread vs level plot en residual plot.
Bootstrapping en plots: Ook hierbij kun je de BI's bootstrappen.
Interpreteren van de ANCOVA ouput:
Wat gebeurt er als de covariate er niet in wordt opgenomen? Zichtbaar is dat het resultaat van het
totale model dan niet significant is.
De hoofdanalyse: Bij ANCOVA is het belangrijk dat er homogeniteit is van de residuals, en dat is
echter niet wat Levene's test onderzoekt. De output die je verder krijgt lijkt op ANOVA, behalve dat er
nu ook informatie is over de covariaat. Je kan de output met de covariaat vergelijken met die van
zonder de covariaat. Het kan bv zo zijn dat de covariaat significant verklaart, maar dat de
onafhankelijke variabele dat ook doet. Het er wel in opnemen van de covariaat zorgt er dan voor dat
de onafhankelijke variabele meer gaat verklaren dan wanneer de covariaat weg is. De hoeveelheid
totaal verklaarde variantie verandert dan natuurlijk niet, maar wel hoe de totale variantie wordt
verklaard. ANCOVA is dus een manier om strengere experimentele controle uit te oefenen door
confounders onder controle te houden. Dit geeft ons een meer pure meting van het effect van de
experimentele manipulatie.
De df vor de t-test van de b-parameters is N-p-1. Kijk naar bootstrap for parameter estimates voor de
aangepaste beta's.
Interpreteren van de covariaat: De parameter estimates vertellen ons hoe we de covariaat moeten
interpreteren: de richting van de b-waarde vertelt ons de richting van de relatie tussen de covariaat en
uitkomst. Dit kun je ook door middel van een scatterplot zien.
Testen van de assumptie van homogeniteit van de regressie slopes: Klik bij de ANCOVA op
'model' en custom. We moeten een model maken die de interactie weergeeft tussen covariaat en
onafhankelijke variabele. Ook moeten de hoofdeffecten erin. Je doet de onafhankelijke en covariaat
erin en kiest 'main effects' in de box, vervolgens selecteer je de interactieterm covariaat*
onafhankelijke en kies dan 'interactie' in de box. We krijgen dan een output tabel waarin de
interactieterm het belangrijkste is. Als het effect significant is, is de assumptie geschonden.
12.7 Berekenen van de effect size: We kunnen eta square gebruiken voor ANOVA als effect size,
wat eigenlijk gewoon r2 is, berekend door het effect(SSM) te delen door de hoeveelheid variantie(SST).
Bij ANCOVA hebben we meer dan 1 effect, dus kunnen we eta squared berekenen voor elk effect.
Echter kunnen we ook een effect size meting gebruiken, namelijk partial eta squared. Het verschil
met eta squared is dat het niet kijkt naar de proportie van de totale variantie die een variabele
verklaart, maar naar de proportie variantie die een variabele verklaart die niet verklaard wordt door
andere variabelen in de analyse. In het viagra voorbeeld is het bv de proportie variantie in libido die de
dosis viagra deelt, die niet wordt toegeschreven aan partners libido(covariaat).
De variantie die de covariaat dan niet kan verklaren zijn 2 bronnen: het kan de variantie niet verklaren
die aan de dosis viagra toegeschreven kan worden(SS Viagra), en het kan niet de error variantie
verklaren(SSR). Dus gebruiken we deze 2 bronnen van variantie in plaats van de totale variantie SS T.
Dus het verschil tussen eta squared en partial eta squared:
Eta squared = SSeffect/ SStotal
Partial eta squared = SSeffect / SSeffect + SSresidual.
Je hebt dus de SS nodig van het effect, de covariaat en de error, zodat je de partial eta squared kan
berekenen van het effect en de covariaat. SPSS kan deze direct geven.