CHAPTER 13: GLM 2: COMPARING MEANS ADJUSTED FOR OTHER PREDICTORS
(ANALYSIS OF COVARIANCE – ANCOVA)
Het lineaire model om gemiddelden te vergelijken kan worden uitgebreid met een of meer continue
variabelen die de uitkomst (of afhankelijke variabele) voorspellen. Wanneer de belangrijkste focus van
het model ligt op het vergelijken van gemiddelden (misschien van verschillende experimentele
groepen), worden deze extra voorspellers in het model soms covariaten genoemd. Deze vorm van het
lineaire model wordt ook wel analyse van covariantie genoemd (of kortweg ANCOVA). Als deze
variabelen (de covariaten) worden gemeten, dan kan worden gecorrigeerd voor de invloed die ze
hebben op de uitkomstvariabele door ze op te nemen in het lineaire model.
Uit wat we weten over hiërarchische regressie (H9) zou het duidelijk moeten zijn dat als we eerst de
covariabele in het model invoeren en vervolgens de dummyvariabelen invoeren die de
groepsgemiddelden vertegenwoordigen (bijvoorbeeld de experimentele manipulatie), we kunnen zien
welk effect een voorspellende variabele heeft, gecorrigeerd voor het effect van de covariabele. In
wezen voorspellen we de uitkomst niet op basis van groepsgemiddelden, maar op basis van
groepsgemiddelden die zijn gecorrigeerd voor het effect van covariabele(n).
Er zijn twee belangrijke redenen om covariaten in ANOVA op te nemen:
1. Om de within-group error variantie te verminderen: Wanneer we een uitkomst voorspellen
op basis van groepsgemiddelden (bijvoorbeeld wanneer deze het effect van een experiment
vertegenwoordigen), berekenen we een F-statistiek door de hoeveelheid variabiliteit in de
uitkomst die het experiment kan verklaren te vergelijken met de variabiliteit die het niet kan
verklaren. Als we een deel van deze 'onverklaarde' variantie (SSR) kunnen toeschrijven aan
andere gemeten variabelen (covariaten), dan verminderen we de error variantie, waardoor we
het verschil tussen groepsgemiddelden (SSM) beter kunnen beoordelen.
2. Eliminatie van confounds: in elk experiment kunnen er ongemeten variabelen zijn die de
resultaten verwarren (d.w.z. andere variabelen dan de experimentele manipulatie die de
uitkomstvariabele beïnvloeden). Als bekend is dat variabelen de uitkomstvariabele die wordt
gemeten beïnvloeden, kan het opnemen ervan als covariabelen deze variabelen verwijderen als
mogelijke verklaringen voor het effect waarin we geïnteresseerd zijn.
, 13.3 ANCOVA and the general linear model
Ook hier gaan we verder op het puppy voorbeeld, maar nu nemen we een covariaat mee, namelijk,
hoeveel mensen van puppy’s houden. Dit zal namelijk invloed hebben op hoeveel effect de therapie
heeft. De vergelijking die het model representeert ziet er volgens zo uit. We kunnen de gemiddelden
vergelijken met he lineaire model, waarin de groepen als dummy gecodeerd zijn. Daarnaast kunnen we
een covariabele toevoegen als voorspeller, zodat het model het verschil tussen de groepen test,
gecorrigeerd voor de covariabele.
De samenvatting van het model toont ons de geschiktheid van het
model, eerst wanneer alleen de covariabele in het model wordt
gebruikt, en ten tweede wanneer zowel de covariabele als de
dummyvariabelen worden gebruikt. Het verschil tussen de waarden
van R2 (0,288 - 0,061 = 0,227) vertegenwoordigt de individuele
bijdrage van puppytherapie aan het voorspellen van geluk. Puppy
therapie is dus verantwoordelijk voor 22.7% van de variantie in
Happiness en love of puppies is verantwoordelijk voor 6.1% van de
variantie.
De ANOVA tabel is ook verdeeld in twee onderdelen. De bovenste
helft is het effect van alleen de covariabele en de onderste helft is het
effect van zowel de covariabele als de andere voorspeller (het hele
model).
Ook hier laat het bovenste gedeelde het
effect van de covariaat ziet, en het onderste
het hele model. Nu zijn de b-waarden in
deze tabel anders dan eerder in H12 en ook
meer verschillend van elkaar dan eerder.
Waarom?
De reden is dat met een aanwezige covariabele, de b-waarden de verschillen vertegenwoordigen tussen
de gemiddelden van elke groep en de controle groep, gecorrigeerd voor de covariabele(n). In dit geval
vertegenwoordigen ze het verschil in de gemiddelden van de puppytherapiegroepen die zijn aangepast
voor de liefde voor puppy's. Deze aangepaste gemiddelden (adjusted means), komen uit het model.
De b-waarden laten hier dus het verschil zien tussen de adjusted means. Deze aangepaste gemiddelden
zijn de gemiddelde hoeveelheid geluk voor elke groep op het gemiddelde liefdesniveau van puppy's.
Sommige mensen beschouwen dit model (d.w.z. ANCOVA) als 'controlerend' voor de covariabele,
omdat het de voorspelde groepsgemiddelden vergelijkt met de gemiddelde waarde van de covariabele,
dus de groepen worden vergeleken op een niveau van de covariabele dat hetzelfde is voor elke groep.
Zoals we echter zullen zien, is de analogie 'controleren voor de covariabele' niet heel goed.