Practicum 1 – Groepen vergelijken (Eenweg-ANOVA)
Als er een variabele frequentie in een dataset staat, dan geeft dit de aantallen respondenten weer in
elke cel van de tabel. Je kunt het beste de functie weight cases (data weight cases) gebruiken om
de dataset dan op de juiste manier te analyseren.
Om de verdeling van een variabele (met bijvoorbeeld drie categorieën) te bekijken, is het verstandig
om een boxplot te maken. Benoem hierbij de gemeenschappelijke dingen, maar ook opvallende
dingen zoals outliers.
Om de verschillen tussen groepen binnen één variabele te onderzoeken, kun je in SPSS gebruik
maken van de One-Way ANOVA procedure. Deze is te vinden via Analyze Compare Means One-
Way Anova. De afhankelijke variabele zet je in de Dependent List, de onafhankelijke variabele zet je
in het vakje Factor. Het is ook handig om de decriptieve statistieken en een plot van de gemiddelden
erbij te runnen. Dit doe je via Options Statistics Descriptive en Means Plot.
Uit deze analyse volgt een tabel waarin je kunt hoe de gemiddelden tussen de verschillende groepen
binnen de variabele zijn verdeeld. Als er wordt gevraagd om een betrouwbaarheidsniveau uit te
rekenen voor een bepaalde groep, dan is daarvoor de formule: het gemiddelde van de groep +/- de T
waarde * (SD / √N). Let hierbij op dat je bij de T-waarde en de N, de N pakt van de betreffende groep
en niet van het totaal!
De nulhypothese die wordt getoetst bij de Eenweg-ANOVA is dat er geen verschillen zijn in de
gemiddelden per groep, alle gemiddelden zijn gelijk aan elkaar. De alternatieve hypothese is dat de
gemiddelden niet allemaal gelijk zijn aan elkaar; tenminste twee verschillen van elkaar. Als je een
waarde van de F toets moet noteren, dan pak je eerst de vrijheidsgraden van between groups
(bijvoorbeeld 2) en vervolgens de vrijheidsgraden van within groups. Als er een P-waarde van 0,00
wordt getoond, schrijf die dan op als P <0,005.
De Eenweg-ANOVA kan ook worden getoetst met de GLM procedure (hier kunnen meerdere
factoren worden toegevoegd). Deze procedure is te vinden via Analyze General Lineair Model
Univariate. Hier heet de onafhankelijke variabele fixed factor(s). Een aantal dingen zijn hierbij handig
om aan te vinken:
- Plot van de gemiddelden: Plots Horizontal Axis: onafhankelijke variabele Add
Continue. Hier kunnen ook de error bars worden aangevinkt;
- Geschatte gemiddelden: Options Display means for: onafhankelijke variabele;
- Beschrijvende statistieken: Options Descriptive Statistics.
Uit deze procedure rollen vier verschillende tabellen. De tabellen zeggen de volgende dingen:
- Between subjects factors: informatie over de groepen;
- Descriptive statistics: deze tabel laat de groepsgemiddelden en standaarddeviatie zien (en
het aantal mensen per groep);
- Tests of Between-Subjects Effects: dit is een uitgebreide ANOVA tabel en een manier om de
bronnen van variantie te bespreken (met de R²). De drie rijen die hierbij van belang zijn, zijn
de rij met de onafhankelijke variabele (de verklaarde variantie tussen groepen), Error (de
onverklaarde variantie binnen groepen) en Corrected Total (het totaal). De ANOVA vergelijkt
de groepen die je onderzoekt tegelijkertijd. Wanneer de ANOVA een significant resultaat laat
zien, dan betekent dit dat tenminste twee groepen significant van elkaar verschillen;
- Estimated Marginal Means: geeft de voorspellingen met het model, met onder andere
gemiddelden, standaardfouten en de betrouwbaarheidsintervallen gebaseerd op de
gepoolde standaarddeviatie (dus onder de aanname dat de populatievarianties in de groepen
gelijk zijn).
, Belangrijk is dat de GLM procedure gebruik maakt van een gepoolde standaarddeviatie, waarbij de
standaarddeviaties van de verschillende groepen allemaal gelijk worden getrokken (er wordt
aangenomen dat de populatievarianties gelijk zijn) en dit heeft ook effect op de BHI’s. De BHI’s die
worden berekend bij de One-Way procedure gebruiken de standaarddeviaties in elke groep.
Een profile plot (plot van het gemiddelde) geeft een grafische weergave van het effect van de
onafhankelijke variabele, oftewel de (verschillen tussen) gemiddelden. Het is echter mogelijk om
betrouwbaarheidsintervallen toe te voegen aan deze plot via Graphs Legacy Dialogs Error Bar
Define. Als je dit gedaan hebt en de betrouwbaarheidsintervallen overlappen elkaar niet, dan
betekent dit dat het gemiddelde van de ene groep niet in het interval van de andere groep valt. Dit
duidt erop dat de verschillen significant zijn.
Op het moment dat je weet dat groepen significant van elkaar verschillen door het uitvoeren van de
Eenweg-ANOVA, weet je nog niet welke groepen echt significant hoger of lager scoren dan andere.
Om dit te weten te komen, moet je steeds twee groepen met elkaar vergelijken en dit kun je doen
door gebruik te maken van T-toetsen. Om dit te kunnen doen moet je, afhankelijk van het aantal
groepen, meerdere toetsen uitvoeren. Het kan echter eenvoudiger door Post Hoc toetsen uit te
voeren binnen de GLM procedure. Klik op Post Hoc Post Hoc Tests for: onafhankelijke variabele.
Vervolgens kun je aanvinken welke toetsen je wilt hebben. Vaak zijn dit LSD, Bonferonni en Tukey.
Wanneer je een Post Hoc toets doet, komt daar een tabel uit onder de naam Multiple Comparisons.
De nulhypothesen die dit model twee keer toetst, zijn dat de gemiddelden per groep niet verschillen
(dus groep 1 = groep 2, groep 2 = groep 3, groep 3 = groep 1). Als je een nulhypothese kunt
verwerpen, dan zeg je dus dat de gemiddelde score op de afhankelijke variabele significant verschilt
tussen groep 1 en groep 2 (of soms zelfs tussen alle groepen). Het is ook mooi om hierbij te noemen
welke groepen het hoogste / laagste gemiddelde hebben.
Het verschil tussen de verschillende toetsen is dat de Bonferonni procedure de alpha aanpast, door
de alpha te delen door het aantal variabelen in het model: a / k. Om te bekijken welk BHI het beste is
voor een Bonferonni procedure, moet de volgende formule worden gebruikt: 1 – significantielevel /
aantal toetsen. Je moet goed opletten bij het aantal toetsen: bij vier groepen worden er bijvoorbeeld
6 toetsen uitgevoerd. Dit is het zwaarste model. De Tukey procedure gebruikt een andere
steekproevenverdeling.
Berekenen F-waarde uit ANOVA-tabel: mean square between groups / mean square within groups.
Berekenen gepoolde standaarddeviatie (ook voor de T-waarde): √mean square between groups. DF is
het aantal vrijheidsgraden wat hierbij hoort voor de T-verdeling.