Discovering statistics using IBM SPSS statistics – Andy Field
Samenvatting – Erasmus Universiteit Rotterdam
INHOUDSOPGAVE
CHAPTER 1: WHY IS MY EVIL LECTURERE FORCING ME TO LEARN STATISTICS? 2
CHAPTER 2: THE SPINE OF STATISTICS .............................................................................. 7
CHAPTER 3: THE PHOENIX OF STATISTICS ..................................................................... 13
CHAPTER 6: THE BEAST OF BIAS ....................................................................................... 18
CHAPTER 8: CORRELATION ................................................................................................. 24
CHAPTER 9: THE LINEAR MODEL (REGRESSION) .......................................................... 30
CHAPTER 11: MODERATION, MEDIATION AND MULTICATEGORY PREDICTORS . 42
CHAPTER 12: GLM 1: COMPARING SEVERAL INDEPENDENT MEANS ...................... 49
CHAPTER 13: GLM 2: COMPARING MEANS ADJUSTED FOR OTHER PREDICTORS
(ANALYSIS OF COVARIANCE – ANCOVA) ....................................................................... 62
CHAPTER 14: GLM 3, FACTORIAL DESIGNS ..................................................................... 70
CHAPTER 15: GLM 4, REPEATED-MEASURES DESIGNS ................................................ 79
CHAPTER 16: GLM 5, MIXED DESIGNS .............................................................................. 89
1
, CHAPTER 1: WHY IS MY EVIL LECTURERE FORCING ME TO LEARN STATISTICS?
Kwantitatieve methoden zijn research methoden met cijfers. Wanneer je bijvoorbeeld taal analyseert
zijn dit kwalitatieve methoden. Het proces van data collectie en analyse en het genereren van theorieën
zijn intrinsiek met elkaar verbonden: theorieën leiden tot data collectie/analyse en het data
collectie/analyse informeert theorieën. Een theorie is een verklaring of een set principes dat goed is
onderbouwd door herhaald testen en wat een breed fenomeen verklaart. Een hypothese is een
voorgestelde verklaring voor een nieuw fenomeen of een set observaties. Het is geen gok, maar een
geïnformeerde, theorie gedreven poging om te verklaren wat er is geobserveerd. Vervolgens komen er
voorspellingen naar voren vanuit een hypothese. Deze voorspellingen transformeren een hypothese tot
iets wat te observeren is.
Wetenschappelijke statements kunnen geverifieerd worden door empirisch bewijs, terwijl niet
wetenschappelijke statements niet empirisch getest kunnen worden. Falsificatie is het ontkrachten van
een hypothese of theorie.
1.6.1 Independent and dependent variables
Variabelen zijn dingen die kunnen veranderen. De meeste hypothesen kunnen omschreven worden in
termen van twee variabelen: de verwachte oorzaak en de verwachte uitkomst.
- Onafhankelijke variabelen (independent): een variabele waarvan gedacht wordt dat deze de
oorzaak is van een effect. Dit is vaak de variabele die wordt gemanipuleerd in een experiment.
- Afhankelijke variabelen (dependent): een variabele waarvan gedacht wordt dat deze verandert
wanneer de onafhankelijke variabele verandert. Dit is dus een uitkomst variabele.
- Voorspellende variabelen (predictor): een variabele waarvan gedacht wordt dat deze een uitkomst
variabele kan voorpellen. Eigenlijk een andere naam voor onafhankelijke variabelen.
- Uitkomst variabelen (outcome): een variabele waarvan gedacht wordt dat deze verandert vanwege
de voorspellende variabele. Eigenlijk een andere naam voor afhankelijke variabelen.
- In experimenteel werk is de oorzaak (onafhankelijk) een voorspeller en het effect (afhankelijk) is
een uitkomst. In correlationeel onderzoek hebben we het over een of meerdere (voorspellende)
variabelen die (statistisch gezien) een uitkomst variabele voorspellen.
1.6.2 Levels of measurement
- De relatie tussen wat wordt gemeten en de nummers die representeren wat er is gemeten is het
meetniveau. Variabelen kunnen categorisch of continue zijn en hebben verschillende meetniveaus.
- Categorische variabelen: bestaan uit categorieën, zoals diersoorten.
o In de meest simpele vorm benoemt het twee dingen, zoals man of vrouw, wat een
binaire variabele is.
o Wanneer er gelijkwaardige opties zijn, maar wel meer dan twee categorieën hebben we
het over een nominale variabele, zoals omnivoor, vegetariër, pescetariër etc.
▪ De enige manier waarop je nominale variabelen kan gebruiken in de statistiek is
als het gaat om frequenties.
o Wanneer categorieën geordend zijn hebben we te maken met een ordinale variabele,
hoewel het aangeeft in welke volgorde iets gebeurd is, zegt het niets over het verschil
tussen de categorieën.
- Continue variabelen: geven een score voor elke persoon en kunnen elke waarde aannemen binnen
het geselecteerde meetniveau.
2
, o Interval variabelen is data met gelijkwaardige afstanden. Het verschil tussen data punt
1 en 2 moet hetzelfde zijn als tussen data punt 3 en 4.
o Ratio variabelen gaan nog een stapje verder. Naast dat de afstanden gelijkwaardig
moeten zijn, moet de ratio op de schaal betekenisvol zijn. Om deze reden moet een ratio
schaal altijd een nulpunt hebben.
o Een continue variabele kan gemeten worden tot elk niveau van precisie, terwijl een
discrete variabele alleen bepaalde waarden kan aannemen (bijvoorbeeld hele
nummers).
1.6.4 Validity and Reliability
Een manier om meetfouten te minimaliseren is om te zorgen dat je zeker weet dat hetgeen waarmee je
iets meet zijn werk doet. Validiteit betekent dat een meetinstrument daadwerkelijk meet wat het zegt te
meten. Betrouwbaarheid betekent dat een meetinstrument consistent geïnterpreteerd kan worden in
verschillende situaties.
1.7 Collecting data: research design
Heel simpel gezegd zijn er twee manieren om een hypothese te testen: of je observeert wat er gebeurd,
of je manipuleert een onderdeel van de omgeving en observeert het effect dat dit heeft. In correlatief en
cros-sectioneel onderzoek observeren wat er gebeurd zonder te interfereren. In experimenteel onderzoek
manipuleren we één variabele om te zien wat het effect is op een andere variabele.
1.7.1 Correlational research methods
Hier worden natuurlijke fenomenen geobserveerd. Er worden geen variabelen beïnvloedt en het meten
van de variabelen mag niet biased zijn omdat de onderzoeker het aan het meten is (ecologische
validiteit). Hoewel dit een goede manier is om onderzoek te doen, vooral wanneer variabelen niet
beïnvloedbaar zijn (is roken slecht tijdens de zwangerschap). Het nadeel van deze mate van onderzoek
is dat het niets zegt over de causale invloed van variabelen.
1.7.2 Experimental research methods
De meeste onderzoeksvragen kunnen gezien worden als een voorgestelde oorzaak en een voorgestelde
uitkomst, een causaal effect. Zowel de oorzaak als de uitkomst zijn variabelen. Om een
onderzoeksvraag te kunnen beantwoorden ga je op zoek naar hoe de oorzaak en uitkomst variabelen met
elkaar verbonden zijn.
- Soms is er een ongeziene derde variabelen die invloed heeft op zowel de voorgestelde oorzaak als
het voorgestelde gevolg, dit wordt ook wel een confounding variabele (verstorende variabele)
genoemd.
- De enige manier waarom causaliteit vastgesteld kan worden is door twee gecontroleerde situaties
met elkaar te vergelijken: een situatie waarin de oorzaak aanwezig is, en een situatie waarin de
oorzaak afwezig is.
3
, 1.7.3 Two methods of data collection
Wanneer we een experiment gebruiken om data te verzamelen zijn er twee manieren om de
onafhankelijke variabele te manipuleren. De eerste is het testen van verschillende entiteiten, zoals
verschillende groepen deel laten nemen aan een experimentele conditie (between-groups, between-
subjects of independent design). De tweede is om een onafhankelijke variabele te manipuleren met
dezelfde entiteiten (within-subject of repeated-measures design). De manier waarop de data verzameld
wordt bepaald het test type dat gebruikt wordt om de data te analyseren.
- Repeated measures design = dezelfde participanten doen mee aan meerdere condities.
1.7.4 Two types of variation
Als de prestatie meting betrouwbaar is en de variabele of eigenschap die we meten blijft stabiel over
tijd, dan zou de prestatie van de participant op conditie 1, sterk gerelateerd moeten zijn aan de prestatie
op conditie 2 als deze twee condities hetzelfde zijn. De prestatie zal alleen niet identiek zijn, er zullen
wel kleine verschillen zijn. Deze variatie staat bekend als unsystemic variation. Wanneer de participant
twee verschillende condities ondergaat, experimentele manipulatie, dan is het verschil tussen conditie 1
en 2 dus waarschijnlijk te danken aan de manipulatie binnen het experiment. Verschillen in prestatie die
door een specifieke experimentele manipulatie worden gecreëerd, worden systemic variation genoemd.
Wanneer je verschillende participanten gebruikt voor de verschillende condities heb je independent
design. Als je niks doet met de groepen, zal er dus variatie zijn tussen de verschillende groepen. De
factoren die constant gehouden worden in een repeated measures design, zijn vrij om te variëren in een
independent design, dus de unsystemic variation zal groter zijn dan bij een repeated measures design.
Als we vervolgens experimentele manipulatie toepassen, zal er extra variatie ontstaan.
- Systemic variation: deze variatie is te wijten aan het feit dat de onderzoeker iets doet in de ene
conditie, maar niet in de andere conditie.
- Unsystemic variation: deze variatie is het gevolg van willekeurige factoren die bestaan tussen de
experimentele omstandigheden.
- Statistische tests zijn vaak gebaseerd op het idee om in te schatten hoeveel variatie er is in prestatie
en vervolgens te vergelijken hoeveel van deze variatie systematisch is en hoeveel onsystematisch.
- In een repeated measures design blijft de ‘ruis’ minimaal, waardoor het effect van een
experimentele conditie sneller op zal vallen. Dit design is dus gevoeliger voor het opvangen van
effecten dan een independent design.
1.7.5 Randomization
In beide designs is het belangrijk de onsystematische variantie minimaal te houden zodat de meting van
een experimentele manipulatie sensitiever wordt. Vaak wordt dit gedaan door te randomiseren. Veel
statistische test werken namelijk zo dat ze het verschil identificeren tussen de systematisch en de
onsystematische variantie. Randomiseren zorgt ervoor dat de meeste andere systematische variantie
geëlimineerd wordt. Dit zorg ervoor dat we kunnen zien dat de systematische variantie die overblijft
tussen experimentele condities te danken is aan de manipulatie van de onafhankelijke variabele.
4