Hoorcollege 1
Descriptives (beschrijvende statistiek) geven
informatie weer over de steekproef, een klein deel
van de gehele populatie. De manier waarop je deze
steekproef trekt noem je het sampling design.
Informatie over de populatie die je haalt uit
steekproefdata wordt de inferentiële statistiek
genoemd.
Sampling design/ steekproeftrekking:
o Simple random: iedereen heeft gelijke kansen
o Stratified: populatie wordt opgedeeld in strata/categorieën zoals leeftijd, gender
etc.
o Convenience sampling: wie makkelijk te bereiken is komt in de steekproef
Descriptives/beschrijvende data:
o Centrummaten: gemiddelde, modus en mediaan
o Spreidingsmaten: variantie en standaarddeviatie
Inferentieel
o Null Hypothesis Significance Testing (NHST)
1. H0 en HA
2. Beslisregel: wanneer p-waarde < / >
3. t- en p-waarden
4. verwerpen of aannemen van hypotheses
Meetniveaus
o Categorische variabelen: hebben geen numerieke waarde, maar behoren tot
dezelfde categorie zoals geslacht, opleiding, diagnose etc.
o Kwantitatieve variabelen: hebben een numerieke waarde waardoor ze in dezelfde
groep vallen zoals leeftijd, IQ, cijfers etc.
Pearsons correlatie geeft de mate van lineaire samenhang aan. In de populatie spreken we van
waarde ρ en in de steekproef van r. De r valt altijd tussen -1 en 1 waarbij r=0 aangeeft dat er geen
lineaire samenhang is. We hebben vuistregels voor het interpreteren van de sterkte van de
samenhang:
r ≤ 0.1=zwak
r ≤ 0.3=matig
r ≤ 0.5=sterk
r ≤1= perfect
De p-waarde is de kans om data te vinden die nog extremer is dan wat je al hebt, wanneer H 0 (er is
geen effect) waar is. Zodra de p-waarde kleiner is dan de α is er sprake van een effect en mag
je HA aannemen.
, Hoorcollege 2
Er gelden bepaalde aannames bij het toetsen van een correlaties. Zodra hieraan niet wordt voldaan
moet een alternatief worden getoetst zoals Spearmans rhoa of Kendalls tau.
Onafhankelijke personen en dus onafhankelijke observaties. Hieraan wordt voldaan
wanneer en gebruik gemaakt wordt van simple random sampling.
X en Y hangen lineair samen. De data in een puntenwolk/scatterplot liggen rondom een
rechte lijn.
Er zijn geen bivariate outliers: extreme uitschieters op beide variabelen.
Een samenhang tussen X en Y betekent eigenlijk dat je kunt voorspellen wat er gebeurt met Y door
veranderingen in waardes van X, of andersom. In statistische termen wordt dit genoemd de
2
gemeenschappelijke variantie r XY .
Correlatie ≠ Causatie!! Tenzij deze verkregen is tijdens experimenteel onderzoek.
Er zijn verschillende verklaringsmodellen voor een samenhang tussen X en Y
Direct: X veroorzaakt Y
Indirect: X beïnvloed Y d.m.v. Z, waarvan Z een mediator is.
Spurieus: Z is de gemeenschappelijke oorzaak voor zowel X als Y
Correlatie: X en Y hangen lineair samen.
Dan is er nog zoiets als enkelvoudige regressieanalyse, waarbij de onafhankelijke variabele (X)
de afhankelijke variabele (Y) beïnvloed. Beide variabelen zijn hier kwantitatief. De volgende
formule geldt: Y ' =b 0+ b1 X , waarbij we Y kunnen voorspellen uit X met behulp van
parameters b 1en b 0.
Y = voorspelde waarde van Y
'
b 0= intercept, de voorspelde score van Y wanneer iemand 0 scoort op X.
b 1 = regressiecoëfficiënt, de verandering in Y wanneer X met 1 score toeneemt.
Enkelvoudige regressie kan worden gedaan a.d.h.v. een stappenplan.
1. Bepaal de best passende lijn bij de data in een scatterplot.
In andere woorden willen we de lijn waarvoor de voorspellingsfouten het kleinst zijn.
2
sY
Kies de b 1en b 0 waarvoor e i het kleinst is. Hierbij is b 1=r met
sX
r =∑( Z X × ZY )/N waarbij Z X =(X −X )/ S X
De regressielijn gaat altijd door het snijpunt van de gemiddelden van X en Y. Teken
dus een horizontale lijn bij Y en een verticale bij X om deze kruising te vinden.
In SPSS output vind je b0 bij ‘constant’ in de coëfficiënten tabel en de b1 de rij
daaronder in dezelfde kolom.
2. Hoe goed kunnen we Y voorspellen: dit doe je d.m.v. individuele voorspellingsfout
'
e i=Y i−Y i