MTO-D
Correlationele Onderzoeksmethoden
Uitwerking Hoorcolleges
Inhoud
Hoorcollege 1 - Inleiding...................................................................................................................... 2
Hoorcollege 2 - Enkelvoudige Lineaire Regressieanalyse (1) ................................................................... 7
Hoorcollege 3 - Enkelvoudige Lineaire Regressieanalyse (2) ................................................................. 10
Hoorcollege 4 - Multipele Regressie (1) .............................................................................................. 13
Hoorcollege 5 - Multipele Regressie (2) .............................................................................................. 16
Hoorcollege 6 - Multipele Regressie (3) .............................................................................................. 20
Hoorcollege 7 - Standard Regression Analysis en Geneste Modellen .................................................... 21
Hoorcollege 8 - Multipele Regressie met Dummies ............................................................................. 26
Hoorcollege 9 - Interacties met Categorische Variabelen ..................................................................... 30
Hoorcollege 10 - Moderatie en Multicollineariteit............................................................................... 34
Hoorcollege 11 - Binaire Logistische Regressie (1) ............................................................................... 39
Hoorcollege 12 - Binaire Logistische Regressie (2) ............................................................................... 43
Hoorcollege 13 - Tabel analyse........................................................................................................... 48
1
,Hoorcollege 1 - Inleiding
Aspecten van empirisch onderzoek
1. Steekproeven versus populatie
Je pakt een sample uit de gehele populatie, dit is je
steekproef en heet sampling design. Vervolgens kan
je de gegevens van je steekproef beschrijven en
analyseren. Deze analyse kan je terugkoppelen op de
populatie, dit heet inferential statistics.
Er zijn diverse vormen van steekproeftrekking, zoals besproken bij MTO-A. Er worden er
drie besproken, maar we gaan eigenlijk altijd uit van simple random sampling.
Simple random sampling, elke element in de populatie heeft dezelfde kans om in de
steekproef terecht te komen
Stratified sampling, de populatie wordt opgedeeld in strata (geslacht, leeftijd, etc.),
binnen elk stratum wordt een volledige aselecte steekproef getrokken
Convenience sampling, de steekproef bestaat uit diegene die voorhanden zijn,
bijvoorbeeld eerstejaarsstudenten psychologie
Men denkt vaak dat een steekproef erg representatief is voor de populatie, dit heet ook
wel Belief in the Law of Small Numbers. Dit hoeft natuurlijk helemaal niet het geval zijn,
want er zijn juist veel steekproeffluctuaties. Dit is met name een probleem bij kleine
steekproeven; de ene steekproef kan dan sterk variëren van de andere steekproef en is
soms niet eens normaal verdeeld… Dit zegt dan natuurlijk ook weinig over de populatie.
Gebruik daarom bij voorkeur grotere steekproeven, dit geeft gelijk meer power.
2. Beschrijvende versus toetsende statistiek
Bij een onderzoek kan je ervoor kiezen om elke iets te beschrijven, of om het ook te
toetsen. Pas als je het gaat toetsen, kan je het eventueel generaliseren naar de
populatie.
3. Meetniveau’s
De klassieke indeling is nominaal, ordinaal, interval en ratio, het onderscheid hiertussen
is niet altijd goed duidelijk. Voor MTO-D maken we enkel onderscheid tussen
categorische en kwantitatieve variabelen.
Categorische variabelen hebben maar enkele antwoordmogelijkheden.
Nominaal is slechts benoemen en de volgorde is random, zoals geslacht
Ordinaal hebben een ordening, een vaste volgorde, zoals vijf-puntsschaal of je
opleiding.
Kwantitatieve variabelen zijn numeriek en hebben ‘oneindige’ mogelijkheden.
Interval betreft een grootheid in een numerieke waarde of eenheid, er is namelijk
geen nulpunt. Denk bijvoorbeeld aan graden Celsius.
Ratio heeft wel een nulwaarde en de absolute waarde heeft een betekenis,
verhouding hebben hierdoor ook een betekenis. Bijvoorbeeld afstand of lengte.
2
, 4. Onderzoeksdesigns
Steekproef Random toewijzing ‘Actieve’
random getrokken aan condities manipulatie
Experiment Ja Ja Ja
Quasi-experiment Ja Nee Ja
Correlationeel Ja Nee Nee
Bij een quasi-experiment heb je geen random indeling in de condities, omdat dat hierbij
niet mogelijk is. Bij correlationeel onderzoek worden proefpersonen ook niet random
toegewezen aan condities, maar is er ook geen actieve manipulatie. Dit wordt dan ook
vaak niet-experimenteel genoemd.
Pearson’s Correlatie Coëfficiënt
Pearson’s Correlatie Coëfficiënt is een maat voor lineaire samenhang. Dit noteren we met 𝜌 als
de correlatie in de populatie, en 𝑟 als correlatie in de steekproef. 𝑟 kan gaan van -1 tot en met 1.
Als 𝑟 nul is, dan is er geen lineaire samenhang, maar er kan wel sprake zijn van een niet-lineaire
samenhang!
Hieronder staan verschillende voorbeelden van scatterplots, elk stipje is hierbij een
proefpersoon. Het is erg belangrijk om eerst de scatterplots te bekijken voordat je je gegevens
gaat interpreteren, want dan kun je het verschil zien tussen lineaire en niet-lineaire relaties. Ook
kan je met een scatterplot outliners opsporen.
Een lineaire relatie met een kleine correlatie Een lineaire relatie met een correlatie (𝑟)
(𝑟) van 0,3 van - 0,7
Een niet-lineaire relatie met een correlatie Een correlatie (𝑟) van 0,70 met een outliner
(𝑟) van 0,05
3
,Toetsen van de correlatiecoëfficiënt
Als we iets vinden in de steekproef en dit willen generaliseren naar de populatie, dan moeten we
dit toetsen. Je wilt namelijk weten of er een effect is.
1. H0: 𝜌 = 0 tegen H1: 𝜌 ≠ 0
Hierbij maken we gebruik van een T-toets. Je moet de
toetsingsgrootheid t kunnen berekenen met de formule die je
erbij krijgt. SPSS geeft je de p-waarde van deze toets, dit moet je kunnen interpreteren.
Dit is hetzelfde als bij MTO-B.
2. H0: 𝜌 = c tegen H1: 𝜌 ≠ c
Dit gebruiken we als een specifieke waarde willen testen. C is hierbij een
getal tussen de -1 en 1, maar kan géén nul zijn. Hierbij gebruiken we een
Z-toets, omdat je hierbij de Fisher Z-transformaties kan toepassen. Dit is
nodig omdat de normaal curve scheef is omdat het middelpunt (0) niet
overeenkomt met C.
De P-waarde is de kans op de gevonden data (𝑟) of nog extremer,
gegeven dat H0 waar is. Je gebruikt een P-waarde door een
significatieniveau in te stellen, meestal is dit 𝛼 = 0,05. Als
P < 𝛼, dan verwerp je H0.
Bijvoorbeeld, een lineaire samenhang tussen drankgebruik en gemiddelde schoolprestaties:
In deze output zie je dat er een
negatieve correlatie is van -0,473 en
deze correlatie significant is, want de
sig is 0,035 en dus kleiner dan een
sigma van 0,05.
Aannames bij het toetsen van Correlatiecoëfficiënt
Onafhankelijk van elkaar gekozen personen of observaties. Aan deze aanname is
voldaan als er simple random sampling is toegepast.
X en Y zijn bivariaat normaal verdeeld. De puntenwolk heeft hierbij de vorm heeft van
een sigaar, ook wel een worst genoemd bij MTO-C.
X en Y zijn lineair gerelateerd. De punten in de puntenwolk liggen hierbij rondom een
rechte lijn.
De spreiding van X gegeven Y is hetzelfde voor elke Y. Bij een schending is de spreiding
niet gelijk omdat het afhangt van de waarde van X. Dit is de aanname van
homoscedasticiteit, maar hier wordt later nog verder op in gegaan.
4
, Bij deze scatterplot zie je dat de
spreiding bij een kleine X veel kleiner is
dan bij een grotere X, ook heeft het niet
de vorm van een worst of een sigaar.
Hier zijn dus de aanname van normaliteit
en homoscedasticiteit geschonden.
Betrouwbaarheidsintervallen voor de correlatiecoëfficiënt
Het betrouwbaarheidsinterval is wanneer we het experiment keer op keer herhalen, bevat het
95% betrouwbaarheidsinterval in 95% van de gevallen de echte waarde. Dit interpreteer je door
op basis van de gevonden data is dit de meest waarschijnlijke range waarbinnen de echte
waarde zal liggen. Het belang hiervan is dat het onzekerheid weergeeft random de puntschatter
Betrouwbaarheidsintervallen voor correlaties zijn niet symmetrisch, dat wil zeggen dat de
steekproefwaarde 𝑟 niet precies in het midden van het betrouwbaarheidsinterval of CI ligt. De
ene kant van de 𝑟 kan dus langer zijn dan de andere kant van de 𝑟. Dit komt door de Fisher
Transformatie van hierboven.
Er zijn verschillende factoren die het betrouwbaarheidsinterval beïnvloeden. Het interval kan
breder worden, hierdoor vallen er meer waardes binnen je interval en is het dus minder
nauwkeurig. Ook kan je interval juist smaller worden, hierdoor heb je minder zekerheid, maar dit
maakt je interval wel nauwkeuriger.
Als je een betrouwbaarheidsinterval van 95% verlaagt naar
90% dan wordt je interval smaller. Als je je interval verhoogt
van 90% naar 95%, dan wordt je interval dus juist breder. Als je
N verlaagt, dan wordt het interval breder. Er is namelijk meer
fluctuatie en dus meer spreiding. Een grotere N zorgt er dus
juist voor dat het smaller wordt, dit verhoogt tevens je power.
Als nul of je C niet in het interval zit, dan is de toets significant en kan je H0 verwerpen. Let wel
goed op de breedte van je betrouwbaarheidsinterval, 90 procent heeft namelijk een 𝛼 van 0,01,
en dit is relatief hoog.
Power en kanskapitalisatie
Power hangt samen met de steekproefgrootte, bij een grote N heb je namelijk een preciezere
schatting.
5