Web- en hoorcolleges Advanced Quantitative Methods
Overzicht (web)colleges
Week 1 ..................................................................................................................................................... 2
Webcollege 0 – Herhaling ................................................................................................................... 2
Webcollege 1 – Schaalanalyse............................................................................................................ 4
College 1 – Factoranalyse & betrouwbaarheidsanalyse ................................................................... 5
Week 2 ................................................................................................................................................... 11
Webcollege 2 – Conceptuele modellen & regressie ........................................................................ 11
College 2 – Multivariate regressie & mediatie ................................................................................ 14
Week 3 ................................................................................................................................................... 22
Webcollege 3 – Moderatie ............................................................................................................... 22
College 3 – Moderatie & multicollineariteit .................................................................................... 28
Week 4 ................................................................................................................................................... 36
Webcollege 4 – Dichotome variabelen ............................................................................................ 36
College 4 – Logistische regressie ...................................................................................................... 38
Week 5 ................................................................................................................................................... 44
College 5 – Herhaling ........................................................................................................................ 44
1
,Web- en hoorcolleges Advanced Quantitative Methods
Week 1
Webcollege 0 – Herhaling
Inferentiële statistiek
▪ Beschijvende statistiek: beschrijven, organiseren, samenvatten en weergeven.
▪ Inferentiële statistiek: probabilistische methoden om een steekproef te analyseren om iets te
zeggen over een populatie.
- We hebben een verwachting over de populatie, maar omdat we geen data over de gehele
populatie kunnen verzamelen, nemen we een willekeurige steekproef om de hypothese te
toetsen.
- Op basis van de uitkomst van de toets kunnen we wel/niet uitspraken doen over de populatie.
Hypothesen
▪ Altijd geformuleerd als stelling.
▪ De alternatieve hypothese (H1) stelt wat we echt verwachten.
▪ De nulhypothese (H0) het tegenovergestelde.
- Bv. H1: Er bestaat een (positief = gericht) verband tussen leeftijd en inkomen.
- H0: Er bestaat geen (positief) verband tussen leeftijd en inkomen.
Hypothese en p-level
▪ We weten nooit helemaal zeker of iets is zoals het lijkt te zijn.
▪ Het onzekerheidsniveau (hoe waarschijnlijk het is dat we het mis hebben) dat we toelaten,
leggen we vast op maximaal 5% (α = 0,05).
- We hebben dus maximaal 5% kans dat we de nulhypothese afwijzen terwijl we dat niet hadden
mogen doen (Type I-fout).
- En minimaal 95% kans dat onze verwachting geformuleerd in de alternatieve hypothese ‘waar’
is.
▪ Het p-level is 5% of p = 0,05. Als onze gevonden kans kleiner is dan p, mogen we de
nulhypothese afwijzen.
➔ Dus: als p < 0,05 dan wordt H0 afgewezen.
T-toets voor onafhankelijke groepen (statistische toets(en) voor hypothesen over relaties tussen
variabelen)
▪ Onafhankelijke variabele (X): binaire nominale (dichotome) variabele = de groep, bv. man en
vrouw.
▪ Afhankelijke variabele (Y): interval of ratio (‘continu’ variabele) = hierin wordt verschil
verwacht, bv. inkomen.
▪ Hypothesen gaan altijd over een verschil tussen de gemiddelden van twee groepen: bestaat
dit verschil ook in de populatie?
▪ We kunnen een uitspraak doen over de richting van het verschil.
▪ Dezelfde hypothese kan met lineaire bivariate regressie.
Correlatie
▪ Onafhankelijke variabele: variabele met minimaal een ordinaal meetniveau.
▪ Afhankelijke variabele: variabele met minimaal een ordinaal meetniveau.
▪ Hypothesen gaan altijd over een verband tussen de twee variabelen.
- We kunnen een uitspraak doen over de richting van het verband.
2
,Web- en hoorcolleges Advanced Quantitative Methods
▪ Voor ratio/interval meetniveau: dezelfde hypothese kunnen we met lineaire bivariate
regressie toetsen.
▪ Correlatie is positief, negatief of nul.
▪ Correlatie is tussen -1 en +1.
- ± 1 perfecte correlatie.
- Tussen ± 0,9 en ± 0,7 sterke correlatie.
- Tussen ± 0,6 en ± 0,4 matige correlatie.
- Tussen ± 0,3 en ± 0,1 zwakke correlatie.
- ± 0 geen correlatie.
▪ Correlatie kan significant afwijken van nul (p < 0,05). Als dat zo is, mogen we H0 afwijzen.
Twee soorten correlatie
▪ De Pearson correlatie (r) meet de lineaire samenhang tussen twee continu (interval of ratio)
gemeten variabelen.
▪ De Spearman correlatie meet non-lineaire (monotonisch = één richting, positief of negatief)
samenhang tussen twee continu (interval of ratio) of ordinaal gemeten variabelen.
Correlatie en regressie
▪ De hypothese van een correlatie kan ook met regressie analyse getoetst worden.
▪ We kunnen op basis van correlatie geen uitspraken doen over hoeveel inkomen (Y) toeneemt
(of afneemt) naarmate leeftijd (X) toeneemt → daarvoor is regressie.
- Een verband kunnen aantonen betekent niet dat er een causale relatie bestaat tussen X en Y.
Lineaire regressie
▪ Afhankelijke variabele: variabele interval of ratio (altijd continu) meetniveau.
▪ Onafhankelijke variabele:
- Binair nominaal (= dichotoom) meetniveau (geval t-toets).
- Ratio/interval meetniveau (geval correlatie) of nominaal (meerdere categorieën) of ordinaal.
▪ Hypothesen gaan over een verschil of verband tussen de twee variabelen.
▪ We kunnen een uitspraak doen over de richting van het verschil/verband.
▪ Hoeveel neemt een variabele (Y) toe of af als een andere variabele (X) toeneemt?
- We maken op basis van de onafhankelijke X-variabele een voorspelling voor de waarde op de
afhankelijke Y-variabele.
▪ Bivariate regressie: het voorspellen van Y op basis van X.
- We schatten het verband tussen twee variabelen.
- We schatten Y als lineaire functie van X.
- We willen de variantie in de afhankelijke Y voorspellen.
- Dit doen we met behulp van X.
▪ Multivariate regressie: het voorspellen van Y op basis van X1, X2, X3 etc.
Regressievergelijking
▪ Y’ = a + b * X
- Oftewel: we voorspellen Y (Y’) op basis van de constante/intercept (a) en de waarde op de
onafhankelijke variabele X vermenigvuldigd met een richtingscoëfficiënt (b).
▪ De constante a geeft aan hoe groot de voorspelde Y is als X nul is. (Waar de lijn de Y as snijdt)
- Over de constante formuleren we geen hypothese. Als bij de constante p < 0,05 is, dan weten
we dat de constante significant afwijkt van nul. Meer niet.
3
, Web- en hoorcolleges Advanced Quantitative Methods
▪ De richtingscoëfficiënt b geeft aan hoeveel de voorspelde Y toe- of afneemt als X met één
eenheid toeneemt.
- Over de richtingscoëfficiënt formuleren we wél een hypothese. Als bij de richtingscoëfficiënt
p < 0,05 is, dan mogen we de nulhypothese afwijzen.
▪ Het verschil tussen de voorspelde Y’ en de echte Y is de residuele variatie.
Voorspellingsfout
▪ De afwijking van de voorspelde Y-waarde van de geobserveerde Y-waarde.
Y=a+b*X+E
- Oftewel: de voorspelde Y (Y’) wijkt af van de geobserveerde Y (Y).
▪ Deze afwijking noemen we de voorspellingsfout of het residu: E.
Let op!
▪ Verband ≠ causaliteit: ook op basis van regressie geen causale uitspraken mogelijk.
▪ Outliers: extreme observaties kunnen de voorspelling vertekenen.
▪ Extrapolation: maak geen voorspelling voor x-waarden waarvoor je geen observaties hebt (bv.
leeftijd = 0 of leeftijd = 150).
Webcollege 1 – Schaalanalyse
Sociologische onderwerpen
▪ (Abstracte) latente constructen: bv. tevredenheid met de buurt, vertrouwen in instituties, SES
of houdingen ten opzichte van immigranten.
▪ Dit conceptualiseren (operationalisatie en meten).
Schaalconstructie
▪ Moeilijk aan te duiden met één vraag → meten door set van vragen (items).
▪ Antwoorden op meerdere vragen samen nemen.
▪ Somschaal (de waarden van de originele variabele gaan verloren en er is geen schaal voor
mensen met missende waarden) of gemiddelde schaal per respondent (hier wel ^).
▪ Voordelen:
- Meer variatie in antwoorden, dus beter onderscheid tussen respondenten.
- Betere gezamenlijke validiteit dan losse vragen.
- Betere betrouwbaarheid dan losse vragen.
- Minder erg wanneer een antwoord mist.
➔ Minimaal drie vragen (items) en antwoorden samen nemen om een beter begrip te krijgen van
het complexe concept (bv. houding ten opzichte van immigranten).
Validiteit en betrouwbaarheid
▪ Validiteit: meet mijn schaal wat ik wil meten? / Raken mijn vragen mijn doel?
▪ Betrouwbaarheid: meet mijn schaal elke keer hetzelfde concept? / Raken mijn vragen
hetzelfde doel?
▪ Twee manieren om validiteit en betrouwbaarheid van een schaal te checken:
1. Factoranalyse (validiteit).
2. Betrouwbaarheidsanalyses.
4
Overzicht (web)colleges
Week 1 ..................................................................................................................................................... 2
Webcollege 0 – Herhaling ................................................................................................................... 2
Webcollege 1 – Schaalanalyse............................................................................................................ 4
College 1 – Factoranalyse & betrouwbaarheidsanalyse ................................................................... 5
Week 2 ................................................................................................................................................... 11
Webcollege 2 – Conceptuele modellen & regressie ........................................................................ 11
College 2 – Multivariate regressie & mediatie ................................................................................ 14
Week 3 ................................................................................................................................................... 22
Webcollege 3 – Moderatie ............................................................................................................... 22
College 3 – Moderatie & multicollineariteit .................................................................................... 28
Week 4 ................................................................................................................................................... 36
Webcollege 4 – Dichotome variabelen ............................................................................................ 36
College 4 – Logistische regressie ...................................................................................................... 38
Week 5 ................................................................................................................................................... 44
College 5 – Herhaling ........................................................................................................................ 44
1
,Web- en hoorcolleges Advanced Quantitative Methods
Week 1
Webcollege 0 – Herhaling
Inferentiële statistiek
▪ Beschijvende statistiek: beschrijven, organiseren, samenvatten en weergeven.
▪ Inferentiële statistiek: probabilistische methoden om een steekproef te analyseren om iets te
zeggen over een populatie.
- We hebben een verwachting over de populatie, maar omdat we geen data over de gehele
populatie kunnen verzamelen, nemen we een willekeurige steekproef om de hypothese te
toetsen.
- Op basis van de uitkomst van de toets kunnen we wel/niet uitspraken doen over de populatie.
Hypothesen
▪ Altijd geformuleerd als stelling.
▪ De alternatieve hypothese (H1) stelt wat we echt verwachten.
▪ De nulhypothese (H0) het tegenovergestelde.
- Bv. H1: Er bestaat een (positief = gericht) verband tussen leeftijd en inkomen.
- H0: Er bestaat geen (positief) verband tussen leeftijd en inkomen.
Hypothese en p-level
▪ We weten nooit helemaal zeker of iets is zoals het lijkt te zijn.
▪ Het onzekerheidsniveau (hoe waarschijnlijk het is dat we het mis hebben) dat we toelaten,
leggen we vast op maximaal 5% (α = 0,05).
- We hebben dus maximaal 5% kans dat we de nulhypothese afwijzen terwijl we dat niet hadden
mogen doen (Type I-fout).
- En minimaal 95% kans dat onze verwachting geformuleerd in de alternatieve hypothese ‘waar’
is.
▪ Het p-level is 5% of p = 0,05. Als onze gevonden kans kleiner is dan p, mogen we de
nulhypothese afwijzen.
➔ Dus: als p < 0,05 dan wordt H0 afgewezen.
T-toets voor onafhankelijke groepen (statistische toets(en) voor hypothesen over relaties tussen
variabelen)
▪ Onafhankelijke variabele (X): binaire nominale (dichotome) variabele = de groep, bv. man en
vrouw.
▪ Afhankelijke variabele (Y): interval of ratio (‘continu’ variabele) = hierin wordt verschil
verwacht, bv. inkomen.
▪ Hypothesen gaan altijd over een verschil tussen de gemiddelden van twee groepen: bestaat
dit verschil ook in de populatie?
▪ We kunnen een uitspraak doen over de richting van het verschil.
▪ Dezelfde hypothese kan met lineaire bivariate regressie.
Correlatie
▪ Onafhankelijke variabele: variabele met minimaal een ordinaal meetniveau.
▪ Afhankelijke variabele: variabele met minimaal een ordinaal meetniveau.
▪ Hypothesen gaan altijd over een verband tussen de twee variabelen.
- We kunnen een uitspraak doen over de richting van het verband.
2
,Web- en hoorcolleges Advanced Quantitative Methods
▪ Voor ratio/interval meetniveau: dezelfde hypothese kunnen we met lineaire bivariate
regressie toetsen.
▪ Correlatie is positief, negatief of nul.
▪ Correlatie is tussen -1 en +1.
- ± 1 perfecte correlatie.
- Tussen ± 0,9 en ± 0,7 sterke correlatie.
- Tussen ± 0,6 en ± 0,4 matige correlatie.
- Tussen ± 0,3 en ± 0,1 zwakke correlatie.
- ± 0 geen correlatie.
▪ Correlatie kan significant afwijken van nul (p < 0,05). Als dat zo is, mogen we H0 afwijzen.
Twee soorten correlatie
▪ De Pearson correlatie (r) meet de lineaire samenhang tussen twee continu (interval of ratio)
gemeten variabelen.
▪ De Spearman correlatie meet non-lineaire (monotonisch = één richting, positief of negatief)
samenhang tussen twee continu (interval of ratio) of ordinaal gemeten variabelen.
Correlatie en regressie
▪ De hypothese van een correlatie kan ook met regressie analyse getoetst worden.
▪ We kunnen op basis van correlatie geen uitspraken doen over hoeveel inkomen (Y) toeneemt
(of afneemt) naarmate leeftijd (X) toeneemt → daarvoor is regressie.
- Een verband kunnen aantonen betekent niet dat er een causale relatie bestaat tussen X en Y.
Lineaire regressie
▪ Afhankelijke variabele: variabele interval of ratio (altijd continu) meetniveau.
▪ Onafhankelijke variabele:
- Binair nominaal (= dichotoom) meetniveau (geval t-toets).
- Ratio/interval meetniveau (geval correlatie) of nominaal (meerdere categorieën) of ordinaal.
▪ Hypothesen gaan over een verschil of verband tussen de twee variabelen.
▪ We kunnen een uitspraak doen over de richting van het verschil/verband.
▪ Hoeveel neemt een variabele (Y) toe of af als een andere variabele (X) toeneemt?
- We maken op basis van de onafhankelijke X-variabele een voorspelling voor de waarde op de
afhankelijke Y-variabele.
▪ Bivariate regressie: het voorspellen van Y op basis van X.
- We schatten het verband tussen twee variabelen.
- We schatten Y als lineaire functie van X.
- We willen de variantie in de afhankelijke Y voorspellen.
- Dit doen we met behulp van X.
▪ Multivariate regressie: het voorspellen van Y op basis van X1, X2, X3 etc.
Regressievergelijking
▪ Y’ = a + b * X
- Oftewel: we voorspellen Y (Y’) op basis van de constante/intercept (a) en de waarde op de
onafhankelijke variabele X vermenigvuldigd met een richtingscoëfficiënt (b).
▪ De constante a geeft aan hoe groot de voorspelde Y is als X nul is. (Waar de lijn de Y as snijdt)
- Over de constante formuleren we geen hypothese. Als bij de constante p < 0,05 is, dan weten
we dat de constante significant afwijkt van nul. Meer niet.
3
, Web- en hoorcolleges Advanced Quantitative Methods
▪ De richtingscoëfficiënt b geeft aan hoeveel de voorspelde Y toe- of afneemt als X met één
eenheid toeneemt.
- Over de richtingscoëfficiënt formuleren we wél een hypothese. Als bij de richtingscoëfficiënt
p < 0,05 is, dan mogen we de nulhypothese afwijzen.
▪ Het verschil tussen de voorspelde Y’ en de echte Y is de residuele variatie.
Voorspellingsfout
▪ De afwijking van de voorspelde Y-waarde van de geobserveerde Y-waarde.
Y=a+b*X+E
- Oftewel: de voorspelde Y (Y’) wijkt af van de geobserveerde Y (Y).
▪ Deze afwijking noemen we de voorspellingsfout of het residu: E.
Let op!
▪ Verband ≠ causaliteit: ook op basis van regressie geen causale uitspraken mogelijk.
▪ Outliers: extreme observaties kunnen de voorspelling vertekenen.
▪ Extrapolation: maak geen voorspelling voor x-waarden waarvoor je geen observaties hebt (bv.
leeftijd = 0 of leeftijd = 150).
Webcollege 1 – Schaalanalyse
Sociologische onderwerpen
▪ (Abstracte) latente constructen: bv. tevredenheid met de buurt, vertrouwen in instituties, SES
of houdingen ten opzichte van immigranten.
▪ Dit conceptualiseren (operationalisatie en meten).
Schaalconstructie
▪ Moeilijk aan te duiden met één vraag → meten door set van vragen (items).
▪ Antwoorden op meerdere vragen samen nemen.
▪ Somschaal (de waarden van de originele variabele gaan verloren en er is geen schaal voor
mensen met missende waarden) of gemiddelde schaal per respondent (hier wel ^).
▪ Voordelen:
- Meer variatie in antwoorden, dus beter onderscheid tussen respondenten.
- Betere gezamenlijke validiteit dan losse vragen.
- Betere betrouwbaarheid dan losse vragen.
- Minder erg wanneer een antwoord mist.
➔ Minimaal drie vragen (items) en antwoorden samen nemen om een beter begrip te krijgen van
het complexe concept (bv. houding ten opzichte van immigranten).
Validiteit en betrouwbaarheid
▪ Validiteit: meet mijn schaal wat ik wil meten? / Raken mijn vragen mijn doel?
▪ Betrouwbaarheid: meet mijn schaal elke keer hetzelfde concept? / Raken mijn vragen
hetzelfde doel?
▪ Twee manieren om validiteit en betrouwbaarheid van een schaal te checken:
1. Factoranalyse (validiteit).
2. Betrouwbaarheidsanalyses.
4