Universiteit Utrecht
Samenvatting
Sample
Sessions en
Hoorcolleges
PDA
Practicum data-analyse
Collegejaar 2020-2021
,Inhoudsopgave
Week 1 HC: Schatten en toetsen............................................................................................................4
Schatten en toetsen............................................................................................................................4
Week 1 SS: Schatting en toetsen............................................................................................................7
Puntschattingen..................................................................................................................................7
Betrouwbaarheidsintervallen.............................................................................................................7
Betrouwbaarheidsinterval voor het gemiddelde................................................................................8
Betrouwbaarheidsinterval voor een proportie...................................................................................8
Principe van toetsing..........................................................................................................................8
Elementen van een statistische toets.................................................................................................9
Toets voor een gemiddelde................................................................................................................9
Toetsen in SPSS: teststatistiek en betrouwbaarheidsinterval (CI)......................................................9
Toets voor een proportie in SPSS......................................................................................................10
Gemiddelden vergelijken van onafhankelijke steekproeven............................................................10
Soorten fouten bij hypothese toetsen..............................................................................................10
Conclusie trekken a.d.h.v. kleine steekproef voor een gemiddelde: T-toets....................................11
Week 2 HC: Verbanden tussen categorische variabelen......................................................................11
Herhaling meetniveau......................................................................................................................11
Indexering van kruistabellen............................................................................................................11
Van frequenties naar kansen............................................................................................................12
Toetsen met kruistabellen................................................................................................................13
Assumpties.......................................................................................................................................13
Wat betekent een significante X2?....................................................................................................13
Verband tussen ordinale variabelen.................................................................................................13
Gamma als maat van samenhang.....................................................................................................14
Kendall’s Tau.....................................................................................................................................14
Week 2 SS: Samenhang........................................................................................................................14
Samenhang.......................................................................................................................................14
Residuele analyse.............................................................................................................................15
Samenhang tussen ordinale variabelen............................................................................................16
Exacte testen....................................................................................................................................17
Week 3 HC: Regressie en correlatie......................................................................................................17
Ptolemeus.........................................................................................................................................17
Kwadratensommen (sums of squares).............................................................................................18
Toetsen.............................................................................................................................................19
, Assumpties.......................................................................................................................................19
Correlatie..........................................................................................................................................19
Week 3 SS: Enkelvoudige lineaire regressie..........................................................................................20
Introductie........................................................................................................................................20
Enkelvoudige lineaire regressie........................................................................................................20
Enkelvoudige regressie resultaten interpreteren.............................................................................20
Model assumpties en schendingen..................................................................................................21
Week 4 HC: Multiple regressie.............................................................................................................21
F-toets vrijheidsgraden.....................................................................................................................21
Herhaling vorige week......................................................................................................................22
Meerdere categorieën......................................................................................................................23
Multiple regressie.............................................................................................................................24
Variabelen toevoegen (nested models)............................................................................................26
Incremental F-test............................................................................................................................26
Redenen voor multiple regressie......................................................................................................26
Multicolineariteit..............................................................................................................................26
Week 4 SS: Multiple regressie..............................................................................................................27
Enkelvoudige lineaire regressie met een dichotome X-variabele.....................................................27
Multiple regressie.............................................................................................................................27
Omgaan met discrete verklarende variabelen met meer dan twee waarden..................................27
Incrementele F-toets........................................................................................................................27
Multicollineariteit.............................................................................................................................27
Week 5 HC: Interactie...........................................................................................................................28
Welke toets wanneer gebruiken?.....................................................................................................28
Regressie (herhaling)........................................................................................................................29
Interactie met continue predictoren................................................................................................30
Andere regressiemodellen................................................................................................................30
Week 5 SS: Interacties..........................................................................................................................32
Interactie tussen een continue variabele en een dummy variabele.................................................32
Een tweede voorbeeld......................................................................................................................33
Interactie tussen een continue variabele en meerdere dummy variabelen.....................................33
Interactie tussen twee continue variabelen.....................................................................................33
Opmerkingen....................................................................................................................................34
Week 6: Vakantie..................................................................................................................................34
Week 7 HC: Non-lineaire regressie.......................................................................................................34
Herhaling..........................................................................................................................................34
, Multiple regressie zonder interactie.................................................................................................34
Multiple regressie met interactie.....................................................................................................34
Non-lineaire effecten........................................................................................................................34
Effect op een specifieke waarde.......................................................................................................35
Extrapoleren.....................................................................................................................................35
Polynominale modellen....................................................................................................................36
Causaliteit.........................................................................................................................................37
Week 7 SS: Non-lineaire regressie........................................................................................................38
Kwadratische modellen....................................................................................................................38
De betekenis van “effect” in kwadratische modellen.......................................................................38
Dummy up........................................................................................................................................39
Week 8 HC: Directe en indirecte effecten, mediatie............................................................................39
Volledige en gedeeltelijke mediatie..................................................................................................40
Mediatiemodel schatten...................................................................................................................40
Totaal, direct en indirect..................................................................................................................40
Alternatieve verklaringen.................................................................................................................41
Week 8 SS: Padanalyse.........................................................................................................................41
Het Blau en Duncan padmodel.........................................................................................................41
Multivariate verbanden: wat gebeurt er als je extra onafhankelijke variabelen toevoegt aan een
model?..............................................................................................................................................42
Omitted variable bias........................................................................................................................43
Typen multivariate verbanden.........................................................................................................43
Uitgebreide padmodellen.................................................................................................................43
Causaliteit.........................................................................................................................................44
Beperkingen OLS regressie...............................................................................................................44
,Week 1 HC: Schatten en toetsen
Schatten en toetsen
- Schatten: o.b.v. een steekproef een gok doen over een waarde in de populatie;
o Je gebruikt Romeinse letters (s);
o Er heerst altijd een onzekerheid;
- Toetsen: vaststellen of de populatieparameter (waarschijnlijk) afwijkt van een verwachte
waarde;
o Je gebruikt Griekse letters (σ);
o Voor beiden gebruik je een steekproef/sample.
Populatieparameters schatten o.b.v. de sample
- ALS de sample representatief is voor de populatie, DAN kunnen we een “geïnformeerde gok”
doen over populatieparameters;
- Als een sample random is, dan is het meestal representatief (iedereen even grote kans om
getrokken te worden);
- Samples zijn in de praktijk zelden willekeurig, dus denk na over manier waarop jouw sample
verschilt van de populatie, en daarom wellicht een misleidend beeld geeft.
Sampling error: het verschil tussen het gemiddelde van de gehele populatie (mu) en het gemiddelde
van de steekproef (M).
De steekproef zit er vrijwel altijd iets naast.
Stel dat je alle mogelijke steekproeven in een groep trekt. Het gemiddelde van al deze steekproeven
is dan gelijk aan het werkelijke populatiegemiddelde. De standaardafwijking van deze sampling
distribution kan je interpreteren als “de gemiddelde afwijking van steekproefgemiddelden t.o.v. het
populatiegemiddelde”, ofwel de standard error.
Standard error: een maat van onzekerheid over je schatting en een “gemiddelde” afwijking van
steekproefgemiddelden t.o.v. het populatiegemiddelde.
Notatie: SE, SEm.
Standaard fout schatten
- Probleem: de standard error kan je niet uitrekenen o.b.v. één steekproef, terwijl je in de
praktijk vaak wel maar één steekproef trekt;
o Oplossing: de standard error ook schatten o.b.v. de sample
s standaarddeviatie∈de steekproef
o Formule: SEm= ofwel SEm=
√n √ grootte van steekproef
Standaardafwijking: “gemiddelde” afwijking van observaties t.o.v. het gemiddelde.
Het geeft weer hoe gespreid je data zijn;
Notatie: s, sigma of SD.
Betrouwbaarheidsinterval: een “venster” om de schatting, gebaseerd op SE, waarbinnen de
populatieparameter waarschijnlijk valt.
Interpretatie: als je 100 identieke samples zou trekken en voor elk een 95% confidence
interval zou berekenen, dan bevat 95% van die intervals de populatieparameter.
, o Maar: je weet nooit zeker of dit confidence interval de populatiewaarde bevat, of
wáár die valt.
Meetniveaus
- Nominaal: categorisch, verschilt enkel in naam;
o Voorbeeld: blauw, geel, paars, groen, rood;
- Ordinaal: categorieën met volgorde;
o Voorbeeld: hoogopgeleid, midden opgeleid, laagopgeleid;
- Interval: continu met betekenisvolle afstanden (intervallen). Elke stap is even groot;
o Voorbeeld: 1e plaats, 2e plaats, 3e plaats;
- Ratio: heeft een absoluut nulpunt, en daarom zijn verhoudingen (ratio’s) ook betekenisvol;
o Voorbeeld: thermometer met Kelvin en Celcius.
Toetsen
- Omdat er geen data over de gehele populatie is, is het onmogelijk om te bewijzen dat,
bijvoorbeeld, het populatiegemiddelde groter is dan 0;
- Daarom tonen we aan dat het heel onwaarschijnlijk is om onze data te verkrijgen, ALS het
populatiegemiddelde 0 zou zijn;
- Wat is de kans om data te observeren die “minstens zo extreem zijn” als onze steekproef,
ALS de nulhypothese waar zou zijn dat het populatiegemiddelde 0 is?
Stappenplan toetsing:
1. Hypotheses formuleren: H0 en Ha;
2. Test-statistiek berekenen;
a. Deze beschrijft hoeveel standaard errors het steekproefgemiddelde afligt van het
gemiddelde onder de nulhypothese;
3. P-waarde uitrekenen (kans op deze data of nog extremer, als H 0 waar is);
4. Conclusie trekken over nulhypothese.
Hypothese: toetsbare verwachting over een populatieparameter. Soorten hypotheses:
- Is het populatiegemiddelde groter dan 0?
- Is er een verschil tussen de populatiegemiddelden van twee groepen?
- Is het verband tussen twee variabelen groter dan 0?
P-waarde: hoe groot is de kans dat je een waarde in de steekproef vindt die minstens zo groot is als
wat ik heb gevonden als H0 waar zou zijn?
Soorten hypotheses:
- Ha: alternatieve hypothese, wat we denken dat er écht aan de hand is;
- H0: nulhypothese: er is “niets aan de hand”;
o Deze proberen we te verwerpen.
Je moet Ha zo formuleren dat deze H0 uitsluit.
- Non-directionele/ongerichte hypothese;
o Het gemiddelde verschilt (niet);
- Directionele/gerichte hypothese;
o Het gemiddelde is gelijk of kleiner dan/groter dan.
,Teststatistiek: waarde die aangeeft hoeveel SE’s je geobserveerde data afliggen van de verwachting
onder de nulhypothese.
Gebruik de t-test.
s
Standaardfout: SEm=
√n
Dan kijken we hoe “ver” ons geobserveerde steekproefgemiddelde M is t.o.v. de nulhypothese:
X−mu 0
Z=
SEM
Significantieniveau: als de kans (p-waarde) kleiner is dan deze drempelwaarde (alpha) verwerpen we
H0. Deze waarde is meestal alpha = .05.
Een strengere drempelwaarde zorgt voor minder foutieve bevestigingen van H a.
Tweezijdige toets: alpha = .05 is verdeeld over beide staarten van de sampling distribution
(normaalverdeling). Bij een eenzijdige toets ligt deze waarde volledig in één staart.
Met een eenzijdige toets heb je meer power om een H 0 te verwerpen ALS het effect in de verwachte
richting is. Je hebt echter geen power om de H 0 te verwerpen bij een effect in de omgekeerde
richting.
Power: het vermogen om H0 terecht te verwerpen.
Als p < alpha: je effect is statistisch significant.
Z: de standaard normaalverdeling. Als je de populatiestandaardafwijking weet, kan je deze waarde
uitrekenen.
Probleem: we weten bijna nooit wat sigma is;
Oplossing: we passen een “straf” toe om rekening te houden met de grotere onzekerheid die
ontstaat over onze toets, wanneer we sigma schatten o.b.v. de steekproef, en niet sigma uit
de populatie gebruiken;
o Deze straf leidt tot een verdeling met dikkere staarten dan de Z-verdeling en dit heet
de t-verdeling.
T-verdeling: maakt het moeilijker om een significante p-waarde te krijgen, omdat door de dikkere
staarten de p-waardes hoger worden.
Als n groot is, maakt deze straf niet meer uit en is t ongeveer gelijk aan Z.
( M 1−M 2 )−(mu 01−mu 02)
t=
SE( M 1−M 2)
- M1-M2 = geobserveerde verschil;
- Mu01-mu02 = verwachte verschil onder H 0;
- SE(M1-M2) = standard error voor het gemiddelde verschil.
Let op: we spreken van het verwerpen van H 0, nooit van het accepteren ervan, omdat er altijd
onzekerheid bestaat over conclusies o.b.v. een steekproef.
Logica toetsen gaat alleen op als je eerst een willekeurige steekproef trekt en dan je kansrekening
toepast.
, Je mag niet eerst een zeldzaam fenomeen observeren en die als je steekproef gebruiken en
dan een kansberekening uitvoeren.
De power wordt beïnvloed door:
- Grootte van het effect;
- Grootte van de “ruis” in je data (standaardafwijking);
- Aantal proefpersonen.
Type I fout: ten onrechte H0 verwerpen (voorbeeld Lucia de B.).
Type II fout: ten onrechte H0 niet verwerpen (voorbeeld Lance Armstrong).
Waarheid
Schuldig Onschuldig
Veroordelen Juiste beslissing! Type I fout: alpha
Vrij spreken Type II fout: bèta Juiste beslissing!
Week 1 SS: Schatting en toetsen
Puntschattingen
Populatieverdeling: de verdeling van een variabele in de populatie.
Gebruikte puntschattingen bij verschillende variabelen:
- Continue variabelen (ratio/interval meetniveau): steekproefgemiddelde;
- Discrete variabelen (nominaal/ordinaal): steekproefproportie.
De relevante puntschatting hangt dus altijd af van het meetniveau (inspecteren d.m.v. FREQUENCIES
commando).
Het gemiddelde en de proporties zijn maten voor centrale tendentie (central tendency).
Standaarddeviatie/-afwijking en ook het bereik (range) zijn maten voor de variantie (variance).
Let op: een proportie is eigenlijk het gemiddelde van een 0-1 variabele en daarom kan
dezelfde methode worden toegepast als bij het schatten van het populatiegemiddelde van
een continue variabele (je kijkt dus net als bij het berekenen van het gemiddelde ook bij
DESCRIPTIVES in de mean tabel bij het berekenen van de proportie).
Het is belangrijk je syntax te bewaren i.v.m. repliceerbaarheid van het onderzoek.
Populatiestandaardafwijking (sigma; σ) wordt geschat door de steekproefstandaardafwijking/-
deviate (s of SD). De noemer van s is n-1 en heet ook wel “vrijheidsgraden” of “degrees of freedom”.
Betrouwbaarheidsintervallen
Puntschattingen zijn onnauwkeurig, tenzij de steekproef de gehele populatie omvat. Een
puntschatting zelf heeft dus een verdeling, de steekproevenverdeling/sample distribution: het
resultaat van het herhaaldelijk steekproeven trekken uit een populatie en het vormen van de
verdeling van de puntschattingen.
Standaardfout/standard error: de standaarddeviatie van een sampling distribution. De
standaardfout van een steekproefgemiddelde hangt af van de populatiestandaarddeviatie (sigma) en
de steekproefomvang (n).