1
Inhoud
Les 1 – 11/02: probabiliteit en inferentiële statistiek ..................................................................................................................6
1. Gevorderde analyses en onderzoeksoftware ........................................................................................................................ 6
2. Even doordenken .................................................................................................................................................................. 6
3. Steekproevenverdeling ......................................................................................................................................................... 6
4. Basislogica inductie ............................................................................................................................................................... 6
5. Verdelingen ........................................................................................................................................................................... 6
6. Zuivere schatter ..................................................................................................................................................................... 7
7. Verwachting en variantie van kansvariabelen ....................................................................................................................... 7
7.1. Toegepast op fracties ................................................................................................................................................... 7
7.2. Toegepast op gemiddelden .......................................................................................................................................... 7
8. Centrale limietstelling ........................................................................................................................................................... 8
9. Onderzoek ............................................................................................................................................................................. 8
10. Basisbegrippen.................................................................................................................................................................. 8
10.1. Geen hypothesetoetsing zonder hypothesen ......................................................................................................... 8
10.2. Aanvaardingsinterval ............................................................................................................................................... 8
10.3. Betrouwbaarheidsinterval ....................................................................................................................................... 8
10.4. Eénzijdig en tweezijdig toetsen ............................................................................................................................... 9
10.5. Fouten van de eerste en de tweede soort (maak je altijd!)..................................................................................... 9
Les 2 – 18/02: Analyse van kruistabellen en percentages ..........................................................................................................10
1. Situering: afhankelijkheidstoetsen ...................................................................................................................................... 10
2. Kruistabellen........................................................................................................................................................................ 10
3. Andere invalshoek: verwachte frequenties ......................................................................................................................... 10
4. Volgende stap: alle discrepanties optellen (Chi-kwadraatverdeling = X²) ........................................................................... 10
5. Volgende stap: beslissing nemen over H0 ........................................................................................................................... 11
5.1. Zonder SPSS ................................................................................................................................................................ 11
5.2. Met SPSS .................................................................................................................................................................... 11
6. Conclusie Chi² afhankelijkheidstoets ................................................................................................................................... 12
7. Bijzonder geval: 2x2 tabel en df = 1..................................................................................................................................... 12
8. Analyse van percentage(s) .................................................................................................................................................. 12
9. 3 doelstellingen ................................................................................................................................................................... 13
9.1. Het betrouwbaarheidsinterval ................................................................................................................................... 13
9.2. Enkelvoudige hypothesetoets .................................................................................................................................... 13
9.3. Vergelijkingshypothesetoets ...................................................................................................................................... 13
Les 3 – 20/02: Analyse van rangen ............................................................................................................................................14
1. Situering .............................................................................................................................................................................. 14
2. Test 1: rangsomtoets van Wilcoxon .................................................................................................................................... 14
2.1. Algemeen ................................................................................................................................................................... 14
2.2. Voorbeeld ................................................................................................................................................................... 14
2.3. Knopen met gelijke waarden...................................................................................................................................... 15
2.4. Voorbeeld SPSS .......................................................................................................................................................... 16
2.5. Rangen ....................................................................................................................................................................... 17
2.6. Voorbeeld ................................................................................................................................................................... 17
, 2
3. Test 2: Kruskal Wallis test .................................................................................................................................................... 18
3.1. Algemeen ................................................................................................................................................................... 18
3.2. Kruskal-Wallis toets .................................................................................................................................................... 18
3.3. Voorbeeld ................................................................................................................................................................... 18
Les 4 – 25/02: analyse van gemiddelden ...................................................................................................................................19
1. Situering .............................................................................................................................................................................. 19
2. T-verdeling........................................................................................................................................................................... 20
3. T-test voor enkelvoudige steekproef .................................................................................................................................. 20
3.1. Betrouwbaarheidsinterval.......................................................................................................................................... 20
3.2. Aanvaardingsinterval.................................................................................................................................................. 20
3.3. Vergelijking van 2 gemiddelden ................................................................................................................................. 21
3.4. T-test voor ongelijke spreidingen ............................................................................................................................... 21
4. T-test voor gelijke spreidingen in samengestelde steekproef ............................................................................................. 22
5. Gepaarde t-test ................................................................................................................................................................... 23
Les 5 – 27/02: (M) ANOVA – variantie analyse ..........................................................................................................................24
1. Inleiding ............................................................................................................................................................................... 24
2. Een factor ANOVA – one-way-anova ................................................................................................................................... 24
2.1. Algemeen ................................................................................................................................................................... 24
2.2. Vergelijking tussen 2 groepen .................................................................................................................................... 25
2.3. Ontbinding der effecten ............................................................................................................................................. 25
2.4. One-way-anova met tabel .......................................................................................................................................... 26
2.5. One-way-anova met SPSS .......................................................................................................................................... 26
3. ANOVA met 2 factoren ........................................................................................................................................................ 27
4. Repeated measures ANOVA ................................................................................................................................................ 28
Les 6 – 04/03: Data kwaliteit .....................................................................................................................................................29
1. Elementaire screening: never trust data ............................................................................................................................. 29
2. Normaliteitstest................................................................................................................................................................... 29
3. Missing data: de juiste conclusies met partiele gegevens ................................................................................................... 30
3.1. Soorten missing data .................................................................................................................................................. 30
3.2. Tips om responsrate te verhogen en dus missing data te vermijden ........................................................................ 30
3.3. Item missing data ....................................................................................................................................................... 30
3.4. Unit missing data ........................................................................................................................................................ 34
Les 7 – 06/03: schaalontwikkeling .............................................................................................................................................36
1. Meetniveau’s ....................................................................................................................................................................... 36
2. Schalen ................................................................................................................................................................................ 36
3. Likert-schaal, somschalen en Cronbach Apha ..................................................................................................................... 37
4. Guttman schalen ................................................................................................................................................................. 38
5. Vergelijking Cronbach’s Alpha en Guttman ......................................................................................................................... 39
6. Voordelen van schaalontwikkeling ...................................................................................................................................... 40
7. Multiple respons data ......................................................................................................................................................... 40
Les 8 – 11/03: Principal components analysis factoranalyse .................................................................................................41
1. Meetmodellen ..................................................................................................................................................................... 41
2. PCA ...................................................................................................................................................................................... 41
3. SPSS ..................................................................................................................................................................................... 42
, 3
4. Voorbeeld ............................................................................................................................................................................ 43
5. Alternatief voor factorscores .............................................................................................................................................. 47
Les 9 – 13/03: Clusteranalyse ....................................................................................................................................................48
1. Inleiding ............................................................................................................................................................................... 48
2. Hiërarchisch ......................................................................................................................................................................... 48
2.1. Verschil agglomeratief en divisief .............................................................................................................................. 48
2.2. Hiërarchisch agglomeratief ........................................................................................................................................ 49
3. Standaardisatie .................................................................................................................................................................... 50
4. Niet hiërarchisch = K-means algoritme = parallel threshold ............................................................................................... 51
5. Extra analyses ...................................................................................................................................................................... 51
6. SPSS ..................................................................................................................................................................................... 51
7. Voorbeeld ............................................................................................................................................................................ 52
Les 10 – 18/03: regressieanalyse ...............................................................................................................................................55
1. Voorspellen begrijpen ......................................................................................................................................................... 55
2. Enkelvoudige regressieanalyse ............................................................................................................................................ 55
3. Meervoudige regressieanalyse ............................................................................................................................................ 57
4. Waarschuwing omtrent regressieanalyse ........................................................................................................................... 58
5. Regressieanalyse met SPSS.................................................................................................................................................. 59
5.1. Testen van hypotheses ............................................................................................................................................... 59
5.2. Path model voor regressie ......................................................................................................................................... 59
5.3. Voorbereiding tot regressie ....................................................................................................................................... 59
5.4. Decompositie ............................................................................................................................................................ 60
5.5. Model evaluatie ......................................................................................................................................................... 60
5.6. Voorbeeld ................................................................................................................................................................... 61
5.7. Model assumpties ...................................................................................................................................................... 64
Les 11 – 20/03: voorspellen in de praktijk .................................................................................................................................65
1. Voorspelling: doelstelling en data ....................................................................................................................................... 65
2. Regressie analyse vs. discriminantie analyse ...................................................................................................................... 65
3. Type 1: lidmaatschap van een segment voorspellen discriminantie analyse ................................................................. 65
4. Type 2: adoptie van nieuwe producten en services pre launch optimaliseren en uptake begeleiden en voorspellen
discriminantie ............................................................................................................................................................................... 66
5. Type 3: econometrie + audiometrie = meerwaarde regressie analyse .......................................................................... 67
5.1. Algemeen ................................................................................................................................................................... 67
5.2. Dummy regression (kleine zijsprong) ......................................................................................................................... 67
5.3. Voorbeeld onderzoek ................................................................................................................................................. 68
6. Voorspellen van nominale afhankelijke variabele ............................................................................................................... 69
6.1. Voorbeeld uit mobiliteitssegmentatie ....................................................................................................................... 69
6.2. Vocabularium ............................................................................................................................................................. 72
6.3. Praktisch ..................................................................................................................................................................... 72
7. Bepaling van een predictief model met voorspelling van segmentlidmaatschap ............................................................... 73
8. Onderzoek van Verleye naar mobiliteit ............................................................................................................................... 74
Les 12 – 25/03: structural equation modeling (SEM) .................................................................................................................75
1. Wat zijn structural equation models ................................................................................................................................... 75
2. Notatie ................................................................................................................................................................................. 76
, 4
2.1. Figuren en pijlen ......................................................................................................................................................... 76
2.2. Symbolen .................................................................................................................................................................... 76
2.3. Twee componenten van SEM ..................................................................................................................................... 76
2.4. Covariance matrixes of interest ................................................................................................................................. 76
2.5. Latente variabelen...................................................................................................................................................... 76
2.6. Voorbeeld ................................................................................................................................................................... 77
3. 3 types van SEM .................................................................................................................................................................. 77
3.1. Klassieke econometrie: multipe equations ................................................................................................................ 77
3.2. Confirmatory factor analysis ...................................................................................................................................... 78
3.3. General model ............................................................................................................................................................ 78
4. 5 stappen om een model te maken ..................................................................................................................................... 78
4.1. Specification ............................................................................................................................................................... 78
4.2. Implied Covariance Matrix ......................................................................................................................................... 79
4.3. Model Fit .................................................................................................................................................................... 79
4.4. Respecification ........................................................................................................................................................... 80
5. AMOS................................................................................................................................................................................... 80
5.1. Algemeen ................................................................................................................................................................... 80
5.2. Theory ........................................................................................................................................................................ 81
5.3. Model specification .................................................................................................................................................... 81
5.4. Sample and measures ................................................................................................................................................ 82
5.5. Estimation .................................................................................................................................................................. 83
5.6. Assessment of fit = goodness of fit ............................................................................................................................ 84
5.7. Modification ............................................................................................................................................................... 87
5.8. High order factor analysis .......................................................................................................................................... 88
6. Conclusie ............................................................................................................................................................................. 88
Les 13 – 01/04: Bijzondere technieken ......................................................................................................................................89
1. Inleiding ............................................................................................................................................................................... 89
2. Multidimensional scaling = MDS ......................................................................................................................................... 89
2.1. Mental mapping ......................................................................................................................................................... 89
2.2. Voorbeeld 1 – auto’s .................................................................................................................................................. 89
2.3. Voorbeeld 2 – merkenbelevenis ................................................................................................................................ 91
3. Correspondentie-analyse .................................................................................................................................................... 92
3.1. Algemeen ................................................................................................................................................................... 92
3.2. Voorbeeld 1 – auto’s en voeding................................................................................................................................ 93
3.3. Voorbeeld 2 – new consumer project ........................................................................................................................ 94
3.4. Voorbeeld 3 – evolutionaire psychologie ................................................................................................................... 95
4. Tree analysis ........................................................................................................................................................................ 96
4.1. Algemeen ................................................................................................................................................................... 96
4.2. Voorbeeld 1 HR studie ............................................................................................................................................... 96
4.3. Voorbeeld 2 – kredietstudie ....................................................................................................................................... 97
4.4. Voorbeeld 3 – Drink & drive studie ............................................................................................................................ 97
4.5. In de praktijk: durf alternatieven aan ......................................................................................................................... 97
Les 14 – 03/04: Mediation & moderation ..................................................................................................................................98
1. Inleiding ............................................................................................................................................................................... 98
, 5
1.1. Algemeen ................................................................................................................................................................... 98
1.2. Mediator of moderator .............................................................................................................................................. 98
1.3. Geschiedenis .............................................................................................................................................................. 98
1.4. Voorbeeld 1 - Mediator .............................................................................................................................................. 98
1.5. Voorbeeld 2 .............................................................................................................................................................. 100
2. Mediator ............................................................................................................................................................................ 101
2.1. Algemeen ................................................................................................................................................................. 101
2.2. Context ..................................................................................................................................................................... 101
2.3. Via klassieke OLS regressie ....................................................................................................................................... 102
2.4. Via Booststrapping - SPSS Hayes macro’s ................................................................................................................ 105
2.5. Andere mogelijke modellen uit de lijst .................................................................................................................... 108
3. Moderator = continue variabele ....................................................................................................................................... 109
3.1. Algemeen ................................................................................................................................................................. 109
3.2. Context ..................................................................................................................................................................... 109
3.3. Via klassieke OLS regressie ....................................................................................................................................... 110
3.4. Via bootstrapping - SPSS Hayes macro’s .................................................................................................................. 111
4. Moderator = binaire variabele .......................................................................................................................................... 115
4.1. Context ..................................................................................................................................................................... 115
4.2. Via bootstrapping - SPSS Hayes macro’s .................................................................................................................. 116
Les 15 – 24/04: voorbeeldonderzoeken ................................................................................................................................... 118
1. Onderzoek 1 ...................................................................................................................................................................... 118
Les 16 – 29/04: gastles – Filip Lemaitre ................................................................................................................................... 119
1. Bureau50.be ...................................................................................................................................................................... 119
2. Onzekerheid van onderzoek .............................................................................................................................................. 119
3. Reclame afstemmen op de doelgroep .............................................................................................................................. 119
4. Persona’s – kwalitatief onderzoek..................................................................................................................................... 119
Les 17 – 06/05: gastles google analytics .................................................................................................................................. 121
1. Introductie analytics .......................................................................................................................................................... 121
2. Online succes ..................................................................................................................................................................... 121
3. Statistieken en dimensies .................................................................................................................................................. 121
4. Analytics implementatie .................................................................................................................................................... 122
5. Analytics interface ............................................................................................................................................................. 123
Overzicht analyses .................................................................................................................................................................. 127
Examen ................................................................................................................................................................................... 128
1. Puntenverdeling ................................................................................................................................................................ 128
2. Wat kunnen/kennen ......................................................................................................................................................... 128
3. Tips .................................................................................................................................................................................... 128
4. Voorbeeld examen: gesloten boek .................................................................................................................................... 129
5. Voorbeeld examen: open boek ......................................................................................................................................... 130
6. Vragen van studenten ....................................................................................................................................................... 133
, 6
Les 1 – 11/02: probabiliteit en inferentiële statistiek
1. Gevorderde analyses en onderzoeksoftware
Analyse Kwantitatief Kwalitatief
Software SPSS, AMOS, StatsHub Nvivo, QSort
Belangrijk onderscheid tussen steekproefparameters en populatieparameters
Steekproef Populatie
Gemiddelde 𝑥̅ µ
Percentage 𝑝 𝜋
Standaardafwijking s σ
Variantie s² σ²
2. Even doordenken
Kwantitatief onderzoek gebeurt o.b.v. een steekproef waarbij we een aantal mensen (N) bevragen/observeren:
Kunnen we o.b.v. 1 steekproef waar we 𝒙 ̅ meten, exact het echte populatiegemiddelde µ kennen?
neen er zal altijd een foutmarge zijn, deze moeten we zo klein mogelijk maken
we krijgen wel een indicatie, een benadering
Zal een steekproef op maandag 11u exact hetzelfde beeld geven als op een ander moment?
neen, er zal altijd foutmarge zijn, deze moeten we zo klein mogelijk maken
Wat als we 1.000 steekproeven nemen en daarvan het ‘super’-gemiddelde berekenen?
betere benadering van het populatiegemiddelde, afwijkingen heffen elkaar op
Is een grote steekproef beter dan een kleine steekproef?
hoe groter de steekproef, hoe meer de steekproefparameter de populatieparameter zal benaderen
3. Steekproevenverdeling
Steekproefgrootheden (bv. percentage p) zijn kansvariabelen
De steekproevenverdeling geeft weer hoe de steekproefgrootheden variëren bij een onbeperkt aantal
herhaalde steekproeftrekkingen
De kennis van die ‘sampling distribution’ laat ons toe om op basis van 1 steekproef:
- Scherpe uitspraken te doen over de populatiewaarden (bv. hoe groot is het percentage klimaatbezorgden)
- Beweringen te toetsen (bv. kan het echte percentage gelijk zijn aan een bepaalde waarde bv. 𝜋 = 0,70
4. Basislogica inductie
Via steekproefgrootheden schatten we populatiegrootheden
We gebruiken daarvoor zuivere schatters:
- Gemiddelde van de steekproevenverdeling (verwachting) = populatiegrootheid
Spreiding neemt af naarmate de steekproefomvang groter wordt
- Variantie en standaardafwijking zijn spreidingsmaten waarbij N in de noemer staat. Dit impliceert dat als N
stijgt, de variantie en standaardwijking dalen (= de waarnemingen concentreren zich meer rond het
gemiddelde)
Vertekening mogelijk door steekproefontwerp
Steekproevenverdeling bezit spreiding
- Gemeten via standaardafwijking van die steekproevenverdeling (standaardfout of standard error)
𝑝 (1−𝑝)
- se (p) = √
𝑁
5. Verdelingen
2 soorten verdelingen die goed uit elkaar moeten gehouden worden:
- Populatieverdeling: verdeling van variabele in populatie
- Steekproevenverdeling: ‘gedrag’ van steekproefgrootheid bij onbeperkt aantal trekkingen
Vooraleer het maken van inducties: studies van steekproevenverdelingen van gangbare
steekproefgrootheden
, 7
6. Zuivere schatter
Hoge vertekening = niet valide
Hoge variabiliteit = niet betrouwbaar
Linksboven: niet valide, wel betrouwbaar
niet goed, bias van de echte waarden
Rechtsboven: wel valide, niet betrouwbaar
niet goed
Linksonder: niet valide, niet betrouwbaar
slechtste situatie
Rechtsonder: wel valide, wel betrouwbaar
hier moeten we naar streven
7. Verwachting en variantie van kansvariabelen
Aantal X Aantal keer een bepaalde respons
Waarnemingen N Aantal respondenten die ondervraagd/geobserveerd worden
Fractie X/N Aantal keer een bepaalde respons in verhouding tot het aantal waarnemingen
Het aantal en de fractie zijn kansvariabelen
µ𝑥 = ∑𝑘𝑖=1 𝑥𝑖 𝑃𝑖
𝜎𝑥2 = ∑𝑘𝑖=1(𝑥𝑖 − µ𝑥 )² 𝑃𝑖
Kan ook eenvoudiger: via Zi = de kansvariabele
- Zi = 1 succes P(Zi = 1) = p
- Zi = 0 mislukking P(Zi = 0) = 1 – p
µ𝑧 = 1 ∗ 𝑝 + 0 ∗ (1 − 𝑝) = 𝑝
𝜎 = (1 − 𝑝)2 𝑝 + (0 − 𝑝)2 (1 − 𝑝)
= (1 − 𝑝)2 𝑝 + 𝑝2 (1 − 𝑝)
= (1 − 𝑝)((1 − 𝑝)𝑝 + 𝑝 2 )
= (1 − 𝑝)(𝑝 − 𝑝2 + 𝑝2 )
= 𝑝(1 − 𝑝)
Aantal X = aantal keer 1 in de Zi’s = som van nullen en eentjes
X = Z1 + Z2 + Z3 + … Zn
Optelregel voor verwachtingen:
µ𝑋 = µ𝑍1 + µ𝑍2 + µ𝑍3 + ⋯ µ𝑍𝑛 = np
Optelregel voor varianties:
𝜎 2𝑋 = 𝜎²𝑍1 + 𝜎²𝑍2 + 𝜎²𝑍3 + ⋯ 𝜎²𝑍𝑛 = n 𝜎 ²z = np(1-p)
7.1. Toegepast op fracties
Schatting maken van 𝜋 via schatter p
P = aantal successen in steekproef / steekproefomvang = X / N altijd decimaal uitdrukken
𝜎2𝑋 𝑁𝑝(1−𝑝) 𝑝(1−𝑝) 𝑝(1−𝑝)
𝜎 2𝑝 = 𝜎 2𝑋 = = = → 𝜎𝑝 = √
𝑁 𝑁2 𝑁2 𝑁 𝑁
µ𝑋 N𝜋
µ𝑝 = µ𝑋 = = =𝜋
𝑁
𝑁 𝑁
Dus zuivere schatter + hoe groter N, hoe kleiner de variantie (𝜎²) en dus hoe kleiner de spreiding
7.2. Toegepast op gemiddelden
Naar analogie met fracties: steekproefgrootheden zijn kansvariabelen
Steekproefgemiddelde ̅ 𝒙 is een zuivere schatter van populatiegemiddelde µ
Steekproevenverdeling van 𝒙 ̅ bepaald door steekproefontwerp, steekproefomvang en populatieverdeling
𝑥̅ = (X1 + X2 + X3 + … XN ) / N
Verwachting van 𝑥̅ is populatiegemiddelde (zuivere schatter)
µ +µ +⋯ µ
µ N
µ𝑥̅ = 𝑋1 𝑋2𝑁 𝑋𝑁
= 𝑁 =µ
Hoe groter N, hoe kleiner de variantie (𝜎²) en dus hoe kleiner de spreiding
𝜎2 𝑋1 + 𝜎2 𝑋2 +⋯ 𝜎2 𝑋𝑁 N𝜎2 𝜎2 𝜎
𝜎2 𝑥̅ =
𝑁²
= 𝑁²
=𝑁 𝜎𝑥̅ =
√𝑁
, 8
8. Centrale limietstelling
̅ een normale verdeling
Bij grotere N: ook al de populatieverdeling niet normaal is, volgt 𝒙
- Hoe sterker de afwijking van normaalverdeling, hoe groter N moet zijn, met N vanaf 30 meestal OK
Verdeling van som of gemiddelde van vele kleine toevalsgrootheden benadert sterk de normale verdeling
Dit geeft aan waarom vele geobserveerde variabelen sterk een normaalverdeling benaderen
9. Onderzoek
Hypothesetoetsing
Nagaan of een geformuleerde veronderstelling over de werkelijkheid, met een bepaalde betrouwbaarheid,
statistisch gevalideerd kan worden
Nagaan in welke mate onderzoekresultaten aan het toeval te wijten zijn of niet
10. Basisbegrippen
10.1. Geen hypothesetoetsing zonder hypothesen
Nulhypothese H0 Alternatieve hypthese H1
Parameter = waarde Niet normaal, wel effect, wel verschil, wel correlatie
Normaal, geen effect, geen verschil, geen correlatie
Het doel is om tot een statistische validering/aanvaarding van H0 te komen. Wijkt het gevonden steekproefresultaat
teveel af van H0 dan wordt H0 verworpen, en dienen we de alternatieve hypothese H1 te aanvaarden.
Logisch misschien, maar wanneer is de afwijking groot genoeg om H0 te verwerpen?
Afhankelijk van het aanvaardings- en verwerpingsinterval (zie hieronder)
10.2. Aanvaardingsinterval
Toont of we H0 of H1 moeten aanvaarden
- In het centrum van het interval ligt de waarde onder H0
We werken met steekproeven dus moeten we rekening houden met toeval en variatie
- 10 steekproeven resulteren 10 verschillende resultaten afwijking is normaal
We moeten dus een marge inbouwen = aanvaardinginterval
Binnen de set van mogelijke waarden die een parameter kan aannemen onder H0, dient een subset van
waarden vastgelegd te worden die, rekening houdend met afwijkingen door het toeval, toelaten om H0 te
aanvaarden (= aanvaardingsinterval)
Dit leidt automatisch tot een subset van waarden die zo extreem zijn, die zo’n kleine kans op voorkomen
hebben onder H0, dat zij ons toelaten H0 te verwerpen en H1 te aanvaarden (= verwerpingsinterval/
kritische zone)
Voorbeeld De Morgen
Volle lijn: rekening houdend met H0 = 76.000, zijn de mogelijke oplage-waarden als volgt normaal verdeeld
Stippellijnen: de mogelijke verdelingen onder H1.
Aanvaardingsint.: tussen 2 strepenH0 aanvaardenfout 2e soort
Verwerpingsint.: buiten 2 strepenH1 aanvaardenfout 1ste soort
10.3. Betrouwbaarheidsinterval
Toont met welke zekerheid de populatieparameter binnen een interval ligt
- In het centrum van het interval ligt de steekproefparameter
De grootte van het aanvaardings- en verwerpingsinterval is afhankelijk van
het betrouwbaarheidsniveau (zekerheid) of significantieniveau α
(onzekerheid) dat gekozen wordt. Het betrouwbaarheidsniveau en
significantieniveau zijn complementair: als het betrouwbaarheidsniveau
95% dan is het significantieniveau 5%.
Het significantieniveau is de fout die je bereid bent te betalen bij het verwerpen van H0.
Een grotere α zorgt voor een kleiner aanvaardingsinterval en een groter verwerpingsinterval. Een grotere α
impliceert dus een kleinere kans om H0 te aanvaarden, en een grotere kans om H1 te aanvaarden.
Hoe kleiner α, hoe veiliger je dus speelt (meer kans om H0 te aanvaarden), maar ook minder nauwkeurig
(meer kans om H0 te aanvaarden terwijl dat in feite niet correct is).
, 9
Het betrouwbaarheidsinterval is het interval waarin, met een vooraf vastgelegde waarschijnlijkheid, de
echte populatieparameter valt.
Het betrouwbaarheidsinterval is een schatting van de foutenmarge. Deze foutenmarge bestaat uit een
schatting van de standaardafwijking van de populatie (σ) en een betrouwbaarheidsniveau (C = 1 – α).
C = 90% z = 1,645 C = 95% z = 1,950 C = 99% z = 2,576
σ σ
Betrouwbaarheidsinterval opstellen = 𝑥̅ − 𝑧 ∗ < µ < 𝑥̅ + 𝑧 ∗
√𝑛 √𝑛
- Hoe groter het betrouwbaarheidsniveau, hoe breder het betrouwbaarheidsinterval
- Hoe groter σ (standaardafwijking van de populatie), hoe breder het betrouwbaarheidsinterval
- Hoe groter N (aantal waarnemingen), hoe smaller het betrouwbaarheidsinterval
Voorbeeld
N = 100; s = 5 (we kennen σ niet, we hebben enkel s als benadering); 𝑥̅ = 46 uren; 95% betrouwbaarheidsinterval
5 5
= 46 − 1,96 ∗ < µ < 46 + 1,96 ∗ = 45,02 < µ < 46,98 foutenmarge = 0,98
√100 √100
10.4. Eénzijdig en tweezijdig toetsen
10.5. Fouten van de eerste en de tweede soort (maak je altijd!)
Fouten van de eerste soort = waarde gekend Fouten van de tweede soort = niet gekend
α (= p = significantieniv.) = correcte H0 ten onrechte verwerpen β = foute H0 ten onrechte aanvaarden
De waarneming is te hoog/laag waardoor het buiten het aan- De waarneming valt in het aanvaardings-
vaardingsinterval valt, maar toch is er geen significant verschil. aanval, maar er is toch een significant verschil.
Belangrijke figuur!
H0 gaat uit van een gemiddelde oplage x
Blauwe curve toont de verdeling onder 𝑥̅ als H0 waar is
We werken met een betrouwbaarheidsinterval van
95%. Dit betekent dat er een significantieniveau is van
0,05, die verdeeld wordt langs beide zijden (0,025).
Hierdoor komen we tot het aanvaardingsinterval.
Roze arcering:
Toevalstrekking valt buiten het aanvaardingsinterval,
waardoor we H0 verwerpen. Dit is verkeerd, aangezien
deze waarnemingen toch binnen de echte verdeling
liggen. Dit kennen we, dit hebben we onder controle.
Bruine arcering:
Toevalstrekking valt binnen het aanvaardingsinterval, waardoor we H0 aanvaarden. Dit is echter verkeerd aangezien
de echte verdeling ergens anders ligt. Dit kennen we niet aangezien we de populatie niet kennen. We hebben dit dus
niet onder controle.
Power van de test
=1 -β
De kans om een foute H0 ten onrechte te verwerpen = fouten van de eerste soort
Op figuur: vanaf rechtste zwarte verticale lijn van AI tot het einde van de zwarte stippellijn.
Als we het interval verplaatsen, zullen zal de ene fout groter worden en de andere kleiner. Een grotere α
zorgt namelijk voor: een grotere kans op fouten van de 1ste soort en een kleine kans op fouten van de 2e
soort. De fouten kunnen ook opgelost worden door grotere steekproeven te trekken.
, 10
Les 2 – 18/02: Analyse van kruistabellen en percentages
1. Situering: afhankelijkheidstoetsen
In heel veel analyses focus op bi-variate analyse: is er een relatie/verband tussen variabele X en Y?
- H0: er is geen verband
- H1: er is wel een verband
De aanpak is afhankelijk van het meetniveau van de variabelen X en Y: nominaal, ordinaal of interval/ratio
X Y Analyse
Nominaal Nominaal Kruistabelanalyse
Ordinaal KTA/rang analyse
Interval/ratio Gemiddelden analyse
Ordinaal Ordinaal Rangcorrelaties
Interval/ratio (rang)correlaties
Interval/ratio Interval/ratio Correlatiecoëfficiënt (enkel lineariteit!)
2. Kruistabellen
Fij = aantallen, de frequenties
Som van de marginale frequenties
= steekproefgrootte N
Is 77 groot genoeg om te zeggen dat Vlamingen
meer bezorgd zijn dan Brusselaars (67) of Walen
(47)? Is er m.a.w. een relatie tussen de regio en
de bezorgdheid?
De hamvraag
Is er een verband tussen rij- en kolomvariabele?
Vaak beantwoord met rij en/of kolompercentages
Geeft trends aan, maar biedt geen zekerheid over het feit of er
nu echt een relatie is of niet.
Toeval kan je op die manier niet uitsluiten
3. Andere invalshoek: verwachte frequenties
Welke Fij zou ik zien als er zeker geen verband is tussen X en Y?
Bv. hoeveel Vlamingen verwacht ik die ‘ja’ zeggen?
= (aantal ‘ja-zeggers’ * aantal Vlamingen) / N
= (201*100)/300 = 67
Dus verwachte frequentie = F*ij = (Fi0F0j)/N
Conclusie: we hebben er 10 meer (77) dan verwacht onder H0
(67)
4. Volgende stap: alle discrepanties optellen (Chi-kwadraatverdeling = X²)
We berekenen de volgende metriek:
∗
(𝐹𝑖𝑗 − 𝐹𝑖𝑗 )² (𝑤𝑎𝑎𝑟𝑔𝑒𝑛𝑜𝑚𝑒𝑛 𝑓𝑟𝑒𝑞𝑢𝑒𝑛𝑡𝑖𝑒 − 𝑣𝑒𝑟𝑤𝑎𝑐ℎ𝑡𝑒 𝑓𝑟𝑒𝑞𝑢𝑒𝑛𝑡𝑖𝑒)²
X²b = ∑𝑟𝑖=1 ∑𝑘
𝑗=1 ∗ =
𝐹𝑖𝑗 𝑣𝑒𝑟𝑤𝑎𝑐ℎ𝑡𝑒 𝑓𝑟𝑒𝑞𝑢𝑒𝑛𝑡𝑖𝑒
Indien H0 (= geen verband) juist is, dan volgt X²b een gekende verdeling:
2
𝑋(𝑟−1)(𝑘−1)
Waarbij “(r-1)(k-1)” gelijk is aan het aantal vrijheidsgraden (df)