Statistiek I
,Hoofdstuk 1: inleiding: over statistiek, statistieken en mathemafobia
1) Wat is statistiek?
• Statistiek ≠ wiskunde
➔ MAAR we maken wel gebruik van wiskundige inzichten en concepten (‘wiskundige
wetenschap’)
• Statistiek = de wetenschap v/h verzamelen, organiseren, presenteren, analyseren en
interpreteren van gegevens of data volgens een numerieke logica.
- Historische context : ‘statisticum’ (Latijn) = ‘van de staat’ ; ‘Statista’ (Italiaans) =
‘staatsman’
- Technologische vooruitgang : rekenmachines software (SPSS, SAS, Stata …)
- Secundaire analyse = een grondvorm v/h sociaalwetenschappelijk onderzoek waarbij
gegevens die door anderen werden verzameld, al of niet voor andere doeleinden
worden hergebruikt.
- Data archieven
• 2 soorten statistiek:
➔ Descriptieve (beschrijvende) statistiek
➔ Inferentiële (verklarende/analytische) statistiek
2) Waarom statistiek?
• Om bestaand onderzoek te begrijpen en te bekritiseren en om je eigen onderzoek te
kunnen uitvoeren
• Statistiek is overal!
3) Statistiek: 3 intrigerende paradoxen
a) Statistici zijn wereldvreemde en saaie ‘number crunchers’ vs. de populariteit van
statistische gegevens
b) Statistiek is een ‘harde’ wetenschap vs. met statistiek kan je alles bewijzen
c) Statistiek en wiskundige angst vs. het relatief hoge niveau v/d wiskundige kennis van
onze studenten
, 4) Alternatieve invalshoek
• Focus op sociaalwetenschappelijke gegevens en dus toepassingsgericht
➔ Belangrijk element in definitie: ‘analyseren van numerieke feiten’ vs. ‘analyseren van
feiten volgens een numerieke logica’
➔ Fundamenteel kritische aanpak
Hoofdstuk 2: data statistisch onder de loep genomen
1) 2 soorten van statistiek
➔ Beschrijvende statistiek (semester 1) = het beschrijven v/d gegevens v/e steekproef
of populatie m.b.v. tabellen, grafieken en kengetallen
➔ Inferentiële statistiek (semester 2) = o.b.v. steekproefgegevens uitspraken doen over
de populatie
2) Opzet cursus
Steekproef -> -> populatie
Semester 1 Kansrekening semester 1
<- <-
Semester 2
3) Datamatrix
• Datamatrix = een tabel, bestaande uit rijen en kolommen, die de basis vormt v/e
groot aantal statistische analyses
, Kolommen
Bv’s X1 (geslacht) X2 (aantal X3 (aantal Totaal
gefietste km) gelopen km)
1 Vrouw 20 15 35
2 Man 40 7 47
3 Man 45 8 53
4 Vrouw 30 10 40
5 Vrouw 25 5 30
6 Man 35 9 44
7 Vrouw 40 8 48
Totaal 235 62 297
Rijen
• Datamatrix (mv. datamatrices) = ‘grondstof’ voor statistisch onderzoek !
- Onderzoekselementen of cases = datgene waar we iets over willen zeggen
Vb. 7 bv’s die meedoen aan benefietgebeuren
- Variabelen = kenmerken v/d onderzoekselementen, die kunnen variëren
Vb. X1 = ‘geslacht’, x2 = ‘aantal gefietste km’, x3 = ‘aantal gelopen km’…
- Meetwaarden/observaties = waarde v/e onderzoekselement op een variabele
Vb. Man heeft 40 km gefietst en 10 km gelopen
• Onderzoekselementen steeds op de rijen
• Variabelen op de kolommen
• Meetwaarden/observaties i/d tabel
Voorbeelden datamatrix
(1)
, (2)
4) Onderzoekselementen
• Steekproef (sample) n = onderzoekselementen vormen een deel v/e groter geheel
aan elementen (vb. 1000 Vlaamse burgers)
• Populatie N = alle mogelijke onderzoekselementen (vb. alle Vlaamse burgers)
➔ Census
= volkstelling
- Populatie of steekproef?
➔ Tijd en geld
➔ Risico op selectiebias (zeker bij Census)
➔ Steeds meer gebruik van steekproeven (zeker bij grote populaties)
5) Sampling
• Literary Digest-schandaal = tijdschrift probeerde voor Amerikaanse
presidentsverkiezingen accuraat te voorspellen welke kandidaat het zou halen. Het
voorspelde uiteindelijk dat Alfred Landon het zou halen o.b.v. enorm aantal
predicties.
MAAR Franklin Roosevelt wint toch. (vooral hogere inkomenscategorieën, die veelal
republikeins stemden, waren vertegenwoordigd)
➔ Beter 1000 aselecte mensen selecteren dan 100.000 die zich vrijwillig hebben
ingeschreven.
➔ Literary Digest maakte gebruik van ‘straw poll’ = zoveel mogelijk formulieren uitdelen
= selectiebias : altijd kritisch nadenken hoe data verzameld zijn
➔ ‘grote N-fetisj’
, • George Gallup
➔ Slaagde er wel in om de correcte president te voorspellen
- Maakte zijn schatting o.b.v. een min of meer ‘toevallige’ steekproef van ‘slechts’
50.000 kiesgerechtigden
= enkelvoudige aselecte steekproef (EAS)
(‘random sample’ i/h Engels)
! Randomness/aselectie is belangrijker dan steekproefgrootte !
(Maar als de steekproef random is, is een grote n beter dan een kleine n.)
EAS: mogelijke bias
Vb. winteruur – zomeruur : Europees referendum
Mogelijke bias:
- Undercoverage = sommige groepen worden niet serieus genomen, want bepaalde
mensen in Europa beschikken niet over een internetverbinding.
- Selectiebias = wanneer men ‘tegen’ is, zal men sneller deelnemen a/h referendum en
in sommige landen wordt er meer aandacht aan besteed (vb. Duitsland werd zeer
sterk gemobiliseerd)
- Non-responsbias = lager opgeleiden hebben minder vaak de neiging om te
antwoorden op een bepaalde peiling, eerder populair bij hoger opgeleiden.
, • ‘The good’
- EAS of Enkelvoudige Aselecte Steekproef
= elk element uit de populatie heeft een even grote kans om geselecteerd te worden
(vb. door randomcijfers)
- Clustersteekproef/getrapt aselect
= oplossing voor de hoge kostprijs van aselecte steekproeven; minder duur
Genest -> men onderscheidt eenheden op verschillende geneste niveaus (vb.
individuen zijn genest in gemeenten, gemeenten zijn genest in provincies…)
Tweetrapssteekproef -> binnen elk niveau gaat men vervolgens op toevallige basis
een aantal eenheden kiezen; binnen de toevallig gekozen primaire eenheden kiest
men nadien een aantal secundaire eenheden = onderzoekselementen.
Men kan ook meer dan 2 trappen inbouwen.
- Gestratificeerde steekproef
= gebruik maken van voorkennis (= ‘a priori’) bij de selectie v/e steekproef; populatie
valt uiteen in verschillende subgroepen die zich op een duidelijk onderscheiden wijze
verhouden tot het te onderzoeken kenmerk
➔ Men trekt toevalssteekproef uit elk v/d verschillende subgroepen i/d populatie.
Vb. presidentsverkiezingen VS -> grote staten hebben recht op meer kiesmannen dan
kleinere.
Bij alle 3 worden steekproeven steeds ASELECT getrokken !!
• ‘The bad’
- Convenience steekproef
= niet goed; steekproef ≠ representatief
• ‘The ugly’
- Quota steekproef
= 2 soorten van bias die resultaten totaal kunnen beïnvloeden
Ook hier maakt men gebruik van voorkennis bij de selectie v/d onderzoekselementen
-> veel gelijkenissen met de gestratificeerde steekproef
Cruciaal verschil?
➔ Discretie v/d interviewer is belangrijk om de onderzoekselementen binnen de vooraf
gedefinieerde quota te selecteren (vb. enkel terugvallen op kennissenkring =
selectiebias!)
, 6) Aggregatieniveau
Aggregatieniveau = niveau van optelling (micro, meso of macro)
• Micro
- Bv’s, burgers, studenten, gebouwen, bedrijven, krantenartikelen…
• Meso
- Beroepsgroepen, verenigingen, organisaties, scholen…
• Macro
- Gemeenten, landen…
Ecologische meetfout (‘ecological fallacy’) = wanneer onderzoekers o.b.v. gegevens op
macro of mesoniveau een uitspraak doen over individuen op microniveau.
Vb. Simpson paradox
▪ Simpson stelde vast dat er bij een medische ingreep proportioneel meer
slachtoffers overlijden in ziekenhuis B dan in ziekenhuis A. Toch zou hij zich
altijd in ziekenhuis B laten behandelen, want als men rekening houdt met de
ernst van de klachten blijkt ziekenhuis B proportioneel altijd beter te scoren.
Alle patiënten
Ziekenhuis A Ziekenhuis B
Overlijden 61 77
17% 22%
Overleven 289 273
83% 78%
350 350