Statistiek
inhoudstafel
0.1. Statistiek in de sociale wetenschappen
0.2. Opzet, doelstellingen en benadering
0.3. Bevolkings- vs. Steekproefgegevens
1.1. Basisconcepten
1.2. Frequentieverdelingen
1.2.a. Absolute, relatieve en cumulatieve frequenties, klassenindeling
1.2.b. Frequentietabel
1.2.c. Grafische voorstellingen
1.3. Maten van positie
1.2. Frequentieverdelingen
1.2.c. Grafische voorstellingen
1.2.c. Grafieken
Taartdiagram
1.3. Maten van positie
1.4. Maten van spreiding
1.5. Vorm van een verdeling
1.6. Transformaties van variabelen
1.7. Dichtheidskrommen
1.7.a. Algemene kenmerken
1.7.b. De normaalverdeling
1.7.c. Rekenen in de standaardnormaalverdeling
1.7.d. Controle op ‘normaliteit’
1.7. Dichtheidskrommen
1.7.a. Algemene kenmerken
2.1. Doelstellingen
2.2. Relaties tussen categorische variabelen
2.2.d. Op Chi-kwadraat gebaseerde associatiematen
2.3. Correlatie- en regressie-analyse
1
,2.4. Limieten van de bivariate beschrijvende statistiek: Opstap naar multivariate
analyse
3.1. Kansrekenen
3.2. Kansvariabelen
3.3. Steekproevenverdeling voor:
3.3.a. Proporties
3.3.b. Gemiddelden
3.3.c. Centrale limietstelling
3.4. Basistools van inductieve statistiek
3.4.a. Betrouwbaarheidsintervallen
3.4.b. Significantietoetsen
3.4.c. Gebruik en misbruik van toetsen
3.5. Inferentie voor:
3.5.a. Eén verwachting
3.5.b. Verschil tussen verwachtingen
3.5.a. Inferentie voor één verwachting
3.6. Inferentie voor:
3.6.a. Eén proportie
3.6.b. Verschil tussen twee proporties
3.7. Inferentie voor kruistabellen: chi²
2
,Inleiding
0.1. Statistiek?
sociale wetenschappen: maatschappelijke fenomenen en processen
begrijpen, verklaren en ‘voorspellen’
-> fundamenteel wetenschappelijke kennis
-> beleidsrelevante inzichten
theorie: samenvatting kennis
empirie: kwantitatief vs. kwalitatief onderzoek
statistiek in de opleiding
statistiek als maatschappelijk fenomeen
Statistiek als maatschappelijk fenomeen
aandacht voor ‘onderzoek’ en ‘peilingen’ neemt alsmaar toe in
media en op sociale media
maar: wat met de kwaliteit ? Zijn de bevindingen betrouwbaar ?
zwaar problematisch
kunnen gebruiker op verkeerde been zetten
foutieve (beleids)conclusies
harde cijfers en spelen met termen als ‘representatief’ verdoezelen
vaak de bedrieglijke aard van slecht ‘onderzoek’
Kwaliteitscriteria onderzoek (selectie)
Transparantie
Kwaliteit toevalsteekproef
Inzicht in non-respons en bias (vertekening)
Zorg voor vraagverwoording
Werken met statistische procedures want veelal steekproefdata
Bevolkingsgegevens vs. steekproefgegevens
o bevolkingsgegevens
informatie over volledige onderzoekspopulatie
weinig twijfels als gegevens valide en betrouwbaar
-> beschrijvende statistiek volstaat
o gegevens afkomstig uit steekproef
3
, selectie van eenheden uit onderzoekspopulatie: steekproef
steekproef = deelverzameling van n eenheden uit populatie
bijkomende twijfel of steekproef goede afspiegeling vormt van
volledige populatie; uitkomsten kunnen verschillen naargelang
steekproef
inductieve statistiek: op basis van informatie uit steekproef
uitspraken doen over populatie
o inductieve statistiek: steekproefgrootheid gebruiken om
populatieparameter te schatten (schatten van de grootte van de
fout)
o strikt noodzakelijk: systematische toevalsprocedure
elke eenheid in populatie zelfde kans om in steekproef
opgenomen te worden via Enkelvoudige A-selecte Steekproef
(EAS)
of algemener: elke eenheid gekende kans om in steekproef
opgenomen te zijn
indien niet: enkel uitspraken over onderzochte eenheden
toevalssteekproef optimaliseert ook representativiteit (steekproef
wijkt niet systematisch af van populatie waaruit steekproef
getrokken is; is goede weerspiegeling van bevolking)
Univariate beschrijvende statistiek
4
,1.1. Basisconcepten
a. Onderzoekspopulatie, statistische eenheid
o voorbeeld:
onderzoeksvraag: ‘verklaren’ verschillen in museumbezoek bij
studenten 1BA PSW
stel korte vragenlijst nu afnemen:
- Wat is je geslacht ? man / vrouw / x
- Welke opleiding volgde je vorig jaar ?
- Wat is het hoogst behaalde diploma van je ouders ?
- Gingen je ouders naar musea toen je 12 jaar was ?
- Wat is je leeftijd ?
- Wat is je wekelijks budget voor vrije tijd ?
o (onderzoeks)elementen of (statistische) eenheden (cases):
onderdelen van realiteit waarop onderzoek betrekking heeft
eenduidige definitie noodzakelijk
individuen, gebeurtenissen, collectiviteiten,...
o (onderzoeks)populatie: verzameling van (onderzoeks)elementen
eenduidige definitie noodzakelijk
vaak gebonden aan tijd en ruimte
o analyse-eenheid: eenheid waarop analyse gebeurt
b. Variabelen, waarden, dataset
o kenmerk: eigenschap van elementen
varieert over eenheden -> variabele
o uitkomstenverzameling: verzameling van alle mogelijke uitkomsten van
een variabele
o meten: volgens bepaalde meetprocedure vaststellen van de waarde van
een kenmerk bij een element
nauwkeurigheid: exactheid
betrouwbaarheid: consistentie bij herhaalde waarneming
validiteit: mate van overeenkomst tussen indicator en (theoretisch)
concept
(= afwezigheid van systematische fouten)
o waarde: resultaat van meten
Input voor statistische analyses
5
, o gegevensset, dataset, datamatrix:
o vaak gebruik van numerieke codes (via codeboek):
geslacht: 0=man ; 1 = vrouw; 2 = x ; 9 weet niet/geen antwoord
c. Meetniveau van variabelen
schaal van meten (hoeveelheid informatie)
o Kwalitatieve / categorische variabelen
Nominale variabelen:
- exhaustieve en exclusieve classificatie
- bv. geslacht, TV-zender, haarkleur, werelddeel
Ordinale variabelen:
- + ordening (meer/minder)
- bv. opleiding, opinievraag, kwaliteitsoordeel in *, medaille
o Kwantitatieve / metrische variabelen
Intervalvariabelen
- + gelijke afstanden (hoeveel meer/minder)
- bv. temperatuur in graden Celsius, geboortejaar
Ratiovariabelen
- + nulpunt
- bv. leeftijd, tijdsverschil, budget
o van laag (weinig informatie) -> naar hoog (veel informatie):
nominaal < ordinaal < interval < ratio
o afhankelijk van meetprocedure en ev. transformatie tussen meting en
analyse
6
, o andere classificatie: op basis uitkomstenverzameling:
continue variabelen
- voor elke 2 mogelijke uitkomsten, mogelijk om 3e te
bedenken die ertussen ligt; oneindige uitkomstenverzameling
(reële getallen oftewel komma getallen)
- bv. tijd, exacte leeftijd, inkomen
discrete variabelen
- eindige uitkomstenverzameling (natuurlijke getallen)
- bv. leeftijd in verstreken jaren, aantal kinderen,
museumbezoek
Beschrijvende statistiek voor 1 variabele
o univariate statistiek: gegevens van 1 variabele op overzichtelijke en
synthetische wijze weergeven: verdelingen beschrijven:
frequentietabellen
grafieken
maten van positie
maten van spreiding
o wat kan, is afhankelijk van het meetniveau
+ regel: wat kan op lager meetniveau kan ook op hoger meetniveau, maar
niet omgekeerd
1.2. Frequentieverdelingen
1.2.a. Frequenties, klassenindeling
o Absolute frequentie: aantal elementen met een bepaalde waarde : fi (i:
waarde, met m waarden)
o Relatieve frequentie: aantal elementen met een bepaalde waarde
gedeeld door het totaal aantal elementen = fractie (proportie) : pi
1.2.b. Frequentietabel
Aantal dagen per maand gesport
7
, Frequentie (fi ) proportie (pi)
percentage
0
311 0.37 37%
1-9
280
10-19
159
20-31
85
Totaal (n) 835
o cumulatieve frequentie: aantal of proportie eenheden met waarde i of
lager; vanaf ordinaal meetniveau
o Een voorbeeld van een slechte tabel
Bijwonen concerten (voorbije 6 maand)
Twee of
Geen Een meer
concert (alle vormen) 708 55 69
klassiek concert (alle vormen) 810 12 10
niet - klassiek concert (alle vormen) 717 50 65
barokmuziek of klassieke muziek 816 9 7
operette 832 0 0
opera 829 2 1
orgel 825 6 1
jazz, blues, soul, funk 816 14 5
pop, rock of hardrock 774 36 25
house, techno, dj-set, dance 810 15 10
wereldmuziek 823 10 3
folk of country 833 1 2
populaire Vlaamse muziek, 10 om te 810 24 2
zien, schlagers of levenslied
R&B, hiphop of rap 819 10 6
kleinkunst of chansons 821 11 0
fanfare, harmonie, brassband of 816 10 6
parademuziek
o metrische variabelen: teveel verschillende waarden om overzichtelijk weer
te geven in een frequentietabel
gegevens in klassen groeperen: klassenindeling
8
, opgelet: afhankelijk van welke klasse-indeling kan men een andere
verdeling verkrijgen
overzichtelijke weergave vs. verlies aan informatie afwegen
o voor weergave klassen, keuze tussen:
klassengrenzen:
laagste waarde -> hoogste waarde : bv. 25 - 34
klassenmidden:
((laagste waarde + hoogste waarde) / 2) : bv. 29,5
o opletten bij continue variabelen:
klassen moeten exclusief zijn (bv. budget in euro):
- niet:
25 - 50
50 - 75
- wel:
25 . < 50 of [25,50[
50 . < 75 of [50,75[
weergegeven niet noodzakelijk = werkelijke klassengrenzen
- bv. mogelijk:
weergegeven werkelijk
25 . < 50 24,5 . < 49,5
50 . < 75 49,5 . < 74,5
werkelijke klassengrenzen afhankelijk van meetprocedure
Formele voorschriften voor tabellen
o noodzakelijke elementen:
waarden/klassen exhaustief en exclusief
titel: kort en bondig inhoud aangeven
kolomkoppen, met exacte aanduiding inhoud
logische ordening
totalen
9
, bronvermelding
Doelstelling: Samenvatten van verdelingen
voor: beschrijving en vergelijking
o samenvatting van:
positie (centraliteit, ligging)
spreiding (variatie)
vorm (symmetrie, scheefheid)
1.3. Maten van positie
o rekenkundig gemiddelde
definities:
- a) voor individuele waarnemingen:
- b) met absolute frequenties:
Aantal Frequent Proporti
pinten/ ie e
half uur Fi Pi
0 12 0.06
1 54 0.27
10