Statistiek
Inleiding
Statistiek gaat over de methoden om gegevens te verzamelen, bewerken, interpreteren en presenteren.
Die gegevens noemen we data.
Ultieme doel: door middel van data kennis vergaren over de wereld om ons heen.
Beschrijvende statistiek – samenvatting van de verkregen data.
Inferentiële statistiek – uitspraken en voorspellingen doen over hele populatie op basis van de verkregen
data (steekproef).
To infer = concluderen uit/opmaken uit
Terminologie – het boek heeft het over “sample statistic” en “population parameter”.
Beschrijvende univariate statistiek
Hoofdstuk 2: beschrijvende univariate statistiek
Samenvatting van één variabele (= univariaat).
• Meetniveau van variabelen
• Centrale tendentie gemiddelde, mediaan, modus
• Verdeling histogram, barchart
• Spreidingsmaten standaarddeviatie, variantie
Het boek maakt de volgende twee contrasten:
• Categorisch vs. kwantitatief
• Discreet vs. continu
Categorische variabelen: hebben als waarden geen getallen, maar alleen kenmerken of categorieën. Vb.
geslacht, nationaliteit, religie, opleidingsniveau.
• Onderverdeeld in 2 soorten: nominaal en ordinaal.
Nominaal
Nominaal (in SPSS: “nominal”): de variabele heeft meerdere groepen, maar er is geen rangordening. Bijv:
nationaliteit, religie, studierichting.
• Je kunt de verschillende groepen aanduiden met een kleur, letter of symbool. Maar ook met een
getal.
• Een “speciaal geval” van een nominale variabele is dichotoom (dummy variabele): 0/1 kenmerk.
Bijv: geslacht.
• Je kunt alle variabelen altijd terugbrengen tot een 0/1 dichotomie.
Voorbeeld
Vraag in een enquête:
Met welk hoofdvervoermiddel komt u naar uw werk? Indien u twee of meer vervoermiddelen combineert
(bijv. met de fiets naar het station en dan verder per trein) noem dan het vervoermiddel waarmee u de
grootste afstand aflegt.
(1) per fiets
(2) per auto
(3) per bus/tram/metro
1
,(4) per trein
(5) per scooter/bromfiets
(6) te voet
(7) anders, namelijk …..
Ordinaal
Ordinaal (in SPSS: “ordinal”): de groepen hebben een rangordening, maar geen vaste afstand. Bijv: rangen
in het leger, opleidingsniveau (vmbo, havo, vwo)
Voorbeeld
Vraag in een enquête: Wat is uw hoogst voltooide opleiding?
(1) Geen enkele opleiding voltooid
(2) Basisonderwijs
(3) VMBO (LBO of MAVO)
(4) HAVO/Mms
(5) VWO/Hbs/Gymnasium
(6) MBO
(7) HBO
(8) WO
Ordinale variabelen worden soms voor het gemak als kwantitatief behandeld!
Kwantitatief
Kwantitatieve variabelen (in SPSS: “scale”): variabelen die als waarde getallen aannemen. Bijv: leeftijd,
gewicht, inkomen.
• Bryman noemt deze variabelen interval/ratio.
• We kunnen ze onderverdelen in 2 soorten:
– Discreet: variabele waarbij slechts bepaalde waarden kunnen voorkomen, bijvoorbeeld
alleen hele getallen: 0, 1, 2, 3, etc.. Bijv: het aantal kinderen, aantal huisdieren.
– Continu: variabele waarbij oneindig veel mogelijkheden zijn in waarde, zoals tijd, afstand,
gewicht. Bijv: de tijdsduur van dit college = 44,99999999999 minuten.
Dus samengevat….
• Het onderscheid tussen meetniveaus is belangrijk, omdat ze verschillende
rekenkundige/statistische operaties toestaan.
• Categorische variabelen:
– (1) Nominaal (“nominal”): categorieën zonder rangordening. Een speciaal geval is
dichotomie (0/1).
– (2) Ordinaal (“ordinal”): categorieën met rangordening.
• (3) Kwantitatieve variabelen = interval/ratio (“scale”)
– Discreet: hele getallen.
– Continu: elk getal mogelijk.
Is de variabele (1) nominaal, (2) ordinaal of (3) interval/ratio?
• Hoeveelheid groente (in gram) dat je per dag eet. Ratio
• Kledingmaat (S, M, L, XL). Ordinaal
• Aantal keer dat je per jaar naar de kapper gaat. Ratio-discreet
• De studierichting die je volgt (CW, SOC, POL, B&O, CAO). Nominaal
2
,Centrummaten
Gemiddelde (M) - mean
Mediaan (Md)
Modus
Gemiddelde (mean):
Bijvoorbeeld: aan 10 studenten is gevraagd hoeveel uur ze per week op internet zitten.
Gemiddelde:
= 105,5 uur
Een andere belangrijke benaming = verwachting, verwachte waarde. Het gemiddelde is beste gok over een
waarneming, als je verder (nog) niets weet.
Formule van gemiddelde:
x=
åx
n
x̄ = symbool van gemiddelde (x-bar)
= symbool sommatie: optellen v.e. reeks getallen
X = observatie
n = aantal observaties
Mediaan
Het middelpunt van de observaties als je ze van laag naar hoog ordent.
Ordenen: 70, 80, 90, 95, 100, 110, 120, 130, 150
Mediaan = 100
Ordenen: 70, 80, 90, 95, 100, 110, 110, 120, 130, 150
Mediaan = tussen 100-110 → dus 105
Modus
= de waarde die het vaakst voorkomt.
Uren op internet onder 10 studenten:
70, 80, 90, 95, 100, 110, 110, 120, 130, 150
Hier komt 110 het vaakst voor (2x)
Modus = 110
3
, Zijn nooit twee modusssen → dus als er 2 zijn of meer, geen modus
Nominaal – modus
Ordinaal – gemiddelde, mediaan, modus
Scale – gemiddelde, mediaan, modus
Rood: mag eigenlijk niet, maar gebeurd wel in praktijk
Ordinale variabelen worden soms voor het gemak als kwantitatief behandeld: we gebruiken in de praktijk
vaak Gemiddelde
Distributie
Verdeling van data (distribution): de waarden die een variabele aanneemt en hoe vaak elke waarde
voorkomt.
Categorisch
• Frequentietabel
• Taartdiagram (pie chart)
• Staafdiagram (bar chart)
Kwantitatief
• Dot plot (punt diagram)
• Stem-and-leaf plot (stam diagram)
• Histogram
Dikgedrukte komen meeste voor
Frequentietabel
Cases: 559 → haaiaanvallen
4