Beschrijvende en Inferentiele Statistiek (BIS)
College 1: Beschrijvende univariate statistiek (hoofdstuk 2) | 04/02/2019 | Jasper Muis
Statistiek gaat over de methoden om gegevens te verzamelen, bewerken, interpreteren en
presenteren. Die gegevens noemen we data.
Het ultieme doel is door middel van data kennis vergaren over de wereld om ons heen
Beschrijvende statistiek = puur beschrijven. Je geeft een samenvatting van de verkregen
data.
Inferentiële statistiek = voorspellen (speculeren). Uitspraken en voorspellingen doen over
hele populatie op basis van de verkregen data (steekproef).
To infer = concluderen uit/opmaken uit
U-curve = het is hoog, dan neemt het af, en daarna neemt het weer toe in een U vorm
Verstorende variabelen moet je controleren. Dit doe je door de variabelen te splitsen.
Deeltoets 1: SPSS-practicum 1 & hoorcolleges 1 t/m 4 (25%)
Deeltoets 2: SPSS-practicum 2 & hoorcolleges 5 t/m 8 (25%)
Beschrijvende statistiek
Hoofdstuk 2: beschrijvende univariate statistiek
= Samenvatting van 1 variabele (= univariaat)
o Meetniveau van variabelen
o Centrale tendentie (gemiddelde, mediaan & modus)
o Verdeling (histogram, barchat)
o Spreidingsmaten (standaarddeviatie, variantie)
Type variabelen
o Categorisch versus kwantitatief
o Discreet versus continu
1. Categorische variabelen: hebben als waarde geen getallen, maar alleen kenmerken of
categorieën. Deze kunnen verdeeld worden in nominaal en ordinaal
a. Nominaal (in SPSS: nominal)
i. De variabele heeft meerder groepen, maar er is geen rangordening
ii. Bijvoorbeeld: wat is je lievelingskleur? /Nationaliteit /Religie
iii. Dichotoom = een speciaal geval van een nominale variabele (ook wel:
dummy variabele)
1. = 0/1 kenmerk. Dus of het een of het ander zoals geslacht
2. Je kunt alle variabelen altijd terugbrengen tot een 0/1
dichotomie
iv. Let op dat je altijd nadenkt wanneer je een antwoord krijgt. Je geeft
elke variabele een nummer, als je dan een kommagetal als uitkomst
krijgt dan klopt dat dus niet.
b. Ordinaal (in SPSS: ordinal)
i. De groepen hebben een rangordening, maar geen vast afstand.
1. Dit is bijvoorbeeld rangen in het leger, of opleidingsniveau. De
stap van havo naar vwo is misschien niet hetzelfde als van hbo
, naar wo. De stappen zijn dus niet per se even groot, maar er zit
dus wel een rangordening in
2. Echter, voor het gemak worden deze ordinale variabelen wel als
kwantitatief behandelt
2. Kwantitatief (in SPSS: scale)
a. Variabelen die als waarde getallen aannemen zoals leeftijd, gewicht of
inkomen
b. Is hetzelfde als interval/ratio van methodologie
c. Deze zijn onder te delen in 2 soorten, namelijk:
i. Discreet: variabele waarbij slechts bepaalde waarden kunnen
voorkomen, bijvoorbeeld alleen hele getallen: 0, 1, 2, 3, etc..
1. Bijvoorbeeld het aantal kinderen of het aantal huisdieren
ii. Continu: variabele waarbij oneindig veel mogelijkheden zijn in waarde,
zoals tijd, afstand, gewicht. Met kommagetallen, geen concrete
getallen.
1. Bijvoorbeeld de tijdsduur van dit college (is bijvoorbeeld 44,
999999 minuten)
Dus nominaal en ordinaal zijn categorische variabelen
En discreet en continu zijn onderdelen van kwantitatieve variabelen (interval/ratio, scale)
Samengevat: Het onderscheid tussen meetniveaus is belangrijk, omdat ze verschillende
rekenkundige/statistische operaties toestaan.
Categorische variabelen:
o (1) Nominaal: categorieën zonder rangordening. Een speciaal geval is dichotomie
(0/1).
o (2) Ordinaal: categorieën met rangordening.
(3) Kwantitatieve variabelen = interval/ratio (scale)
o Discreet: hele getallen
o Continu: elk getal mogelijk
Cases = analyse-eenheden
Centrummaten
o Gemiddelde (M)
o Mediaan (Md)
o Modus
Gemiddelde (M)
Een andere belangrijke benaming van
gemiddelde = verwachting. Het gemiddelde is
beste gok over een waarneming, als je verder
nog niks weet. Bijvoorbeeld als iemand vraagt
wat zal ik halen als eindcijfer. Dan is het
antwoord ja het gemiddelde is een 6,5. Wanneer
je meer gegevens/variabelen krijgt dan kun je je
voorspelling aanscherpen.
,Mediaan (Md)
= het middelpunt van de observaties als je ze van laag naar hoog ordent
Als je geen middelpunt hebt: neem je het middelpunt van die 2
Dit is handig wanneer je bijvoorbeeld slechts 1 hele hoge score hebt, dan is je hele
gemiddelde verdraait dus kun je beter de mediaan bekijken. Als vervanging voor gemiddelde
dus.
Modus
= de waarde die het vaakst voorkomt
Dit is vooral van belang bij variabelen waar
je verder niet zo veel mee kan. Bijvoorbeeld:
Bij een ordinale variabele mag je officieel
geen gemiddelde uitrekenen, maar in de
praktijk gebeurt dit wel af en toe.
Verdeling van data (distribution)
= de waarden die een variabele aanneemt en hoe vaak elke waarde voorkomt. Dit is van
belang omdat we bezig zijn met voorspellingen.
Voorbeeld van welk cijfer ga ik halen:
Kleine spreiding = dat is fijn want dan hebben de meeste mensen daadwerkelijk ongeveer
een 6,5 gehaalt
Grote spreiding = dit kan betekenen dat de 1 een 2 heeft en de ander een 9, maar 6,5
gemiddeld
Categorische data:
o Frequentietabel
o Taartdiagram (pie chart)
o Staafdia (bar chart)
Kwantitatieve data:
o Dot plot (punt diagram)
o Stem-and-leaf plot (stam diagram)
o Histogram
, Let op: niet alles wordt behandeld, maar wel tentamenstof. Dus leest de hoofdstukken goed.
Frequentietabel
Analyse eenheden = wat je telt/analyseert
Propostie en percentage
Denk altijd na of dat je een logisch getal hebt!
Proportie: verhouding. Proportie ligt altijd
tussen 0 en 1.
Percentage: proportie x 100
Onderscheid tussen histogram en staafdiagram
Let op dat bij een staafdiagram (barchart) er altijd een witregel tussen moet zitten want het
is geen vloeiende lijn, dit omdat het een categorische variabelen is. De volgorde van de
categorieën maakt niet uit.
Wanneer maar je nou een histogram?
Als het een vloeiende lijn is, er zit dus geen witregel tussen. Als het geen categorische
variabelen is, en wel een kwantitatieve variabelen. In dit geval maak je een histogram.
Dus twee verschillende concepten voor 2 verschillende soorten variabelen.
Unimodaal = maar 1 meest voorkomende waarde, en die zit in het midden.
Bimodaal = 2 modussen. Bijvoorbeeld de een is heel positief en de ander heel negatief. Dan
is zijn de meningen heel erg verdeeld. Meerdere pieken.
Dit zegt ook iets over de spreiding, dus hoe dicht mensen bij het gemiddelde zitten. Bij de
unimodale is de spreiding relatief klein. Bij de bimodale zitten mensen verder van het
gemiddelde af dus is de spreiding relatief groot.
Scheve verdelingen
Skewed to the right: als de rechter ‘trial’ langer is dan de linker ‘trial’