Hoofdstuk 2
Beschrijvende statistiek: Samenvatting van verkregen data
Inferentiele statistiek: Voorspellingen maken op basis van verkregen data
Variabelen:
Categorische variabelen: Geen getal, puur kenmerken of categorieën (geslacht, nationaliteit)
o Nominaal: Geen volgorde van waarden (geslacht, huisdier, nationaliteit)
o Ordinaal: Wel volgorde van waarden (opleiding, mate van geloof)
Presenteren via: Frequentie tabel, taartdiagram, staafdiagram
Kwantitatieve variabelen: Variabelen die als waarde getallen aannemen (leeftijd, gewicht)
o Discreet/interval: Variabele met slechts hele waarden (aantal kinderen)
o Continu/ratio: variabele waarbij oneindig veel mogelijkheden zijn (tijd, gewicht)
Presenteren via: Histogram, Stem-and-leaf plot
Proporties en percentages:
Proportie: De proportie ligt altijd tussen 0 en 1
Percentage: proportie x 100
𝐴𝑎𝑛𝑡𝑎𝑙 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑡𝑖𝑒𝑠 𝑖𝑛 𝑐𝑎𝑡𝑒𝑔𝑜𝑟𝑖𝑒
𝐹𝑜𝑟𝑚𝑢𝑙𝑒: 𝑃𝑟𝑜𝑝𝑜𝑟𝑡𝑖𝑒 =
𝑇𝑜𝑡𝑎𝑎𝑙 𝑎𝑎𝑛𝑡𝑎𝑙 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑡𝑖𝑒𝑠 (𝑛)
Centrummaten:
∑𝑥
Gemiddelde: x̄ = 𝑛
x̄= gemiddelde
Σ= Sommatieteken (optellen van een groep)
x= observatie
n=aantal observaties
Mediaan: De middelste waarneming als je ze van laag naar hoog ordent
Modus: De meest voorkomende waarde (voorbeeld hierboven 163)
,Scheve verdeling (asymmetrisch):
Spreiding is de afwijking ten opzichte van het gemiddelde:
Meer spreiding betekent minder zekerheid
Eén top zoals hierboven is unimodaal, ook wel normaalverdeling
Met twee toppen is bimodaal verdeelt
Als een verdeling scheef is dan ligt de modus op de top, daarna komt de mediaan en als laatst
het gemiddelde (aan de minder stijlen kant)
Standaarddeviatie:
Een standaarddeviatie geeft aan hoeveel een data afwijkt van het gemiddelde
De standaarddeviatie beschrijft de spreiding van de data
Standaarddeviatie maakt het makkelijker om data te vergelijken
Om te vergelijken kijk je als eerst hoeveel een observatie van het gemiddelde afwijkt (deviatie)
𝐹𝑜𝑟𝑚𝑢𝑙𝑒: 𝑑𝑒𝑣𝑖𝑎𝑡𝑖𝑒 = 𝑥 − x̄
Deze deviatie en alle andere deviaties gebruiken we om te komen tot een standaarddeviatie, ook wel
‘gemiddelde afstand van het gemiddelde’.
√∑(𝑥 − x̄ )2
𝐹𝑜𝑟𝑚𝑢𝑙𝑒: 𝑠 =
𝑛−1
, Empirische regel:
De regel geldt alleen als de verdeling/spreiding klokvormig is
Z-score:
Vaak willen we weten hoeveel standaarddeviaties (s) een observatie (x) van het gemiddelde ligt (x̄),
hiervoor gebruik je de z-score.
𝑥 − x̄
𝑍 − 𝑠𝑐𝑜𝑟𝑒 =
𝑠
Percentielen:
Een percentiel geeft aan hoeveel procent van de observaties onder een bepaalde waarde ligt,
bijvoorbeeld 50e percentiel is 30 (50% van de observaties valt onder de 30). Er zijn drie percentielen
die vaak gebruikt worden, namelijk 25e, 50e en 75e. Deze worden ook wel Q1, Q2 en Q3 genoemd,
waarbij Q2 gelijk is aan de mediaan. Q2 (IQR) wordt berekend door Q1 van Q3 af te halen.
Een outlier is een observatie (x) die heel duidelijk buiten het normale patroon valt, zie de rode stip.
Een observatie buiten het patroon is een outlier als:
Meer dan 1,5 keer de IQR onder het eerste of boven het derde kwartiel ligt
Meer dan ongeveer twee standaarddeviaties van het gemiddelde