Inleiding Statistiek: Uitgebreide samenvatting (2021)
Ivyvanekert
Samenvatting Inleiding Statistiek
Hoofdstuk 2: Frequentieverdelingen
Frequentie verdelingen
- Voor discrete variabele is een frequentieverdelingstabel handig, omdat de variabele
geen échte waardes zijn, maar categorieën die dus vaker voor kunnen komen.
Voorbeeld: hoeveel huisdieren iemand heeft kan bijvoorbeeld verschillen tussen 0-4,
als dit aan 10 man gevraagd wordt, kun je de volgende tabel opstellen:
Aantal huisdieren Frequentie
0 1
1 3
2 3
3 2
4 1
- Voor continue variabele is een frequentieverdelingstabel onhandig, omdat de
variabele échte waardes zijn die zelden hetzelfde voorkomen.
Voorbeeld: je gemiddelde jaarinkomen is voor bijna niemand gelijk, als je dan een
tabel opstelt (voor 6 man) zal het er als volgt uitzien:
Inkomen (in EURO) Frequentie
20100 1
21300 2
25600 1
76000 1
54000 1
Hierbij is de kans dat meerdere mensen hetzelfde inkomen hebben minimaal.
- Om het probleem bij de continue variabele op te lossen, wordt er gebruik gemaakt
van categorieën, zoals laag (0-25000), gemiddeld (25000-55000) of hoog inkomen
(55000-100000), dit zijn weer discrete variabelen. Hierdoor komt de tabel er als volgt
uit te zien:
Inkomen (in lagen) Frequentie
Laag 2
Gemiddeld 1
Hoog 2
Met meerdere proefpersonen zou dit een handigere manier kunnen zijn én
overzichtelijker.
, Inleiding Statistiek: Uitgebreide samenvatting (2021)
Ivyvanekert
- Wanneer de dataset wordt verhoogt ipv N=10 naar N=10.000 worden er proporties
gemaakt om een betere vergelijking tussen de 2 te krijgen. We hebben het hier over
discrete variabelen!
Formule voor proportie: p = f/n
Proportie = frequentie / aantal
Aantal huisdieren Frequentie Proportie Percentage
(bij N=10.000) (proportie x 100)
0 2991 2991/10.000 = 0.2991 x 100 =
0.2991 29.91%
1 3057 3057/10.000 = 0.3057 x 100 =
0.3057 30.57%
2 2997 2997/10.000 = 0.2997 x 100 =
0.2997 29.97%
3 472 472/10.000 = 0.0472 0.0472 x 100 =
4.72%
4 483 483/10.000 = 0.0483 0.0483 x 100 =
4.83%
- Hierna kun je een histogram ontwikkelen, om een goede vergelijking te maken kun je
het best een histogram ontwikkelen over de proporties.
Punt lokaliseren
- Om een bepaald punt te lokaliseren moet je gebruik maken van percentielen in de
volgende stappen (discrete variabelen):
1. Sorteer de frequentie tabel
2. Bereken het cumulatief percentage
3. We lokaliseren ons datapunt van belang (het hebben van 3 huisdieren)
Hierdoor weet je dat 3 huisdieren overeenkomt met een cumulatief percentage
van 95.17%
95.17% van de data is geaccumuleerd (zoveel antwoorden vallen eronder, dus
0,1,2,3)
3 huisdieren hebben een percentielrang van 95.17% oftewel 3 huisdier is het 95e
percentiel.
Aantal huisdieren Frequentie Proportie Percentage Percentage
(bij N=10.000) (proportie x 100) cumulatief (2)
0 2991 2991/10.000 = 0.2991 x 100 = 29.91
0.2991 29.91%
1 3057 3057/10.000 = 0.3057 x 100 = 60.48
0.3057 30.57%
2 2997 2997/10.000 = 0.2997 x 100 = 90.45
0.2997 29.97%
3 (3) 472 472/10.000 = 0.0472 0.0472 x 100 = 95.17
4.72%
4 483 483/10.000 = 0.0483 0.0483 x 100 = 100.00
4.83%
- Dit kan ook op dezelfde manier bij continue variabelen
- Het percentielrang is te achterhalen door de cumulatieve percentages
2
, Inleiding Statistiek: Uitgebreide samenvatting (2021)
Ivyvanekert
Interpoleren
- Om te interpoleren ga je een punt zoeken die tussen 2 “schalen” in liggen.
- Onthoud dat elk getal een boven- en ondergrens heeft, dus 10 is 9.5-10.5, altijd 0.5
Stappenplan interpoleren
1. Stel je wilt de percentielrang weten voor X = 18 in onderstaand tabel
2. Hiervoor kies je de desbetreffende schaal en de schaal er onder:
15-19 35%
10-14 15%
3. Stel de boven en ondergrens op voor de uiteinde van de schalen:
19 → 19.5 14 → 14.5
4. Bepaal de interval (het verschil)
19.5-14.5= 5
5. Bepaal het verschil tussen de bovengrens en het gewenste getal
19.5-18= 1.5
6. Deel de interval door het verschil
1.5/5=0.3 (dit is je deelwaarde om het percentage te gaan berekenen
7. Bepaal de interval tussen de percentages
35-15=20%
8. Vermenigvuldig het percentage met de deelwaarde (punt 6)
20x0.3= 6
9. Bereken X=18 door het verschil tussen bovengrens van de percentages en
uitkomst (8) te bepalen
35-6=29%
Hoofdstuk 3: Centrummaten
Centrale tendens
- Centrale tendens horen bij de beschrijvende statistiek, waarbij we specifiek het
centrum van de dataverdeling willen uitdrukken
- Data = verdeling
- Modus: de score (of categorie) met de hoogste frequentie (de score die het vaakst
voorkomt). Dit werkt voor alle schalen van data (nominale schaal, discrete variabele)
Voorbeeld:
Uren Frequentie (n=100)
10 17
12 16
11 15
8 12
9 9
De score met de hoogste frequentie (17) is 10 uur. Dus de modus is 10.
3
, Inleiding Statistiek: Uitgebreide samenvatting (2021)
Ivyvanekert
- In een histogram moet je de waardes interpreteren vanaf de rechterkant.
- Als een verdeling 2 modussen heeft (2 scores met een
even hoge frequentie), dan spreken we van bimodaal.
- Als een verdeling meer dan 2 modussen heeft (meer
dan 2 scores met een even hoge frequentie), dan
spreken we van multimodaal.
- Gemiddelde (mean): de som van alle scores gedeeld
door het aantal scores
Voorbeeld: steekproef grootte: n = 5
Scores: 5,7,9,14,6
∑X = 5+7+9+14+6= 41
∑X 41
M = 𝑛 = 5 = 8.20
- Gemiddeldes gaan alleen voor scores, je kunt niet zeggen het gemiddelde van alle
mensen dat aan de bar 2 drankjes drinks is 3.5, er bestaat geen half mens.
- Een extreme waarde (outlier) kan ervoor zorgen dat het gemiddelde veranderen en
dit geeft geen goed beeld weer.
Voorbeeld: als er in een bar met 100 man wordt gevraagd naar hun inkomen
en het gemiddelde komt uit op 35.000€, maar dan komt er een miljardair
binnen met een inkomen van 7.8 miljard euro. Hierdoor verandert het
gemiddelde en zal het lijken dat iedereen miljardair is.
- Als een score verandert, verandert het gemiddelde mee
- Wanneer er een score wordt toegevoegd of verwijderd, verandert het gemiddelde
ook, behalve als deze score exact gelijk is aan het gemiddelde.
- Wanneer je een constante toevoegt, aftrekt, vermenigvuldigt of deelt (bijv. -1 bij elke
score), dan moet hetzelfde gedaan worden met het gemiddelde (dus -1 bij het
gemiddelde).
- Door de extreem hoge scores verandert het gemiddelde en is deze niet meer
betrouwbaar, daarom kun je overgaan naar een andere maat, namelijk de mediaan.
4