Volledige en uitgebreide samenvatting van het vak Inleiding Statistiek. Zowel de hoorcolleges als het boek zijn meegenomen in deze samenvatting om het zo duidelijk mogelijk te maken. Deze samenvatting is vooral te gebruiken als handleiding om rekenopdrachten te maken. Om de samenvatting nog beter t...
Hoofdstuk 2: Frequentieverdelingen
Frequentie verdelingen
- Voor discrete variabele is een frequentieverdelingstabel handig, omdat de variabele
geen échte waardes zijn, maar categorieën die dus vaker voor kunnen komen.
Voorbeeld: hoeveel huisdieren iemand heeft kan bijvoorbeeld verschillen tussen 0-4,
als dit aan 10 man gevraagd wordt, kun je de volgende tabel opstellen:
Aantal huisdieren Frequentie
0 1
1 3
2 3
3 2
4 1
- Voor continue variabele is een frequentieverdelingstabel onhandig, omdat de
variabele échte waardes zijn die zelden hetzelfde voorkomen.
Voorbeeld: je gemiddelde jaarinkomen is voor bijna niemand gelijk, als je dan een
tabel opstelt (voor 6 man) zal het er als volgt uitzien:
Inkomen (in EURO) Frequentie
20100 1
21300 2
25600 1
76000 1
54000 1
Hierbij is de kans dat meerdere mensen hetzelfde inkomen hebben minimaal.
- Om het probleem bij de continue variabele op te lossen, wordt er gebruik gemaakt
van categorieën, zoals laag (0-25000), gemiddeld (25000-55000) of hoog inkomen
(55000-100000), dit zijn weer discrete variabelen. Hierdoor komt de tabel er als volgt
uit te zien:
Inkomen (in lagen) Frequentie
Laag 2
Gemiddeld 1
Hoog 2
Met meerdere proefpersonen zou dit een handigere manier kunnen zijn én
overzichtelijker.
- Wanneer de dataset wordt verhoogt ipv N=10 naar N=10.000 worden er proporties
gemaakt om een betere vergelijking tussen de 2 te krijgen. We hebben het hier over
discrete variabelen!
Formule voor proportie: p = f/n
Proportie = frequentie / aantal
Aantal huisdieren Frequentie Proportie Percentage
(bij N=10.000) (proportie x 100)
0 2991 2991/10.000 = 0.2991 x 100 =
0.2991 29.91%
1 3057 3057/10.000 = 0.3057 x 100 =
0.3057 30.57%
2 2997 2997/10.000 = 0.2997 x 100 =
0.2997 29.97%
3 472 472/10.000 = 0.0472 0.0472 x 100 =
4.72%
4 483 483/10.000 = 0.0483 0.0483 x 100 =
4.83%
- Hierna kun je een histogram ontwikkelen, om een goede vergelijking te maken kun je
het best een histogram ontwikkelen over de proporties.
Punt lokaliseren
- Om een bepaald punt te lokaliseren moet je gebruik maken van percentielen in de
volgende stappen (discrete variabelen):
1. Sorteer de frequentie tabel
2. Bereken het cumulatief percentage
3. We lokaliseren ons datapunt van belang (het hebben van 3 huisdieren)
Hierdoor weet je dat 3 huisdieren overeenkomt met een cumulatief percentage
van 95.17%
95.17% van de data is geaccumuleerd (zoveel antwoorden vallen eronder, dus
0,1,2,3)
3 huisdieren hebben een percentielrang van 95.17% oftewel 3 huisdier is het 95e
percentiel.
Aantal huisdieren Frequentie Proportie Percentage Percentage
(bij N=10.000) (proportie x 100) cumulatief (2)
0 2991 2991/10.000 = 0.2991 x 100 = 29.91
0.2991 29.91%
1 3057 3057/10.000 = 0.3057 x 100 = 60.48
0.3057 30.57%
2 2997 2997/10.000 = 0.2997 x 100 = 90.45
0.2997 29.97%
3 (3) 472 472/10.000 = 0.0472 0.0472 x 100 = 95.17
4.72%
4 483 483/10.000 = 0.0483 0.0483 x 100 = 100.00
4.83%
- Dit kan ook op dezelfde manier bij continue variabelen
- Het percentielrang is te achterhalen door de cumulatieve percentages
Interpoleren
- Om te interpoleren ga je een punt zoeken die tussen 2 “schalen” in liggen.
- Onthoud dat elk getal een boven- en ondergrens heeft, dus 10 is 9.5-10.5, altijd 0.5
Stappenplan interpoleren
1. Stel je wilt de percentielrang weten voor X = 18 in onderstaand tabel
2. Hiervoor kies je de desbetreffende schaal en de schaal er onder:
15-19 35%
10-14 15%
3. Stel de boven en ondergrens op voor de uiteinde van de schalen:
19 → 19.5 14 → 14.5
4. Bepaal de interval (het verschil)
19.5-14.5= 5
5. Bepaal het verschil tussen de bovengrens en het gewenste getal
19.5-18= 1.5
6. Deel de interval door het verschil
1.5/5=0.3 (dit is je deelwaarde om het percentage te gaan berekenen
7. Bepaal de interval tussen de percentages
35-15=20%
8. Vermenigvuldig het percentage met de deelwaarde (punt 6)
20x0.3= 6
9. Bereken X=18 door het verschil tussen bovengrens van de percentages en
uitkomst (8) te bepalen
35-6=29%
Hoofdstuk 3: Centrummaten
Centrale tendens
- Centrale tendens horen bij de beschrijvende statistiek, waarbij we specifiek het
centrum van de dataverdeling willen uitdrukken
- Data = verdeling
- Modus: de score (of categorie) met de hoogste frequentie (de score die het vaakst
voorkomt). Dit werkt voor alle schalen van data (nominale schaal, discrete variabele)
Voorbeeld:
Uren Frequentie (n=100)
10 17
12 16
11 15
8 12
9 9
De score met de hoogste frequentie (17) is 10 uur. Dus de modus is 10.
- In een histogram moet je de waardes interpreteren vanaf de rechterkant.
- Als een verdeling 2 modussen heeft (2 scores met een
even hoge frequentie), dan spreken we van bimodaal.
- Als een verdeling meer dan 2 modussen heeft (meer
dan 2 scores met een even hoge frequentie), dan
spreken we van multimodaal.
- Gemiddelde (mean): de som van alle scores gedeeld
door het aantal scores
Voorbeeld: steekproef grootte: n = 5
Scores: 5,7,9,14,6
∑X = 5+7+9+14+6= 41
∑X 41
M = 𝑛 = 5 = 8.20
- Gemiddeldes gaan alleen voor scores, je kunt niet zeggen het gemiddelde van alle
mensen dat aan de bar 2 drankjes drinks is 3.5, er bestaat geen half mens.
- Een extreme waarde (outlier) kan ervoor zorgen dat het gemiddelde veranderen en
dit geeft geen goed beeld weer.
Voorbeeld: als er in een bar met 100 man wordt gevraagd naar hun inkomen
en het gemiddelde komt uit op 35.000€, maar dan komt er een miljardair
binnen met een inkomen van 7.8 miljard euro. Hierdoor verandert het
gemiddelde en zal het lijken dat iedereen miljardair is.
- Als een score verandert, verandert het gemiddelde mee
- Wanneer er een score wordt toegevoegd of verwijderd, verandert het gemiddelde
ook, behalve als deze score exact gelijk is aan het gemiddelde.
- Wanneer je een constante toevoegt, aftrekt, vermenigvuldigt of deelt (bijv. -1 bij elke
score), dan moet hetzelfde gedaan worden met het gemiddelde (dus -1 bij het
gemiddelde).
- Door de extreem hoge scores verandert het gemiddelde en is deze niet meer
betrouwbaar, daarom kun je overgaan naar een andere maat, namelijk de mediaan.
4
Voordelen van het kopen van samenvattingen bij Stuvia op een rij:
√ Verzekerd van kwaliteit door reviews
Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!
Snel en makkelijk kopen
Je betaalt supersnel en eenmalig met iDeal, Bancontact of creditcard voor de samenvatting. Zonder lidmaatschap.
Focus op de essentie
Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!
Veelgestelde vragen
Wat krijg ik als ik dit document koop?
Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.
Tevredenheidsgarantie: hoe werkt dat?
Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.
Van wie koop ik deze samenvatting?
Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper ivyvanekert. Stuvia faciliteert de betaling aan de verkoper.
Zit ik meteen vast aan een abonnement?
Nee, je koopt alleen deze samenvatting voor €3,99. Je zit daarna nergens aan vast.