Beschrijvende Statistiek
Variabelen, mediaan en gemiddelde
Fundamentele begrippen:
Populatie Totaal aantal personen/elementen waarin je geïnteresseerd bent
- Bv. Nederlandse peuters voordat ze naar de basisschool gaan
Steekproef Deel uit de populatie die je gaat meten
- Bv. 52 3 tot 5 jarige kinderen in Nederland
Variabele Varieert: hetgeen wat je gaat meten, kenmerk van de populatie
- Bv. Telvaardigheid
Statistic Numerieke samenvattende waarde van de steekproef (steekproefwaarde)
Parameter Numerieke samenvattende waarde van populatie
Beschrijvend Beschrijven en samenvatten van data uit steekproef; patronen proberen te
e statistiek herkennen
Toetsende Gebruiken van statistic om iets te zeggen over de parameter; generaliseren
statistiek
Variabele:
Categorische variabele:
- In te delen in categorieën, niet mee te rekenen, slechts soms te ordenen (haarkleur)
Kwantitatieve variabele:
- Waarde in cijfers; hoeveel je van iets hebt (leeftijd)
o Discrete variabele - Vaste waarden die je hebt, zonder tussenliggende waarden
(aantal kinderen per gezin is 1, 2, 3, niet 2.5)
o Continue variabele - Alle mogelijke waarden; tussenliggende waarden hebben
betekenis
(lengte kan 178 cm zijn, maar ook 178,85 cm)
Beschrijvende statistiek voor 1 variabele:
- Grafische weergave
- Centrummaten: 1 representatieve waarde om je data weer te geven; gemiddelde/mediaan
- Spreidingsmaten (HC2)
Voor categorische variabele:
- Hoe goed kunnen Nederlandse peuters tellen voor ze naar de basisschool gaan?
o Variabele: tellen van 5 blokjes
Correct of incorrect
- Data kan je grafisch weergeven:
o In cirkeldiagram of staafdiagram
, - Data kan je in een frequentietabel weergeven:
o Er wordt vooral naar ‘valid’ gekeken
o Modale categorie/modus; hierin zitten de meeste waarden (in dit geval bij ‘correct’)
Voor kwantitatieve variabele:
- Hoe goed kunnen Nederlandse peuters tellen voor ze naar de basisschool gaan?
o Variabele: hoogste aantal correct getelde blokjes
- Data kan je weer weergeven in frequentietabel
o Maar; bij veel getallen zegt de modus niet zo veel
o Er wordt vaker naar centrummaten gekeken: mediaan/gemiddelde
- Data kan je weergeven in dot plot, stem and leaf, histogram
Modus, mediaan en gemiddelde:
Modus:
- Modus is de waarde met de hoogste frequentie (meest voorkomende antwoord)
- Past bij categorische variabele
Mediaan:
- Eerst worden alle waarden op volgorde gezet, daarna wordt dit door 2en gedeeld
De middelste is de mediaan; hier kan je boven of onder zitten
o Bv. 4 5 6 7 8, mediaan is 6
o Bv. 5 6 7 8, mediaan is 6.5
o Bv. in frequentietabel hierboven; mediaan is 8
Zoek bij cumulative percent de (dichtstbijzijnde) helft van het totaal
- Past bij kwantitatieve variabele
,Gemiddelde:
- Houdt rekening met alle waarden, formule staat in formuleboek
- Voor n geobserveerde waarden x van variabele X, is het gemiddelde
o Tel alle waarden bij elkaar op en deel door het aantal
- Past bij kwantitatieve variabele
Gemiddelde van frequentietabel:
- Voor variabele X met mogelijkheden x=0 en x=1, is het gemiddelde gelijk aan de proportie
uitkomsten x=1, en wordt laten zien met px
o ‘Frequency’ x ‘valid’ / totaal aantal ‘frequency’
Mediaan vs. gemiddelde
- Veel variabele hebben een ‘normale verdeling’
o Verdeling is symmetrisch, gemiddelde is gelijk aan mediaan
- Mediaan kiezen bij ‘scheve verdeling naar links (1) of rechts (2)’
o Gemiddelde geeft niet goed weer hoe de data eruit ziet; gemiddelde wordt omlaag
getrokken (1) of omhoog (2)
- Gemiddelde kiezen bij weinig discrete waarden
o Bv. bij de waarden ‘0 0 0 0 10 10 10’
Mediaan is hier 0, gemiddelde 4.3, gemiddelde zegt meer over data
Unimodale verdeling: 1 duidelijke ‘piek’
Bimodale verdeling: meerdere ‘pieken’
, Verdelingen en spreidingsmaten
1 centrummaat is onvoldoende om iets over je data te zeggen
- 0, 4, 2, 1, 3 - Gemiddelde en mediaan zijn beide 2, maar er is veel variatie
- 2, 2, 2, 2, 2 - Gemiddelde en mediaan zijn ook 2, maar er is hier geen variatie
Het bereik/range:
Het verschil tussen te maximale en minimale score
- Geeft weer binnen welke afstand de waarde zich bevinden
- Maximum – minimum
Interkwartielafstand (IKA):
- Bijbehorende spreidingsmaat van mediaan, voor scheve verdelingen
- Gebaseerd op percentielen; je kan meerdere percentielen met elkaar combineren
- P25 = Kwartiel 1 (Q1)
P75 = Kwartiel 3 (Q3)
- Formule interkwartielafstand:
IQR = Q3 – Q1
- Berekening interkwartielafstand zonder frequentietabel (tentamenvraag vaak!):
Mogelijke uitschieters:
- Q1 – 1.5 x IKA
o Alle waarden hieronder zijn een mogelijke uitschieter naar beneden
- Q3 + 1.5 x IKA
o Alles waarden hierboven zijn een mogelijke uitschieter naar boven