Beschrijvende statistiek
College 1
Populatie = de hele doelgroep
Steekproef = een greep uit de populatie
Categorische variabele
Kun je indelen in categorieën. Bijvoorbeeld haarkleur (blond, rood, bruin, zwart (nominaal)).
Met categorische variabelen kun je niet rekenen. Soms kun je het wel ordenen (mbo, hbo, wo
(ordinaal)).
Kwantitatieve variabele
De waarde van de variabele hebben hierbij wel betekenis. Bijvoorbeeld leeftijd.
- Discrete variabele
Vaste waarden, zonder tussenliggende waarden (bijvoorbeeld het aantal kinderen dat
iemand heeft, je kunt geen 2,5 kinderen hebben).
- Continue variabele
Alle mogelijke waarden, ook tussenliggende waarden (bijvoorbeeld bij lengte, je kunt
170 cm lang zijn, maar ook 170,5 cm).
Statistic (steekproefwaarde) = waarde die hoort bij de steekproef (SS, statistics-steekproef).
Parameter = waarde die hoort bij de populatie (PP, parameter-populatie).
De parameter weet je van tevoren eigenlijk nooit, maar de statistics gebruik je om de
parameter te berekenen. Dit is toetsende statistiek, genereren van de steekproef naar de
populatie.
Categorische variabelen
Categorische variabelen kun je weergeven met bijvoorbeeld cirkeldiagrammen,
staafdiagrammen, frequentietabellen.
Modale categorie = de categorie die het meest gescoord wordt.
Kwantitatieve variabelen
Centrummaten worden vaak gebruikt om te kijken wat het gemiddelde of de meest
voorkomende waarde is. Voorbeelden van centrummaten zijn:
Modus = de meest gescoorde waarde. Bij kwantitatieve variabelen wordt de modus niet heel
vaak gebruikt, omdat het soms niet zo veel meer zegt (als de scores veel uit elkaar liggen).
Mediaan = de waarde die in het midden staat, als je alle waarden op een rijtje zet.
Bijvoorbeeld: 5-6-7-8, mediaan = 6,5
Om de mediaan te berekenen kun je bij cumulative
percent kijken. Daar zoek je de 50%. De 50% valt in
het voorbeeld hiernaast bij 8. De mediaan is dus 8.
,Het gemiddelde = het gemiddelde van alle waarden. De formule voor het gemiddelde ziet
eruit als volgt:
Gemiddelde van de frequentieverdeling = het gemiddelde van alle waarden en hun
frequentie. De formule ziet er zo uit:
Mediaan vs gemiddelde
De keuze voor mediaan of gemiddelde hangt af van de variabelen.
Bij een normaalverdeling zijn de mediaan en het gemiddelde ongeveer gelijk. De voorkeur
ligt hier bij het gemiddelde.
Bij een scheve verdeling ligt de voorkeur voor de mediaan. Het gemiddelde geeft hier
namelijk niet geen representatief beeld over hoe de data verdeeld is. De verdeling is hier
scheef naar links.
Toch geeft soms het gemiddelde een representatievere weergave dan de mediaan bij een
scheve verdeling. Bijvoorbeeld bij: 0-0-0-0-10-10-10, want de mediaan is hier 0 en het
gemiddelde is 4,3.
Grafisch weergeven van variabelen
Categorische variabelen
- Cirkeldiagram
- Staafdiagram
Kwantitatieve variabelen
- Histogram
- Dot plots
- Stem and leaf diagram
, College 2 - spreidingsmaten
Bereik / range
Het bereik (range, variatiebreedte) geeft weer binnen welke afstand van elkaar de waardes
zich bevinden. Het wordt berekend door maximum-minimum.
Percentielen
Een percentiel is en stukje van de waarnemingen (percentage). 1 percentiel = 1 procent. Dus
P50 = 50% = de mediaan. Het pde percentiel is de waarde waarvoor geldt dat p procent de
waarnemingen kleiner is, of er gelijk aan is.
Interkwartielafstand (IKA)
De middelste vijftig procent van de data.
De interkwartielafstand bereken je door het eerste kwartiel van het derde kwartiel af te
trekken. Kwartiel is een kwart 25%.
Formule: IQR = Q3 – Q1
Q3 = p75, Q1 = p25
Interkwartielafstand berekenen is vaak een tentamenvraag.
Hoe bereken je mogelijke uitschieters aan de hand van de IKA?
- Q1 – 1.5 x IKA
- Q3 + 1.5 x IKA
Boxplot
Deviatie
De afstand tot het gemiddelde.
De deviatie bereken je met de volgende formule: x – het gemiddelde van x
Voorbeeld: x = 2, gemiddelde van x = 3, dan is de deviatie -1
, Alle deviaties kun je niet bij elkaar optellen, want ze wegen elkaar af. Om ze bij elkaar op te
tellen ga je het kwadrateren. Als je dit hebt gedaan kun je alles optellen, dit noem je de
kwadratensom. Zie het voorbeeld hieronder.
Variantie
De variantie zegt iets over de spreiding van de data. Hoe groter de variantie, hoe groter de
spreiding.
Uitleg van deze formule:
1. Bereken de deviaties
2. Kwadrateer de deviaties
3. Sommer de gekwadrateerde deviaties
4. Deel de som door n-1
Standaarddeviatie
De gemiddelde afstand tot het gemiddelde.
De wortel van de variantie. Omdat de deviatie was gekwadrateerd, moet het nu weer
teruggebracht worden aan de hand van een wortel.