BOS grasple lessen correlationeel onderzoek
Gemiddelde berekenen:
1) Tel alle waardes bij elkaar op
2) Deel door het aantal waardes
Gemiddelde is niet altijd handig doordat uitschieters het gemiddelde erg kunnen
beïnvloeden.
Mediaan (is de middelste waarde) vinden:
1) Zet alle waardes op volgorde van klein naar groot.
2) Tel hoeveel waardes er totaal zijn.
3) Bepaal waar de middelste waarde zou zitten (dit kan je uitrekenen door het aantal
waardes door 2 te delen en naar boven af te ronden)
4) Tel vanaf het begin tot aan het getal uit stap 3 om zo de middelste waarde te vinden.
Voorbeeld met de volgende dataset: 8, 4, 7, 3, 10, 53, 9, 2 & 6
Stap 1: 2, 3, 4, 6, 7, 8, 9, 10, 53
Stap 2: 9
Stap 3: 9/2 = 4,5 naar boven afronden is 5
Stap 4: tel tot aan het 5e getal. Dan is de mediaan 7.
Bij een even aantal waardes, is de mediaan de middelste van de twee middelste waardes.
Bijvoorbeeld: 2, 3, 4, 5, 7, 8
Mediaan is 4.5.
De modus (de meest voorkomende waarde in een variabele) berekenen:
1) Tel is hoe vaak elke waarde voorkomt
2) Kies degene die het vaakste voorkomt.
Variatie/spreiding geeft aan hoeveel de data van elkaar verschillen
De variatie kan je berekenen. Spreidingsmaten zijn maten die aangeven hoeveel de gevallen
van elkaar verschillen.
De eerste maat van spreiding is het verschil tussen de hoogte waarde en de laagste waarde.
Dit noemen we het bereik. Bereik = maximun – minumun. Het bereik kan erg beinvloed
worden door hoge uitschieters
Een andere manier om de mate van spreiding in een dataset te meten zijn: kwartielen.
Een manier om inzicht te krijgen in de variante van de date is door deze verder onder te
verdelen. Bijvoorbeeld in 4 gelijke stukken. De getallen waarmee je de data in vier gelijke
stukken verdeelt, noemen we kwartielen.
Hoe vinden we de kwartielen?
1) Zet alle getallen op volgorde
2) Vind de mediaan (ook wel het twee kwartiel of Q2 genoemd)
, 3) Vind nu de mediaan van de eerste helft – de helfte met de laagste waarden. Dit
moeten we het eerste kwartiel of Q1.
4) Vind nu de mediaan van de tweede helft – de helft met de hoogste waarden. Dit
noemen we het derde kwartiel of Q3
Het vinden van de kwartielen hangt weer van het aantal waarden in de dataset af. Het gaat
een beetje anders voor even of oneven aantallen.
Even aantal voorbeeld
Stap 1: zet alle getallen op volgorde
2 4 …. 5 6 .. 8 8 …. 9 105
Stap 2: vind de mediaan 6+8/2 = 7 ..
Stap 3: vind de mediaan van de helft met de laagste waarde. Bij een even aantal
waarden, zijn dat alle getallen links van de mediaan. We moeten hier dus de mediaan
vinden van de waarden: 2, 4, 5 en 6. De mediaan is het gemiddelde van 4 en 5. Q1 =
4.5 ….
Stap 4: vind nu de mediaan van de helft met de hoogste waarden. We moeten hier
de mediaan vinden van de waarden: 8, 8, 9 en 105. De mediaan is het gemiddelde
van 8 en 9. Q3 = 8.5 ….
Oneven aantal voorbeeld
Stap 1: zet alle getallen op volgorde
1 2 …. 4 5 6 8 8 ….. 9 105
Stap 2: vind de mediaan. We zien Q2 = 6
Stap 3: vind nu de mediaan van de helf met de laagste waarden. Bij een oneven
aantal waarden, nemen we het getal dat de mediaan vormt niet mee. We moeten
hier dus de mediaan vinden tussen 1, 2, 4, 5. De mediaan is het gemiddelde van 2 en
4. Q1 = 3 ….
Stap 4: vind nu ook de mediaan van de helft met de hoogste waarden. Ook hier
nemen we de waarde van de mediaan niet mee. We moeten de mediaan vinden van
de waarden 8, 8, 9 en 105. De mediaan is het gemiddelde van 8 en 9. Q3 = 8.5 …..
Conclusie: de kwartielen zijn 3, 6 en 8.5. We zien direct dat een groot deel van de data best
dicht bij elkaar ligt.
Gezien er in redelijk veel datasets uitschieters zitten die het bereik sterk beinvloed, is het
bereik niet de beste maat voor de spreiding. Een alternatief is om het bereik van de
middelste 50 % van de data te meten.
De middelste 50% van de data bevindt zich tussen Q1 en Q3. Het bereik daarvan is de
afstand tussen Q1 en Q3. Dit wordt ook wel de interkwartielafstand genoemd. Afgekort met
IQR. IQR = Q3 – Q1.
, De spreidingsmaten die het meest gebruikt worden zijn: de standaarddeviatie, ook wel de
standaardafwijking genoemd. En de variantie, die hier erg mee samenhangt.
De standaarddeviatie kan je zien als: de gemiddelde afstand tot het gemiddelde.
Voorbeeld: stel de gemiddelde leeftijd is 31. De gemiddelde afstand tot het gemiddelde
betekent dan het volgende:
(Bijna) iedereen heeft een leeftijd die anders is dan het gemiddelde. Voor elk persoon kan je
uitrekenen hoe groot dit verschil is: de afstand tot het gemiddelde. Vervolgens kan je het
gemiddelde berekenen van al deze afstanden en heb je de standaarddeviatie.
De leeftijden die je hebt zijn: 30, 25, 27, 38, en 35. Met een gemiddelde leeftijd van 31. De
standaarddeviatie (S) hiervan is: 4.35.
0) Nu kunnen we ook heel makkelijk de variantie uitrekenen. Dit is het kwadraat van de
standaarddeviatie: oftewel: variantie = st.deviatie2.
1) Afkortingen hiervan: var = S2.
2) Andersom werkt ook. De standaarddeviatie is de wortel van de variantie. Oftewel:
standaarddeviatie = variantie.
De standaarddeviatie heeft een (redelijke) intuïtieve betekenis. We kunnen begrijpen
wat het ongeveer inhoudt.
De variantie heeft nuttige wiskundige eigenschappen waardoor de variantie centraal
staat in veel statistiek.
De standaarddeviatie kan nooit negatief zijn.
Frequenties en staafdiagram
Een standaard manier om overzicht te krijgen van je data is om een frequentie tabel te
maken. Frequentie betekent hoe vaak een bepaalde waarde voorkomt in je data set.
Een staafdiagram is goed te gebruiken als er niet te veel groepen zijn en dat de groepen
allemaal voldoende hoge frequenties hebben. Een staafdiagram gebruik je daarom vooral bij
variabelen op nominaal of ordinaal niveau. De staafjes in een staafdiagram staan los van
elkaar zodat je ziet dat het om losse groepen gaat.