Analyse 1
Pedagogische wetenschappen Radboud Universiteit
schooljaar 2021-2022
College 1 – Introductie, meetniveaus en frequentieverdelingen
Kennis van beschrijvende statistiek is essentieel om onderzoeksgegevens te interpreteren
(bijvoorbeeld bij onderzoek naar leerling resultaten of naar de effectiviteit van behandelingen) en om
aan de hand daarvan advies te geven of beslissingen te nemen.
Fasen van het onderzoeksproces:
1. Formuleren probleemstelling.
2. Onderzoeksopzet bepalen.
Wie: steekproefgrootte, kwaliteit steekproef,
aselect, representatie
Wat: meetinstrument → valide, betrouwbaar etc.
Wanneer: eenmalig/meerdere meetmomenten
Hoe: keuze van analysemethode
3. Dataverzameling.
4. Generalisatie; de onderzoeksresultaten betekenis
geven.
Statistiek is van belang bij het bepalen van je doelgroep (populatie die je gaat onderzoeken), bij de
vraagstelling, het formuleren van hypothesen en bij het vaststellen van relevante kenmerken
(variabelen). Statistiek helpt bij het maken van een keuze voor een meetinstrument en een
analysemethode en kan helpen bij het trekken van een steekproef. Tot slot speelt statistiek een rol
bij het bepalen van het verband tussen de resultaten en de theorie en daarmee het trekken van
conclusies.
Onder beschrijvende statistiek valt het ordenen en presenteren van gegevens in samenvattende
kengetallen, tabellen, grafieken en figuren.
Datamatrix: overzicht van verzamelde data, verdeeld per onderzoekseenheid (verticaal) en per
variabele (horizontaal).
Variabele: een gemeten grootheid die kan variëren.
• Afhankelijke variabele: het gevolg; de te verklaren variabele à uitkomst (Y-as).
• Onafhankelijke variabele: de oorzaak; de verklaring voor (invloed op) de afhankelijke
variabele (X-as).
• Discrete variabele: een variabele die slechts een bepaald aantal waarden kan aannemen; een
verschil tussen twee waarden is altijd één eenheid of meer vaste eenheden (bijvoorbeeld het
aantal vakantiewoningen dat jaarlijks in de provincie gebouwd wordt).
• Continue variabele: een variabele waarvoor geldt dat er tussen twee gegeven waarden altijd
een derde ligt: bij het meten van continue variabelen zijn de scores altijd afgeronde getallen
(een benadering van de feitelijke score) (bijvoorbeeld de gemiddelde tijd die een
krantenbezorger nodig heeft voor zijn dagelijkse rondje).
• Kwalitatieve (categorische) variabelen: nominaal of ordinaal categorieënsysteem
(bijvoorbeeld woonplaats of oogkleur).
• Kwantitatieve variabelen: interval of ratio meetniveau, de waarden geven een hoeveelheid
aan (bijvoorbeeld IQ of score op een toets).
1
,Causaliteit
- Oorzaak en gevolg
- Schijnverband: Er lijkt een relatie te zijn, maar blijkbaar is er een 3e variabele die invloed heeft
- Meer predictoren
- Mediatie: De relatie tussen 2 variabelen loopt via een derde variabele (mediator).
- Moderatie: De moderator (3e variabele) heeft invloed op de sterkte van het verband tussen de
twee andere variabelen. Een moderator kan het verband ook verzwakken.
Onderzoekseenheid (case): eenheid waarbij (of bij wie) de variabelen gemeten worden.
Score: waarde van een onderzoekseenheid op een variabele.
Meetniveaus:
1. Nominaal: categorieën, waarden geven categorieën aan (bijvoorbeeld woonplaats of
diersoort).
2. Ordinaal: oplopende categorieën, waarden geven volgorde aan (bijvoorbeeld
goud/zilver/brons of opleidingsniveau).
3. Interval: waarden geven volgorde aan, bovendien hebben gelijke intervallen tussen de
waarden dezelfde betekenis (bijvoorbeeld IQ of temperatuur in Celsius).
4. Ratio: waarden geven volgorde aan, de intervallen tussen de waarden zijn gelijk (dezelfde
betekenis) en er bestaat een absoluut nulpunt (bijvoorbeeld temperatuur in Kelvin of leeftijd.
Ordening Meeteenheid Vast nulpunt
Nominaal - - -
Ordinaal * - -
Interval * * -
Ratio * * *
Het onderscheid tussen het interval en ratio meetniveau is meestal niet van belang. SPSS geeft beide
meetniveaus weer als ‘scale’.
Frequentie: de frequentie (fi) is het aantal keer dat een bepaalde waarde (Xi) voorkomt.
• Absolute frequentie: het aantal keer dat een bepaalde waarde voorkomt.
• Relatieve frequentie: de frequentie gerelateerd aan het totaal. Je gaat kijken naar de waarde
t.o.v. de gehele steekproef. Zorgt ervoor dat er makkelijk vergeleken kan worden.
o Proportie: de absolute frequentie (fi) gedeeld door het aantal waarden (N); altijd een
waarde tussen 0 en 1.
o Percentage: proportie * 100%.
• Cumulatieve absolute frequentie (cfi): de frequentie tot en met een bepaalde waarde (Xi) à
som van frequenties
2
, • Cumulatieve relatieve frequentie: cumulatieve absolute frequentie gerelateerd aan het
totaal. Maakt het mogelijk dat je de positie van een score ten opzichte van het totaal weer
kan geven.
o Cumulatieve proportie: de cumulatieve absolute frequentie (cfi) gedeeld door het
totaal aantal waarden (N).
o Cumulatief percentage: cumulatieve proportie * 100%.
Wanneer welke?
• Absoluut: bij exacte hoeveelheden, zorgt voor minder misleiding.
• Relatief: groepen met ongelijke grootte vergelijken.
• Cumulatieve relatieve frequentie: Relatieve positie weergeven.
Gegroepeerde frequentieverdeling: frequentieverdeling waarbij waarden worden samengenomen
tot klassen van waarden. Nadeel hiervan is dat je een beperkte hoeveelheid informatie weergeeft en
dat je andere berekeningen uit moet voren om centrum- en spreidingsmaten wil berekenen.
Percentielen
• Percentiel P van een score X: het percentage
onderzoekselementen/waarnemingen/cases dat een score
heeft lager dan of gelijk aan X.
• Score X van een percentiel: De score X, waarbij een
bepaald percentiel hoort à Af te lezen bij cumulatief
percentage.
• Decielscore: D1, D2, D3, etc. (=p10, p20, p30, etc.).
• Kwartielscore: Q1, Q2, Q3, Q4 (=p25, p50, p75, p100)
à zie boxplot hiernaast.
3
, College 2 – Centrum- en spreidingsmaten
Centrummaten (gemiddelde, mediaan en modus) geven aan rond welke waarde/score de meeste
onderzoek elementen gecentreerd liggen. Ook geven ze een samenvatting van de
frequentieverdeling. Daarnaast kun je met centrummaten groepen vergelijken.
• N = aantal waarnemingen.
• Modus (mode) = de waarde van de variabele met de hoogste frequentie: de waarde die het
meest voorkomt (toe te passen op alle meetniveaus (nominaal, ordinaal, interval en ratio)
o Nadeel: instabiel, bi/multimodaal (meer dan 1 modus) is moeilijk te interpreteren,
weinig info gebruikt, erg afhankelijk van groepsindeling (bv. heel veel jongeren en
heel veel ouderen, maar een paar er tussenin)
• Mediaan (Median) = de waarde van de middelste waarneming wanneer de waarnemingen in
volgorde van laag naar hoog staan.
o Even waarnemingen à midden tussen de middelste twee scores.
o Oneven waarnemingen à de middelste score.
o Meetniveau: ordinaal, interval en ratio. De mediaan is niet gevoelig voor outliers.
o Nadeel: niet geschikt om mee verder te rekenen en weinig info gebruikt.
• Gemiddelde (Mean) = een centrummaat gebaseerd op de afstand van de scores tot het
middelpunt; gebaseerd op werkelijke scores à dat wil zeggen dat je met de scores rekent en
dat niet alleen de plaats in de frequentieverdeling van belang is, zoals bij modus en mediaan.
o Meetniveau: interval en ratio
o Nadeel: gevoelig voor outliers; voordeel: varieert minder wanneer we uit een
populatie meerdere steekproeven trekken).
Uitschieters (outliers) = extreme waarden. Gemiddelden zijn erg gevoelig voor outliers. Een mediaan
is het minst gevoelig. Verwacht je grote outliers, gebruik dan de mediaan als indicatie voor het
centrum van de verdeling.
Spreiding van de verdeling
Normale verdeling:
Gemiddelde = modus = mediaan.
Klokvormig, symmetrisch en eentoppig.
Negatief scheef/ links scheef
Skewness is .1 of-.1
Gemiddelde < mediaan < modus.
De verdeling heeft een uitloop naar links.
4