Onderzoekspracticum experimenteel
onderzoek
Samenvatting
Voorkennis
Hoofdstuk 10: Data
10.4: Meetniveaus
Categorische variabelen: vertegenwoordigen kwalitatieve gegevens en worden meestal in
categorieën ingedeeld. Dit wordt veel gebruikt bij experimenteel onderzoek. 2 soorten:
Nominaal: een variabele met het laagste meetniveau. Deze categorieën zijn niet te ordenen
en er kan ook niet mee gerekend worden. Er kan alleen gezegd worden of de 2 waarden wel
of niet hetzelfde zijn.
o Dichotoom: een nominale variabele die maar 2 waarden kan aannemen (geslacht).
o Haarkleur zwart haar is niet ‘hoger’ of ‘lager’ dan rood haar
Ordinaal: een variabele met een wat hoger meetniveau. De categorieën zijn te ordenen
(hoger/lager, meer/minder), maar de afstanden tussen deze categorieën zijn onbekend.
o Opleidingsniveau vmbo is lager dan havo. Maar, je kan niet zeggen dat iemand
met een universitaire studie dubbel zo’n hoog opleidingsniveau heeft als iemand die
alleen de middelbare school heeft afgerond (afstand is onbekend).
Continue variabelen: vertegenwoordigen kwantitatieve gegevens en kunnen elk numeriek waarde
binnen een bepaald bereik aannemen. Deze variabelen kunnen oneindig veel waarden hebben tussen
2 punten (lengte, temperatuur, leeftijd, etc). Ze zijn van het hoogste meetniveau. 2 soorten:
Interval: de intervallen geven een afstand aan, maar geen verhouding.
o Een temperatuur van 0 graden geeft wel degelijk een temperatuur aan. Je kan alleen
niet zeggen dat 20 graden dubbel zo warm is als 10 graden. Tussen data zit ook
afstand. Meeste psychologische constructen.
Ratio: er is een verhouding tussen getallen.
o Een lengte van 0 betekent de afwezigheid van lengte en een lengte van 2 meter is
twee keer zo lang als een lengte van 1 meter. De nulscore is een absoluut nulpunt
(een negatieve score is onmogelijk).
Hoofdstuk 11: Beschrijvingsmaten
11.1: Centrummaten
Soorten centrummaten, die op verschillende manieren het ‘centrum’ van een datareeks aangeven:
Gemiddelde: het gemiddelde van de waarden Mean
o Alle getallen optellen en delen door het aantal bij elkaar opgetelde getallen
o Zien we het vaakst terug in het dagelijks leven
o Gevoelig voor outliers
Modus: meest voorkomende waarde in de datareeks (hoe vaak een getal voorkomt) Mode
o Informatief bij een beperkt aantal waarden of bij een grote hoeveelheid datapunten
o Als er 2 getallen evenveel voorkomen, heb je 2 modi
Mediaan: middelste datapunt in de datareeks Median
o Getallen moeten van laag naar hoog staan
1
, o Als het middelste punt 2 datapunten zijn, wordt het gemiddelde hiervan berekend
o Minder gevoelig voor outliers
Outlier (uitschieter/uitbijter): extreem datapunt, die in de meeste gevallen ver af ligt van de rest van
de datapunten. Vaak is zo’n extreme waarde een indicatie dat er een fout in de data zit (ongeldig),
maar soms hoort het erbij (geldig).
11.2: Spreidingsmaten
Soorten spreidingsmaten:
Range (bereik): het verschil tussen het maximum en het minimum.
o Bv: tentamencijfer: 4-9 range is 5
o Zeer gevoelig voor outliers
Interkwartielafstand (IQR): scores worden opgedeeld in 4 kwartielen (elk
25%) en het verschil wordt berekend tussen het 1 e en 3e kwartiel
o Voor spreidingsmaten is dit wat de mediaan is voor centrummaten
Sum of squares (SS, variatie): (elk datapunt – gemiddelde) en kwadrateren
(niet op het eind kwadrateren maar direct). Alles bij elkaar opgeteld is de SS.
o De afwijkingen worden gekwadrateerd, zodat ze allemaal positief zijn (- * - = +)
o Stap 1 richting SD
Mean squares (MS, variantie): SS/(N-1)
o Informatiever en wordt vaker gebruikt dan variatie
o Vrijheidsgraden (degrees of freedom, df): drukken uit hoeveel datapunten in een
datareeks vrij kunnen variëren zonder dat de berekende statistiek verandert (n-1). Als
het gemiddelde 2,5 moet zijn, kunnen de punten 1, 2, 3 en 4 zijn. Als de punten 0,0
en 0 zijn, moet het 4e punt wel 10 zijn om het gemiddelde te behouden.
o Stap 2 richting SD
Standaarddeviatie (standaardafwijking, SD): Spreiding vanaf het gemiddelde. Wortel van MS.
o Meest gebruikte spreidingsmaat
o Gemiddelde kan 5 zijn waar iedereen 3 x 5 scoort (geen spreiding vanaf het
gemiddelde, SD=0) of er wordt 1, 5 en 9 gescoord (wel spreiding)
o Stap 3 (laatste stap)
11.3: Beschrijvingsmaten voor categorische variabelen
Frequentieverdeling: de frequenties, oftewel de aantallen, voor elke mogelijke meetwaarde.
Een frequentietabel heeft 4 kolommen:
Frequenties: het aantal datapunten voor elke meetwaarde (absolute frequenties)
Percentage voor elke meetwaarde van het totale aantal datapunten, waarbij de datapunten
die geen meetwaarde hebben (missing values) ook in het totaal meetellen
2
, Percentage voor elke meetwaarde van het (‘subtotale’) aantal datapunten waarvoor wel een
meetwaarde bekend is
Cumulatief percentage: het percentage van een bepaalde meetwaarde samen met de
percentages van alle lagere meetwaarden
Relatieve frequenties: worden gespecificeerd in percentages.
Een frequentietabel is niet praktisch voor een continue variabele, omdat ze vaak veel verschillende
meetwaarden hebben.
Hoofdstuk 12: Verdelingsvormen en -maten
12.1: Inleiding
12.2: Verdelingsvormen
Verdelingsmaat: hiermee wordt de mate van aanwezigheid van de verdelingsvormen getoetst.
Histogram: de horizontale as (x-as) correspondeert met de schaal van de datareeks. De datapunten
worden altijd samengevoegd in groepen.
3
, Soorten verdelingsvormen, de manier waarop de datapunten om het gemiddelde heen liggen:
Toppigheid (modaliteit): beschrijft het aantal toppen
van een verdeling, dit is te zien in een histogram. Het
doel hiervan is om iets te kunnen zeggen over de
verdelingsvorm van de populatie. Verdelingsmaat =
Hartigan’s diptest.
o Unimodaal/eentoppig: een verdeling met 1
top.
o Multimodaal/biomodaal: een verdeling met
meerdere toppen. De populatie bestaat dan
vaak uit meerdere subpopulaties.
Diptestwaarde wordt groter bij meer toppen.
Skewness (scheefheid): beschrijft of een verdeling
linksscheef, symmetrisch of rechtsscheef is.
o Linksscheef (assymetrisch): meer
datapunten rechts.
o Symmetrisch: de meeste datapunten liggen
rondom het gemiddelde en er zijn steeds
minder datapunten naarmate de afstand
tot het gemiddelde toeneemt
(normaalverdeling).
o Rechtsscheef (assymetrisch): meer
datapunten links
o
Kurtosis (spitsheid): beschrijft hoe plat of spits een
verdeling is.
o Platykurt (plat, uniform): alle waarden komen
(bijna) even vaak voor en zijn dus verdeeld
leeftijd van alle Nederlanders
o Leptokurt (spits): (bijna) alle datapunten hebben
dezelfde waarden en zijn dus niet verdeeld
leeftijden van kinderen in een klas
o
12.3: Normale verdelingen
Kenmerken normaalverdeling:
Unimodaal
o Diptest = 0
Perfect symmetrisch
o Skewness = 0
Niet bijzonder spits of plat
o Kurtosis = 0
4