BESCHRIJVENDE STATISTIEK
Hoorcollege 1 ........................................................................................................................................................................... 2
Start ................................................................................................................................................................................................ 2
Hoorcollege 2 ........................................................................................................................................................................... 9
Spreidingsmaten............................................................................................................................................................................. 9
Hoorcollege 3 ......................................................................................................................................................................... 13
Correlatie ...................................................................................................................................................................................... 13
Hoorcollege 4 ......................................................................................................................................................................... 21
Regressieanalyse .......................................................................................................................................................................... 21
Hoorcollege 5 ......................................................................................................................................................................... 29
Kansberekening deel 1 ................................................................................................................................................................. 29
Hoorcollege 6 ......................................................................................................................................................................... 35
Kansberekening deel 2 | voorwaardelijke kansen en diagnostische tests ................................................................................... 35
Hoorcollege 7 ......................................................................................................................................................................... 41
Kansberekening deel 3 | discrete- en continue kansverdeling (incl. normaal- en standaard normaalverdeling) ........................ 41
Hoorcollege 8 ......................................................................................................................................................................... 50
Kansberekening deel 4 | binomiale-, populatie-, data-, en steekproevenverdeling ..................................................................... 50
Hoorcollege 9 ......................................................................................................................................................................... 58
steekproevenverdeling van een gemiddelde | punt- en intervalschattingen ............................................................................... 58
Hoorcollege 10 ....................................................................................................................................................................... 68
foutenmarge | betrouwbaarheidsinterval berekenen van zowel proportie als gemiddelde ........................................................ 68
Hoorcollege 11 ....................................................................................................................................................................... 77
Minimale steekproefgrootte berekenen| hypothesetoetsing ...................................................................................................... 77
Hoorcollege 12 ....................................................................................................................................................................... 84
Hypothesetoetsing voor proportie en gemiddelde | eenzijdig/tweezijdig toetsen | relatie tussen tweezijdige hypothesetoets
voor gemiddelde en betrouwbaarheidsinterval voor gemiddelde................................................................................................ 84
Hoorcollege 13 ..................................................................................................................................................................... 100
Type I en II fout | onderscheidingsvermogen/power ................................................................................................................. 100
Made by: Miriam Al-Ankouchi
Student Pedagogische Wetenschappen, Universiteit van Amsterdam (2023)
1
, Hoorcollege 1 👩🏫
Start
Populatie à iedereen waarbij je als onderzoeker Steekproef à deel van je populatie die je
geïnteresseerd in bent. De hele doelgroep. daadwerkelijk gebruikt.
Bv. 1ejaars pedagogiek studenten in NL.
Steekproef is dus een deel van je populatie
Hoe goed kunnen Nederlandse peuters tellen Groen is je populatie J
voordat zij naar de basisschool gaan?
Telvaardigheden meten bij 52 drieenhalfjarige Groen is je je
kinderen in Nederland steekproef. Rood is je
variabele.
Variabele à Waarop respondenten verschillen.
2 soorten variabelen:
1. Categorische variabele à Kun je indelen in categorieën.
Bijvoorbeeld haarkleur (blond, rood, bruin, zwart = nominaal). Met categorische variabelen kun je
niet rekenen. Soms kun je het wel ordenen (mbo, hbo, wo = ordinaal).
Je kunt geen gemiddelde uitrekenen
2. Kwantitatieve variabele à hier hebben de cijfers wel een betekenis.
Bijvoorbeeld leeftijd, gewicht, inkomen etc.
Continue variabele à oneindige precies kunnen meten. Het gaat erom dat je heel veel
decimalen kan hebben.
Bijvoorbeeld Reactietijdmeten van een kinds werkje. Het oneindig, je kan oneindig meten en
zo nauwkeurig mogelijk met milliseconde.
Bijvoorbeeld: lengte en tijd
Discrete variabele à Vaste waarden, zonder tussenliggende waarden
Bijvoorbeeld het aantal kinderen dat iemand heeft, je kunt geen 2,5 kinderen hebben).
In praktijk is bijna alles discreet. à Vaak wordt alles afgerond
Statistic en parameter
Statistic à waarde die hoort bij je steekproef. Parameter à hoort bij je populatie. Gemiddelde
Gemiddelde van je steekproef van je populatie.
Beschrijvende statistiek à je leert data Toetsende statistiek à is het daadwerkelijk zo
samenvatten met statistics en het grafisch af te dat …? Hoe maken ze zo’n beslissing? Je toetst de
beelden. Je beschrijft het. hypothese.
2
,De parameter weet je van tevoren eigenlijk nooit, maar de statistics gebruik je om de parameter te
berekenen. Dit is toetsende statistiek, genereren van de steekproef naar de populatie.
Centrummatenà waar zitten de meeste mensen: Spreidingsmaten à hoeveel verschillen mensen
gemiddelde, modus en mediaan van elkaar
Categorische variabelen
Categorische variabelen kun je weergeven met bijvoorbeeld cirkeldiagrammen, staafdiagrammen,
frequentietabellen.
Voorbeeld: hoe kun je dit weergeven? à
We meten of 3,5-jarige kinderen vijf blokjes correct kunnen tellen. Voor elk kind wordt 'ja' of 'nee'
ingevuld.
Variabele: tellen van 5 blokjes
Soort variabele à categorisch. Het gaat erom dat ze alleen ja of nee invullen. Als ze data gingen
analyseren met nummers was het was anders.
Frequentie à aantal kinderen
Frequentie: totale frequentie x 100
Kwantitatieve variabele
Cumulatieve percentage à Het cumulatieve percentage geeft antwoord op de vraag 'hoeveel keer komt
deze waarde of een kleinere waarde voor?
1. Je kijkt naar hoeveel mensen dus die waarde hebben of een kleinere waarden.
2. Dit deel je vervolgens met het totaal aantal studenten
3. X 100
Waarvoor is het handig?
- analyseren van gegevens. Begrijpen verdeling gegevens etc.
Formule à Cumulatieve Percentage = aantal observaties tot de gewenste waarde: totaal aantal
observaties in dataset x 100%
3
,Voorbeeld:
Je wilt cum percentage uitrekenen voor aantal studenten met een score van 85 of hoger.
Stap 1: Stap 2:
Aantal observaties tot de gewenste waarde Er zijn in totaal 100 studenten.
à Je kijkt naar de scores, stel je voor er zijn 16
studenten die een hogere waarde heeft dan 85.
Stap 3:
Berekenen:
à 16:100 x 100% = 16%.
à 16% is je cumulatieve percentage.
Centrummaten worden vaak gebruikt om te kijken wat het gemiddelde of de meest voorkomende waarde
is.
Soorten centrummaten
Modus à wat het meeste voorkomt - kijk wooclap slide 26
Mediaan à middelste waarde.
Bijvoorbeeld: 4 5 6 7 8 à 6 is de mediaan.
Bijvoorbeeld: 5 6 7 8 =à 6,5 is de mediaan
Bijvoorbeeld: 0 0 0 0 10 10 10 à 0 is de mediaan
Gemiddelde à letterlijk gemiddelde. Extreme hoge/cijfers kunnen hier van invloed op zijn.
Verwachte waarde als je verder geen informatie hebt
Modus berekenen à De 'omcirkelde' cijfers, zoals 19 en 8, worden de modus genoemd, wat betekent dat
ze het vaakst voorkomen. Daarna kijk je naar het aantal ‘valid’ blokken. Je bekijkt dus hoeveel blokken het
meest voorkomen. Bij afbeelding 1 zijn dat 10 blokken en bij afbeelding 2 zijn dat 5 blokken.
4
,Mediaan berekenen à
OpKe 1: Om de mediaan te berekenen kun je bij cumula0ve percent kijken. Daar zoek je de 50%. De 50%
valt in het voorbeeld hiernaast bij 8. De mediaan is dus 8.
OpKe 2: 1 x 0 – 2x2 – 1x3- 5x4 – 8x5 – 4x6 – 2x7 – 3x8 – 5x9 – 19x10
0 – 4 – 3 – 20 – 40 – 24 – 14 – 24 – 45 - 190
Gemiddelde berekenen à 1 + 2 + 1+ 5 + 8 + 4 + 2 + 3 + 5 + 19 = 50 (totaal): 10 = 5
Een frequentieverdeling à gewoon een lijst of tabel die laat zien hoe vaak verschillende dingen
voorkomen. Het vertelt je hoeveel keer iets gebeurt of voorkomt. Bijvoorbeeld, als je een
frequentieverdeling hebt van de leeftijden van mensen, laat het zien hoeveel mensen van elke leeftijd er
zijn. Het helpt je om patronen en informatie in gegevens te begrijpen door te tellen hoe vaak dingen
voorkomen.
Voorbeeld:
1. Sigma teken betekent basically dat je alles bij elkaar optelt.
2. I staat voor ‘van elke individueel observatie
3. Xi staat voor ‘waarde van observatie’
4. Dit betekent dat persoon 1 een 4 heeft gehaald, persoon 2 een 6, persoon 3 een 2 en persoon 4
een 0.
5. xi (4+6+2+0=12): 4 = 3
6. Het gemiddelde is een 3.
5
,Voorbeeld à
1. K = hoeveel verschillende geobserveerde
uitkomsten zijn er? 500. Er zijn 500 verschillende
mensen geobserveerd toch?
2. Frequentie van uitkomst X waarde van uitkomst
à 400 x 1 = 400 – 100 x 0 = 0 à 400 + 0 = 400
3. 400: 500 =0,8
Let op bij stap 3 niet: 2. De aantal observaties is 100 + 400. Er zijn 2 soorten, maar dat vragen ze niet.
Mediaan vs. gemiddelde
De keuze voor mediaan of gemiddelde hangt af van de variabelen.
Bij een symmetrische verdeling zijn de mediaan en het gemiddelde gelijk. De voorkeur ligt hier bij het
gemiddelde.
Bij een scheve verdeling ligt de voorkeur voor de mediaan. Het gemiddelde geeft hier namelijk niet geen
representatief beeld over hoe de data verdeeld is. De verdeling is hier scheef naar links.
Onderzoekers hebben voorkeur naar gemiddelde, tenzij er scheve scores zijn.
Toch geeft soms het gemiddelde een representatievere weergave dan de mediaan bij een scheve
verdeling. Bijvoorbeeld bij: 0-0-0-0-10-10-10, want de mediaan is hier 0 en het gemiddelde is 4,3.
6
, Categorische variabelen
1. Cirkeldiagram
2. Staafdiagram
Frequentietabel
Kwantitatieve variabelen
7
, 1. Histogram
2. Stem and leaf diagram
3. Dot plots
Verschil tussen een staafdiagram en histogram
Uitleg internet: Een staafdiagram maak je bij een discrete verdeling. Dit gaat bijna altijd om kwalitatieve
data (nominaal of ordinaal). Een histogram maak je bij een continue verdeling. Dit gaat altijd om
kwantitatieve data (interval of ratio).
Uitleg hoorcollege: Een histogram lijkt op een staafdiagram, maar in plaats van losse staven naast elkaar,
worden de waarden in groepen gegroepeerd. Het toont ook de waarden die niet voorkomen, zodat je een
beter beeld krijgt van de verdeling van de gegevens. Een histogram is handig om te zien hoe gegevens zich
verspreiden en welke waarden het meest voorkomen.
8
,Uitleg werkcollege: bij staafdiagram heb je plek tussen de staafjes. Bij het histogram niet. Categorisch
hebben niks met elkaar te maken, dus ze zijn ‘los’ van elkaar.
Hoorcollege 2 👩🏫
Spreidingsmaten
De range" (bereik) à verschil tussen het grootste en het kleinste getal in een groep getallen.
Het vertelt je hoe groot het verschil is tussen het hoogste en laagste cijfer.
Het bereik is gevoelig voor uitschieters en neemt geen rekening met de exacte waarden.
Formule: Maximum – minimum (Afstand van maximumwaarde tot minimumwaarde)
Voorbeeld:
De range = 25
Voorbeeld 2: we hebben de scores 2, 2, 2, 2 geobserveerd. Wat
is het bereik?
Het bereik is 0. Er is geen spreiding.
Percentielen è Een percentiel is en stukje van de
waarnemingen (percentage).
1 percentiel = 1 procent. Dus P50 = 50% = de mediaan.
Het pde percentiel is de waarde waarvoor geldt dat p
procent de waarnemingen kleiner is, of er gelijk aan is.
à Als we het hebben over het Pde, bijvoorbeeld P25,
betekent dit dat we op zoek zijn naar de waarde waarbij
25% van de metingen kleiner is dan die waarde en 75%
van de metingen groter is dan die waarde. Percentielen
zijn dus handige hulpmiddelen om de verdeling van
gegevens in een dataset te begrijpen en te analyseren op
basis van percentages.
Voorbeeld: welke waarde ligt bij het p75? à Je kijkt naar
cumulatieve percent daar zie je 74 en 77 staan. Maar je moet naar het valid getal kijken dus 8 en 9.
Interkwartielafstand à het richt zich op de middelste 50% van je gegevens (niet specifiek mediaan, dat is
specifiek getal). Het is handig omdat het minder gevoelig is voor uitschieters. Het helpt je de spreiding van
je gegevens te begrijpen zonder verstoord te worden door uitschieters.
9
, Stappenplan:
1. Sorteer je gegevens van laag naar hoog.
2. Vind het 25e percentiel (p25) (Q1) - dit is het punt waarbij 25% van je gegevens lager zijn.
3. Vind het 75e percentiel (p75) (Q3) - dit is het punt waarbij 75% van je gegevens lager zijn.
4. Trek Q1 af van Q3: IQR = Q3 - Q1.
In het kort: IQR = Q3 – Q1
Voorbeeld: (kijk naar de vorige afbeelding (blz. 7). Bereken de interkwartielafstand.)
Antwoord: 9 (p75) – 0 (30) = nog steeds 0.
30 komt in dit geval het meest dichtbij p25 en de waarde die
daarbij hoort is 0. De waardes doe je min elkaar. Dus 9-0 eigenlijk.
Antwoord is dus de valid en niet cumulatieve percentage! Geen
47 maar 9!
à Ter verheldering. Dit heb je dus uitgerekend met de formule. Dit is de
interkwartielafstand/ de middelste 50 procent.
Uitbijters/uitschieters in interkwartielafstand uitrekenen
(outliers)
Stappenplan
1. Ondergrens à Q1 – 1.5 x IKA
2. Bovengrens à Q3 + 1.5 x IKA
Voorbeeld:
1. 0 – 1,5 x 9 = -13,5 à alles hieronder zijn uitschieters.
2. 9 + 1,5 x 9 = 22,5 à alles hierboven zijn uitschieters
3. In dit geval zijn er dus alleen uitschieters naar boven
(boven de 22,5 is dus 24 en 25. Valid -13 staat er niet bij
dus geen uitschieters naar beneden.)
à Wat boven de
Q3 ligt zijn
uitschieters naar
boven.
Wat onder de Q1
ligt zijn uitschieters naar beneden
Of een waarde als een uitschieter naar boven of naar
beneden wordt beschouwd, hangt af van de specifieke
10