Statistiek
Module 1 t/m 11, Q&A’s, oefentoets, Athena training, practica en colleges uitwerkingen
Module 1 introductie
Kwalitatieve (categoriaal) variabelen
1. Nominaal: geen logische volgorde zoals status relatie (single, getrouwd, weduwe, gescheiden)
2. Ordinaal: logische volgorde zoals BMI of SES (laag, medium, hoog)
3. Binair/dichotomous: twee antwoordmogelijkheden zoals ja of nee
Kwantitatieve (numeriek) variabelen
1. Discreet: er zijn maar enkele nummers mogelijk zoals hoeveelheid kinderen (0,1,2,3); er kunnen
dus allerlei kansen zijn.
2. Continueel: heel veel nummers mogelijk bij bijv. hoogte/gewicht (kommagetallen -> 177,8988
etc.); de kans is 0, omdat er heel veel mogelijkheden zijn. Bijvoorbeeld lengte, gewicht, bloeddruk. Je
kan wel de kans in een gebied bepalen (kans tussen 1.70 – 1.71 bijvoorbeeld) maar dit is nagenoeg 0.
Module 2 descriptieve statistiek
Frequentietabel
Bij onbekende variabelen geeft ‘valid percentage’ alleen de percentages van de niet-missende
gevallen. De ‘cumulatieve percentages’ zijn de totalen van de ‘valid percentages’. De ‘percent’
waardes betrokken ook de missende gevallen bij hun percentage.
Voorbeeld tabel
Bij onderstaande tabel zijn er geen missende variabelen, hierdoor zijn de ‘percent’ en ‘valid percent’
gelijk aan elkaar. De ‘cumulatieve percent’ telt alle voorgaande ‘valid percent’ waardes bij elkaar op.
Voorbeeld met missende variabelen
Stel er zijn 1400 antwoorden, waarvan 250 missen dan is de valid percentage 1400 – 250 = 1150 ->
21,9%. En dan is de ‘percent’ 18% (die kijkt naar alle 1400).
Bereik/gebied/range is het verschil tussen de grootste en kleinste observatie. Het wordt sterk
bepaald door extreme variabelen (uitschieters). Variatie meet je binnen een gebied/range (verschil
grootste en kleinste observatie).
Voorbeeld: stel je hebt een groep kinderen van 5, 6, 6 en 7 jaar. Dan is de range dus (7-5) = 2 jaar.
Gemiddelde is middelste van alle observaties, zorgt voor symmetrie in grafiek. Dit is een modus bij
nominale variabelen (waarde die het meest voorkomt).
Voorbeeld gemiddelde (zie voorbeeld standaardafwijking).
Standaarddeviatie (spreiding)/standaardafwijking in populatie
➔ Maat van verspreiding
➔ Gemiddelde afstand van alle waarnemingen t.o.v. het gemiddelde.
➔ Alle deviaties: hoever ligt iedere waarneming van het gemiddelde?
, ➔ Variantie is het gemiddelde van alle in kwadraat genomen
deviaties/n-1. De wortel van de variantie is de standaardafwijking.
Voorbeeld:
Groep van kinderen: 2,4, 8 en 10 jaar oud. Gemiddelde is 6 jaar.
Wortel van 13,33 = standaardafwijking.
De standaardafwijking wordt meestal gebruikt bij symmetrische verdelingen. Bij een niet-
symmetrische distributie gebruiken we de Inter Quartile Range (IQR) -> verschil 3e kwartiel en 1e
kwartiel. De mediaan is hierbij de middelste waarde. Bij oneven getallen kan dit, bij even getallen
moet je het middelste nemen van beide middelste getallen.
Boxplot
De box is 50%. Q1 is 25% en Q3 is 75%.
Uitschieter: meer dan 1,5 box ver weg
Extreem: meer dan 3 boxen weg.
T-bars: range tussen grootste en kleinste waarde
(m.u.v. uitschieters en extremen).
Voorbeeld foto hiernaast:
Q1 is gedeelte box onder de zwarte dikke lijn
(mediaan). Hier wordt geschat dat 25% kleiner is
dan 175 cm. Bij de Q3 (boven de mediaan) wordt
er geschat dat 75% van de mannen kleiner is dan
180 cm. 25% is groter dan 180 cm.
Scatterplot: relatie tussen twee variabelen ->
lineair of parabool (zie foto hiernaast onderste)
,Module 3 kansen
Kans (A) = resultaten m.b.t. A /door totaal aantal resultaten ALS alle resultaten gelijk zijn aan elkaar.
Voorbeeld
Je loopt binnen in een ruimte met 12 bachelor studenten, 18 master studenten en 10 professoren.
Wat is de kans dat je het eerste een student ziet?
Totaal = 12 + 18 + 10 = 40
12+18 = 30 studenten
Dus 30/40 = 0,75 = 75%
Als we niet weten of de resultaten aan elkaar gelijk zijn, gebruiken we de formule:
De kans dat A gebeurt is gelijk aan de limiet van de ratio van het aantal keer dat A is geobserveerd
gedeeld door het aantal totale experimenten. Denk bijvoorbeeld aan de kans of je een jongen of
meisje krijgt. Deze kans is officieel gezien 0,52 per jaar in de afgelopen jaren.
Enkele kansbegrippen
➢ P(Ā of Ac) = 1 – P(A) (kans dat A niet gebeurt) = complement
➢ P (A | B) is de kans dat A gebeurt wanneer B al aanwezig is = conditioneel
o Bijvoorbeeld er zijn 5200 jongens en 4800 meisjes. 120 jongens hebben CHD en 5080
hebben geen CHD. De kans dat een jongen CHD heeft is dan 120/5200 = 0,023.
➢ P (A ∩ B) is de kans dat A en B tegelijk aanwezig zijn = intersectie
- A en B onafhankelijk van elkaar P (A ∩ B) = P(A) x P(B) = productregel
- A en B afhankelijk van elkaar P (A ∩ B) = P(A) x P (B | A)
➢ P(A U B) = kans dat A en B tegelijk voorkomen = P(A) + P(B) – P(A ∩ B) = unie, vereniging
Bijvoorbeeld:
P(boy ∪ CHD) = P(boy) + P(CHD) – P(A ∩ B)
(5200/10000) + (200/10000) – (5200/1000 x 120/5200)
0,52 + 0,02 – 0,012 = 0,528
Specificiteit: kans dat een niet-ziek persoon een negatieve uitslag heeft
Sensitiviteit: kans dat een ziek persoon een positieve uitslag heeft
Vals positief: een persoon heeft een positieve uitslag, maar is niet ziek
Vals negatief: een persoon heeft een negatieve uitslag, maar is ziek
Voorbeeld positieve test bij goed positief en vals negatief:
100 van de 100.000 mensen heeft TB. Sensitiviteit is 0,95 en
specificiteit is 0,9. Wat is de kans dat de test goed positief is?
P (TB+ |M+) = kans op goed positieve uitslag x kans op ziekte/
kans op positieve uitslag
P = (0,95 x 0,0001)/ (0,95 x 0,001 + 0,1 x 0,999) = 0,0094
, De kans dat een positieve uitslag een bepaalde ziekte heeft, verandert wanneer de prevalentie van de
ziekte verandert.
Module 4 kansverdelingen
Binomiale kansverdeling
Een verdeling van het aantal successen (X) in een reeks van (n) onafhankelijke waarnemingen allen
met een kans op succes (p). Ook wel een Bernoulli-experiment genoemd.
Formule: X ~ B(n, p)
Voorbeeld opdracht
Wat is de kans dat je iemand uit een populatie pakt die een bloeddruk hoger heeft dan 137? Gem. is
120 met standaardafwijking 10.
P(B>137) = P(Z>(137-120)/10) = P (Z>1,7) = 0,0446 = 4,460 %
Bij onderstaande tabel zijn er 4 kinderen. Wanneer je de kans wil berekenen dat 1 kind ziek is, bepaal
je alle kansen die er zijn. Het eerste kind kan ziek zijn, maar ook het derde kind. Dus daarom doe je
0,75^3 (aangezien je 3 gezonde kinderen wilt hebben op welke volgorde dan ook) x 0,25 (je wilt 1
ziek kind hebben).
Alle kinderen gezond: 0,75^4
Alle kinderen ziek: 0,25^4
Wanneer je wilt berekenen in hoeveel verschillende manieren 2 kinderen van de 4 ziek zijn bepaal je
4 boven 2. Er zijn 6 verschillende mogelijkheden. Kind 1 kan samen met kind 2 ziek zijn, kind 1 samen
met kind 3, kind 1 samen met kind 4. Kind 2 samen met kind 3, kind 2 samen met kind 4. Kind 3
samen met kind 4.
Aantal combinaties =
Voorbeeld:
Combinaties 2 van de 4 kinderen ziek.