Inleiding statistiek
Hoorcollege 1
Hoofdstuk 1 – introductie statistiek
Berkson’s paradox = een type selectiebias - een wiskundig resultaat dat wordt gevonden in
voorwaardelijke waarschijnlijkheids- en statistiekvelden waarin twee variabelen negatief worden
gecorreleerd ondanks dat ze positief gecorreleerd zijn binnen de populatie. De correlatie is in
werkelijkheid veel zwakker of zelfs positief.
Statistiek gaat altijd over een waarschijnlijkheid, we hebben namelijk nooit toegang tot alle data. We
willen dus informatie halen uit een kleinere set data.
Inferentiële statistiek = gaat over het doen van schattingen of voorspellingen over een grote
hoeveelheid data op basis van informatie over een kleine hoeveelheid data. Denk hierbij aan het
nemen van een steekproef om iets te kunnen zeggen over de gehele populatie. Hierbij maken we dus
een inferentie van iets naar iets anders.
Beschrijvende statistiek = het beschrijven van data, vaak via samenvattende statistieken. Voorbeeld:
“een Spaanse vrouw is gemiddeld 1,63m lang.”
Drie dimensies van het data-idee:
1) Constructen vs. operationaliseringen: je bent geïnteresseerd in de samenhang tussen twee
constructen, maar deze kun je niet direct meten je moet de constructen dus
operationaliseren (vertalen naar een variabele).
2) Discrete vs. continue variabelen:
Discrete variabelen kunnen slecht uit een beperkt aantal categorieën bestaan, dit kan
oogkleur zijn (blauw / groen) maar het kan ook een aantal zijn (1 of 2 huisideren: je kunt
geen 1,3 huisdieren hebben, daarom is het categorisch).
Continue variabelen kunnen alle waarden tussen twee punten aannemen: je kunt
bijvoorbeeld 1,74629m lang zijn.
3) Verschillende meetniveaus:
De nominale schaal: je kunt geen kwantitatief onderscheid maken tussen categorieën (je
kunt niet zeggen een hond is meer dan een kat). Hierbij is er ook geen 0.
De ordinale schaal: hierbij worden categorieën gerangschikt, bij de ordinale schaal zijn de
intervallen niet gelijk. De 1e kan veel beter zijn dan de 2e, terwijl de 2e en de 3e heel dicht bij
elkaar liggen. Ook hierbij is geen 0.
De intervalschaal: bestaat uit even grote intervallen tussen de waarden, elke eenheid van 1
is even groot. Denk bijvoorbeeld aan temperatuur. Ook hierbij is 0 niet echt 0, een
temperatuur van 0 is nog steeds een temperatuur.
De ratio schaal: bestaat uit even grote intervallen tussen de waarden, elke eenheid van 1 is
even groot. Dit is dus gelijk aan de intervalschaal alleen nu is er wel een absolute 0. Een
afstand van 0 betekent ook echt dat er geen afstand is.
Hoofdstuk 2 - frequentieverdelingen
Hoe geven we data weer?
We kunnen tellen hoe vaak elke optie voorkomt: dit noemen we de frequentie(s) van waarden. Een
gestructureerde tabel wordt dan een frequentieverdelingstabel genoemd.
Bij discrete variabelen is dit heel makkelijk, maar bij continue variabelen is dit iets lastiger. Daarom
,maken we bij continue variabelen vaak gegroepeerde frequentieverdelingen: we bundelen enkele
waardebereiken samen.
Omdat deze getallen lastig te interpreteren zijn maken we gebruik van proporties:
proportie: p = frequentie (f) / totale aantal (N)
percentages: p = f / N * 100
Frequentietabellen: optellen hoe vaak een bepaald datapunt is genoemd. Links staan de ruwe data,
rechts staan de getallen met daarnaast de frequentie van hoe vaak dit getal voor is gekomen.
De percentages reken je uit door: deel / geheel van de frequentie * 100 (afronden op 2 decimalen).
De cumulatieve percentages zijn de percentages bij elkaar opgeteld.
x F % cum. %
0 4 30,77 30,77
1 2 15,38 46,15
2 2 15,38 61,53
3 3 23,08 84,60
4 1 7,69 92,30
5 0 0 92,30
6 1 7,69 100
Hierbij heeft 0 een percentielrang van 30,77 en heeft 1 een percentielrang van 46,15.
Histogram = de grafische weergave van de frequentieverdeling van in klassen gegroepeerde data,
afkomstig uit een continue kansverdeling.
Hoe lokaliseren we datapunten?
We willen misschien weten waar een waarde ligt ten opzichte van de hele data, bijv. zijn 3 huisdieren
veel of weinig? We kunnen punten lokaliseren met behulp van de frequentieverdeling, hierbij
gebruiken we percentielen:
1) We sorteren onze frequentietabel.
2) We berekenen een cumulatief percentage: we tellen de percentages van de proporties bij
elkaar op. Op het einde van de tabel kom je dus altijd uit op een proportie van 1 en een
percentage van 100%.
3) We lokaliseren ons datapunt van belang (hier: het hebben van 3 huisdieren).
4) We weten dat 3 huisdieren overeenkomt met een cumulatief percentage van 95,17% dus
95,17% van de antwoorden valt onder 0, 1, 2 of 3 huisdieren 3 huisdieren heeft een
percentielrang van 95,17% 3 huisdieren is het 95ste percentiel.
Limieten = de grenzen van een getal, je breidt deze uit naar de decimale getallen. Zo heeft een getal
van 180 twee limieten: 179,5 en 180,5. Alle waarden tussen deze limieten noemen wij 180.
Interpolatie: wat is de percentielrang van x=9?
van een groep van 5-9 is de bovengrens niet 9,0 maar is de bovengrens 9,5 (door de limieten). Bij een
groep van 5-9 horen alle waarden vanaf 4,5 en tot aan 9,5 erbij. Daarom kun je niet altijd zomaar het
percentielrang uit de tabel overnemen, de waarde van 9 zit hier namelijk ergens tussen. We moeten
dus 0,5 naar beneden, dit is 10% van het hele interval (5). Je haalt dus 10% van het percentielrang
van 5-9 af, dit was van 10 t/m 60 (dit is 50 percentielrangen). Het percentielrang wordt dus 55.
(Pag. 55 van het boek)
,Stem-and-leaf plot = een manier om data weer te geven op volgorde. Het stem-and-leaf plot zet een
reeks getallen (data) op volgorde. De getallen worden op tientallen gesorteerd; stel je hebt de
getallen 17, 23, 25, 26, 26, 29, 34, 56, 57 krijg je : 1|7 en 2|35669 en 3|4 en 5|67.
Hoorcollege 2
Hoofdstuk 3 – centrale tendens
Steekproeftrekking is het proces waarbij n waarnemingen worden genomen uit een populatie van
grootte N. Dit is een van de belangrijkste methoden in de gedrags- en sociale wetenschappen: want
als de steekproeftrekking niet goed is gegaan is je onderzoek nutteloos. Dit noemen we het GIGO-
principe: garbage in, garbage out.
De centrale tendens
Het doel van de centrale tendens is om de gegevens die we verzameld hebben (data) te beschrijven.
We willen het centrum van de dataverdeling uitdrukken.
Voorbeeld: we vragen 100 studenten aan de TiU hoeveel uur ze per week besteden aan YouTube in
uren. Hieruit ontstaat een frequentieverdeling, met een centrale waarde. Beschrijving centrale
waardes:
o De MODUS (mode): de score (of categorie) met de hoogste frequentie.
Werkt voor alle schalen van data (denk aan de nominale schaal).
We kijken naar de frequentietabel en kiezen de meest gekozen optie de modus is 10 uur.
De modus heeft een belangrijke functie als we het hebben over verdelingen. Soms heeft een grafiek
twee modussen: dit noemen we een binomale verdeling.
o Het GEMIDDELDE (mean): de som van alle scores gedeeld door het aantal scores.
∑x
Statistische notatie: μ= (populatie gemiddelde)
N
∑x
M= (steekproef gemiddelde)
n
Een steekproef van n=9 scores heeft een gemiddelde van M=20. Een van de scores is veranderd en
het nieuwe gemiddelde wordt M=22. Als de veranderde score eerst X=7 was, wat is deze dan nu?
∑x ∑x
M= 20 = 180 = ∑ x
n 9
∑x
22 = 198 =∑ x
9
18 + 7 = 25 X = 25
Waarom gebruiken we niet altijd het gemiddelde? Stel dat er 10 vrienden in een bar zitten, elk van
hen zegt hoeveel uur ze per week YouTube kijken. Nu komt er nog een vriend binnen, deze vriend is
een binge watcher. Het gemiddelde gaat hierdoor drastisch omhoog, maar dit is niet perse
representatief. Daarom noemen we dit een outlier. Deze problemen kunnen we oplossen door een
andere maat:
o De MEDIAAN: de mediaan is de waarde die de verdeling in tweeën deelt (dit is het 50 ste
percentiel).
1. Sorteer de data: 2, 2, 3, 4, 6, 6, 7, 12. 15, 15, 50
, 2. Zoek de waarde die in het midden ligt: de waarde die net zo veel punten links als rechts
heeft. In dit voorbeeld is dat 6.
Verdelingen zonder een duidelijk middelpunt (even aantal getallen): In dit geval nemen we
de twee middelste waarden en berekenen hier het gemiddelde van.
De mediaan wordt niet sterk beïnvloedt door outliers, daarom is deze heel erg handig.
Hoofdstuk 4 - variabiliteit
Variabiliteit
Het doel van variabiliteit is nog steeds het beschrijven van de data. We willen uitdrukken hoeveel de
scores in de data van elkaar verschillen, ook wel de spreiding (of het gebrek hieraan) van de data
genoemd.
Voorbeeld: we hebben de gegevens van cijfers voor Inleiding Statistiek bij de eerste poging (N = 10):
5, 3, 6, 6, 7, 8, 6, 9, 8, 10. Hoe kunnen we nu de variabiliteit (de spreiding van de data) afdrukken?
o De makkelijkste manier: we nemen de laagste waarde en de hoogste waarde:
Min grade = 3
Max grade = 10
Range = max – min = 10 – 3 = 7
o Meer genuanceerd: we berekenen hoeveel elke score verschilt van het (populatie)
gemiddelde = de afwijking.
5 – 6.8 = -1.8
2
Cijfer (X) Distance to the mean (X - µ) (x−µ)
5 -1.8 3.24
3 -3.8 14.44
6 -0.8 0.64
6 -0.8 0.64
7 0.2 0.04
8 1.2 1.44
6 -0.8 0.64
9 2.2 4.84
8 1.2 1.44
10 2.2 10.24
Dit noemen we de afwijkingsscore (deviation) van het gemiddelde voor elke waarde
Deviation = X - µ. Het gemiddelde is per definitie het evenwichtspunt van de verdeling.
Het x 2 trucje: deze verwijdert de negatieve waarden zodat we niet meer een evenwichtspunt
van 0 hebben: hierbij moet je opletten dat de verschillen ook worden gekwadrateerd. We
hebben nu een meer betekenisvolle maat: het gemiddelde van de gekwadrateerde
afwijkingen noemen we de variantie.
SS = sum of squares = 37,6
∑ ( X−µ ) ² 37,6
var (σ 2 ¿= = 10
= 3,76
N
De standaard afwijking: een van de meest gebruikte statistieken voor variabiliteit, dit is
standaard in de meeste onderzoekspapers:
σ = √ var = √ 3,76 = 1.94