GZW1026:
Introductie Statistische Methoden voor
Data-analyse
Een samenvatting van de VideoClips (alle tentamenstof)
Schooljaar 2020-2021
,Inhoudsopgave
Vertaling van de Engelse begrippen 3
Samenvatting VideoClips: week 1 4
Samenvatting VideoClips: week 2 13
Samenvatting VideoClips: week 3 18
Samenvatting VideoClips: week 4 25
2
,Vertaling van de Engelse begrippen
Bar chart Staafdiagram
Central Limit Theorem Centrale Limietstelling
Confidence interval Betrouwbaarheidsinterval
Degrees of freedom Vrijheidsgraden
Equality Gelijkheid
Mean Gemiddelde
Median Mediaan
Mode Modus
Normal Distribution Normale Verdeling
Odds Kansen
Pie chart Cirkeldiagram
Range Bereik
Relative Risk Relatief risico
Sample size Steekproefgrootte
Sampling error Steekproeffout
Scatter plot Spreidingsdiagram
Simple linear regression Eenvoudige lineaire regressie
Skewness Scheefheid
Slope Helling
Standard deviation Standaardafwijking
Variance Variantie
Extrapolation Extrapolatie
3
,Samenvatting video clips: week 1
1: Types of variables
Variabele = opgenomen informatie/karakteristiek, verschilt van persoon tot persoon.
1. Categorisch = kwalitatief, plaats personen in groepen of categorieën.
- Nominaal geen volgorde op basis van grootte (ziekte, geslacht, geboorteland,
haarkleur).
- Ordinaal wel een volgorde of rank (small, medium of large koffie, Likert schaal,
plaats in een race).
2. Numeriek = kwantitatief, opgenomen numerieke hoeveelheden.
- Discreet telbare waarden waarvan een lijst kan worden gemaakt, beperkt aantal
nummers, tussenliggende waarden hebben geen betekenis (tellingen, bloedgroepen).
- Continue gemeten op een continue schaal (gewicht, leeftijd, temperatuur, tijd van
een race).
Ratio natuurlijk 0-punt, de 0 heeft betekenis (leeftijd, gewicht, inkomen).
Interval 0-punt heeft geen betekenis (temperatuur).
Opmerkingen:
- Soms hebben categorische variabelen wel nummers, maar dat maakt het nog geen
numerieke variabelen (bijvoorbeeld 0 = ja, 1 = nee of 0 = man, 1 = vrouw).
- ID’s (studentnummer of werknemer nummer) identificeren een persoon, maar zijn
geen variabelen.
- Numerieke variabelen kunnen altijd worden geconverteerd in categorische variabelen.
2: Histogram, bar chart
Frequentie tabel, distributie:
Bijvoorbeeld status van het roken: nooit, verleden en nu.
Frequenties kunnen worden afgelezen en er kan een totaal aan personen worden berekend.
Aan de hand van de frequentie kunnen proporties (kommagetal) en percentages worden
berekend, dit laat de distributie (= verdeling, spreiding) zien.
Bar chart (staafdiagram):
Grafiek met op horizontale as de status van roken: nooit, verleden en nu.
4
, Horizontale as bevat de proportie of het percentage.
Laat zien hoe de personen zijn verdeeld over de categorieën wat betreft rokersstatus (nooit,
verleden en nu).
Pie chart (cirkeldiagram):
Elke categorie (nooit, verleden en nu) heeft een gedeelte van de cirkel.
De grootte van deze ‘slices’ wordt bepaald aan de hand van de proportie of het percentage.
Histogram:
Het histogram gebruikt kwantitatieve data (numeriek).
Er zijn geen gaten tussen de verschillende bars.
Y-as correspondeert met de frequentie.
Er wordt een tabel met categorieën gemaakt (bijvoorbeeld 50-60 of 80-90), dan wordt er
geteld hoeveel personen binnen de verschillende categorieën vallen.
Aan de hand van de tabel kan dan het histogram (grafiek) worden opgesteld.
3: Measures of central tendency (mean, mode and median)
Mean (gemiddelde): alle nummers bij elkaar optellen en delen door het aantal nummers wat
is opgeteld.
Mediaan: nummers op een rij zetten van klein naar groot. Het middelste nummer is de
mediaan. Bij een oneven aantal nummers, ga je tussen de twee gemiddelde nummers zitten.
Mode (modus): het getal dat het vaakst voorkomt.
In de statistiek:
- Mean: de som van alle uitkomsten (x), gedeeld door het totale aantal (n).
- Mediaan: middelste getal in een oplopende getallenreeks, 50% below, 50% above,
symmetrie.
- Mode: welk getal komt het meest voor?
4: Measures of variability (variance, standard deviation, interquartile
range)
Range (bereik): grootste getal – kleinste getal (maximum – minimum).
Variance: 2 (standaardafwijking in het kwadraat). Van alle nummers het gemiddelde
aftrekken en dat kwadrateren. Vervolgens bij elkaar optellen en delen door het totale aantal
nummers.
Standaardafwijking (standaarddeviatie, SD): variance of 2 of
Maat voor de spreiding van een variabele of van een verdeling of populatie.
Kwartielen zijn de waarden die een lijst met getallen in kwarten verdelen.
Onderste kwartiel (eerste kwartiel): de mediaan van een onderste helft van een set
gegevens = Q1.
5