Hoorcollege 1: hoofdstuk 1, 2 & 4
Statistiek: over het algemeen is statistiek een gereedschapskist en technieken die gebruikt
worden om informatie en data te beschrijven, organiseren en interpreteren.
Sample: is een kleine groep, uit de populatie (M, s, n)
Populatie: de gehele groep (µ, Ó, N)
Beschrijvende statistieken:
Wordt gebruikt om karakteristieken van een data verzameling te organiseren, samen te
vatten en te beschrijven. Dit wordt een data set genoemd. Beschrijvende statistieken zeggen
wat over de ‘’small world’’ , het gaat dus over de sample. Je doet eerst onderzoek in een
kleine groep mensen, want het is onmogelijk om de gehele populatie te onderzoeken.
Inferentiele statistieken:
Wordt gebruikt om uitspraken te doen over de ‘’big world’’, dus over de populatie. Als de
smaple representatief is voor de gehele populatie dan kunnen we conclusies trekken of een
gok doen over de waardes van de gehele populatie.
Representativiteit in een sample:
Een sample is vaak niet perfect representatief (bias). Representativiteit is een vereiste om
conclusies te trekken uit een sample. Om de sampling error te minimaliseren moeten we een
random sample maken. Als er dus ‘’small world statistics’’ worden gebruikt om iets te zeggen
over de ‘’big world’’ dan is er altijd wat onzekerheid.
Een random selectie is het beste om een sampling error te vermijden. Elk individu
moet even veel kan hebben om gekozen te worden.
Convenience sample: is een niet ranom sample
Meet levels NOIR: (het vermeerderen van informatie over de variabele)
Categoriaal:
Nominaal
Ordinal
,Continuous:
Interval
Ratio
Het is belangrijk om te weten wat het meet niveau is van een variabele, zo weet je met
welke methode er kan worden gerekend.
Opzet van beeldgrafieken en tabellen:
Guidlines voor het maken van tabellen:
Titles should be clear an informative:
- Always have a clear title
- Always give tables a number (e.g. Table 1)
Give appropriate and meaningful labels to rows and columns (e.g. ‘Male’ and
‘Female’ not ‘M’ & ‘F’)
Take care with layout and format (be wary of defaults in Word, Excel)
Refer to the source of the data
Explicitly state the units of measurement (e.g. %, £, average)
Tables should ‘stand alone’
Avoid: - Too many decimal places - Clutter!
Frequentieverdeling:
De meest gewone manier om data te illustreren, is het gebruiken van een frequentie tabel.
Het geeft weer hoeveel bepaalde scores voorkomen. Bijvoorbeeld in de leeftijd van 18-25
personen. Dit kan je bijvoorbeel weergeven in een histogram.
Bar chart: geeft procenten weer, dit wordt gebruikt voor categoriale variabelen. Ofwel
nominaal en ordinaal.
Histogram: geeft aantalen weer, dit wordt gebruikt voor continue variabelen. Ofwel interval
en ratio.
Central tendency:
- Mean (alle waardes opgeteld / alle waardes)
- Median (middelste getal)
- Mode (vaakst voorkomende waarde)
, Bij een interval en ratio level maken we gebruik van het gemiddelde en de mediaan.
Maar welke kies je?
- De mean/ gemiddelde wordt beinvloed door outliers, kijk dus uit bij small datasets
- De mediaan is het middelste nummer en wordt dus niet beinvloed door uitschieters
Bij een nominale level gebruiken we de mode
Bij een ordinale level gebruiken we de mean, mode en mediaan
Central tendency and shapes of distributions:
Negatively skewed: median > gemiddelde
Positively skewed: median < gemiddelde
Normal/ symmetrical: median = gemiddelde
Bi-modal: 2 normaal verdeelde toppen