Week 1:
Soorten statistiek:
1. beschrijvende (descriptieve) statistiek
2. inductieve (beslissende, inferentiële) statistiek
- mbv steekproef iets kunnen zeggen over een grotere groep (bijv. worden
ex-gevangenen minder vaak aangenomen, deel van alle ex-gevangenen
onderzoeken)
- representativiteit → aselecte steekproef (iedereen binnen de gehele populatie
heeft evenveel kans om geselecteerd te worden voor het onderzoek)
Elementen (subjects) → personen, bedrijven, landen, gemeenten, scholen.
- De populatie is een element.
Variabelen (data) → kan verschillende waarden aannemen, elementen scoren op
variabelen.
- coderen van data (bijv, onderzoek naar sekse: man = 0, vrouw = 1)
- missing data = als je over een element geen data hebt. (moeten ook gecodeerd
worden, bijv. 999)
- kwalitatieve variabelen (elementen in 1 of meerdere groepen/categorieën geplaatst)
- nominaal → bijv. sekse
- dichotome variabelen → score 0 of 1
- ordinaal → categorieën zijn gerangschikt (bijv. tevredenheidsschaal)
- kwantitatieve variabelen
- interval → temperatuur (bij 0 graden is er wel een temperatuur)
- ratio → score van 0 betekent niets (bijv. aantal daders = 0)
- onafhankelijke en afhankelijke (= de uitkomst waarin je geïnteresseerd bent)
variabelen
Rijen → elementen
Kolommen → variabelen
Grafieken:
- kwantitatief → histogram, stamdiagram, cumulatieve frequentiepolygoon, tijdgrafiek
- Histogram:
- normaal, bimodaal, unimodaal, rechtsscheef (positieve verdeling),
linksscheef (negatieve verdeling)
, - groeperen in klasse-intervallen → zorgt wel voor informatieverlies
(uitschieters zijn bijv. niet meer zichtbaar)
- kwalitatief → taartdiagram, staafdiagram (geeft frequentie)
Centrum:
- centrale tendentie maten:
- modus (hoogste frequentie → zinvol bij nominale variabelen)
- mediaan (middelde punt van een rij → zinvol bij ordinale en kwantitatieve
variabelen) (niet gevoelig voor uitschieters)
- gemiddelde (mean) (zinvol bij kwantitatieve variabelen, uitschieters kunnen
groot effect hebben)
Percentiel berekenen:
50ste percentiel = mediaan
Xste percentiel = Px = LL + (np-cf / fi) (w)
LL = lower limit (ondergrens)
n = totaal aantal scores
p = percentage, portie
cf = cumulatieve frequentie van de scores onder het interval waar het percentiel
invalt
fi = aantal mensen in de klasse
w = de breedte van het interval
Interkwartielafstand = derde kwartiel - eerste kwartiel
1,5 x IKA = ….
Als een score … boven het 3de kwartiel of onder het 1ste kwartiel ligt, is het een uitschieter.
reasonable upper boundary reasonable lower boundary
Spreidingsmaten bij gemiddelde:
- variantie
- standaarddeviatie
Welke maat gebruik je?
- scheve verdeling → 5 getallen samenvatting
- min - 1ste kwartiel - mediaan - 3de kwartiel - max
- redelijk normaal verdeeld, zonder uitschieters → s, s^2 en x^-
- standaard deviatie, variantie, gemiddelde
populatie → parameter (bijv. gemiddelde)
steekproef → grootheid (bijv standaarddeviatie)
de steekproefvariantie s^2 is een schatter van de ‘echte’ populatievariantie σ^2
daarom doe je bij s^2 n-1, omdat er anders sprake kan zijn van teveel optimisme t.o.v. de
echte populatievariantie.
steekproef kan een zuivere schatter zijn van het populatiegemiddelde als er voldoende
steekproeven worden gedaan.
, Week 2: Normale verdeling
- kenmerken dichtheidskromme:
- oppervlakte onder kromme = 1
- mediaan deelt dichtheidskromme in twee gelijke delen van elk 0.5
- gemiddelde, mediaan en modus vallen samen bij normale verdeling.
- oppervlakte onder een deel van kromme is relatieve frequentie van
waarneming binnen dat interval.
- Normale verdeling = Gauss-verdeling:
- klokvormig → ‘bell curve’
- μ = centrum van de verdeling (gemiddelde)
- σ = spreiding (standaarddeviatie)
Hoe groter de σ ,des te groter de spreiding is.
- Vuistregels:
- standaardscore / z-score → met hoeveel standaardafwijkingen een score
afwijkt van het gemiddelde.
- alleen met kwantitatieve variabelen
- gemiddelde = 0, standaarddeviatie = 1
- formule: