Statistiek 1A
College 1 – Steekproeven en metingen
Soorten statistieken
Descriptieve statistieken: gemiddelde populatie of gemiddelde steekproef (beschrijvend).
Inferentiële statistieken: voorspelling voor de populatie op basis van de steekproef.
Parameter: numerieke samenvatting van de populatie.
Experimenteel: onderzoek doen op basis van een experiment.
Observationeel: onderzoek doen op basis van observaties.
Soorten variabelen
Kwantitatieve variabelen: de scores zijn getallen (inkomens, tentamencijfers, aantal tweets, gewicht).
Kwantitatieve variabelen zijn discreet of continu.
Kwalitatieve variabelen: de scores zijn labels en getalsinformatie heeft geen betekenis (favoriete
politieke partij, haarkleur, wijn- of bierdrinker). Kwalitatieve variabelen zijn altijd discreet.
Continu: alle waarden op een interval en tussen elke score ligt tenminste nog één andere score
(inkomen en gewicht).
Discreet: beperkt aantal waarden en kan niet onderverdeeld worden (afgeronde tentamencijfers en
aantal tweets).
Soorten meetniveaus
Nominaal: gevallen hebben verschillende scores (hond, kat) (beroep, geslacht).
Ordinaal: gevallen kunnen gerangschikt worden, er zit een bepaalde volgorde in (van nooit naar vaak)
(politieke oriëntatie, schooldiploma).
Interval: het verschil tussen getallen (2x meer dan) (IQ, temperatuur, geboortejaar).
Ratio: meer of minder dan (lichaamslengte, temperatuur, studiepunten). Ratio meetniveau heeft een
absoluut nulpunt, wat een afwezigheid van x betekent.
Bias (vertekening)
Sampling bias: niet iedereen heeft een gelijke kans om in de steekproef te komen (volunteer
sampling (mensen bepalen zelf of ze in de steekproef zitten), undercoverage, overcoverage). Gaat
om fouten die betrekking hebben op de manier waarop de steekproef is getrokken, er zullen dus
mensen ontbreken of overgepresenteerd zijn (telefonische interviews afnemen tussen 09:00 en
17:00).
Response bias: respondent geeft fout antwoord (liegen, foutieve vraagstelling). Respondent is wel
bereikt voor het onderzoek en de steekproef is ook goed getrokken, maar de respondent
beantwoordt de vraag fout.
Non-response bias: respondent wordt niet bereikt, wil niet meewerken of beantwoordt niet alle
vragen. De steekproef is dus wel goed getrokken, maar gaat om vragen die niet of fout beantwoord
, worden. Kan ook zijn dat de respondent niet bereikt is of niet mee wil doen, of hij slaat sommige
vragen bewust over.
Sampling methoden (hoe trek je de steekproef)
Simple random sample: iedereen heeft gelijke kans op deelname (enquête onder studenten op basis
van studentnummer).
Cluster sampling: deel de populatie op in verschillende clusters en trek vervolgens een simple
random sample.
Stratified sampling: populatie opdelen in groepen soortgelijke individuen (strata) en trek een simple
random sample binnen de groep (bij etnische minderheden). Twee vormen van stratified sampling:
1. Proportional stratified sampling: populatie opdelen in verschillende strata en simple random
sample trekken. De grootte van de simple random sample proportioneel ten aanzien van de
grootte van de populatie (20% internationale studenten, 10 internationalen en 40
Nederlanders trekken);
2. Disproportional stratified sampling: populatie opdelen in verschullende strata en simple
random sample trekken. De grootte van de simple random sample wordt zo bepaald dat er
van beide groepen goede voorspellingen kunnen worden gemaakt (100 internationalen en
100 Nederlanders).
College 2 – Descriptieve statistieken
Verdeling van variabelen
Univariate verdeling: verdeling van één variabele.
Bivariate verdeling: verdeling van twee variabelen.
Multivariate verdeling: verdeling van meer dan twee variabelen.
Relatieve frequentieverdeling: tabel die de percentages toont.
Centrum van de data
Gemiddelde: de som van de observaties gedeeld door het totaal aantal observaties. Wordt sterk
beïnvloed door uitbijters en niet zinvol bij nominale en ordinale data. Wel zinvol bij discrete,
kwantitatieve data (formule: alle observaties / totaal).
Mediaan: de observatie die precies in het midden van een geordende steekproef valt. 50% van de
data valt boven de mediaan en 50% van de data valt onder de mediaan. Wordt niet sterk beïnvloed
door uitbijters en is niet zinvol bij nominale data. Wel zinvol bij ordinale, discrete en kwantitatieve
data (formule: eerst ordenen, dan totaal +1/2).
Modus: de meest voorkomende observatie. Wordt niet sterk beïnvloed door uitbijters en is zinvol bij
nominale, ordinale, discrete en kwantitatieve data.
(Symmetrische) verdelingen
Symmetrische (klokvormige) verdeling: het gemiddelde, de mediaan en de modus komen overeen.
Scheve (links of rechts) verdeling: het gemiddelde, de mediaan en de modus komen niet overeen.
College 3 – Descriptieve statistieken
Variatie in data
Range: het verschil tussen de grootste en de kleinste observatie. Geeft noodzakelijke informatie bij
het interpreteren van het centrum van de data. De spreiding bepaalt hoeveel vertrouwen je kunt
hebben in de gemiddelde / mediaan.
Deviatie: het verschil tussen een observatie en het gemiddelde. Geeft noodzakelijke informatie bij
het interpreteren van het centrum van de data. De spreiding bepaalt hoeveel vertrouwen je kunt
hebben in de gemiddelde / mediaan (formule standaarddeviatie: ∑(observaties-gemiddelde)² / N-1 =
wortel uitkomst) (formule bij proporties: wortel proportie X * proportie Y).