HOOFDSTUK 1
Data= de observaties verzameld over de kenmerken.
Database= gearchiveerde collecties van data.
Statistiek gebruikt voor ontwerpen (hoe data verzamelen), beschrijven (samenvatten van data) en gevolgtrekking
(voorspellingen doenstatistische gevolgtrekking). Statistische gevolgtrekking kan ook over conceptuele
populaties gaan.
Populatie= het totale pakket van onderwerpen in een onderzoek.
Steekproef= een deel van populatie waarvan data wordt verzameld.
Beschrijvende statistiek= samenvatten van info in een datacollectie. Mbv grafiek, tabellen, gemiddelden en
percentages simpeler en begrijpelijker maken.
Gevolgtrekkende (inferential) statistiek= voorspellingen doen over populatie mbv data van steekproef. Ze gaan uit
van probability sampling (de steekproef is zeker).
Parameter= numerieke samenvatting van populatie.
Data file= spreadsheat met data, rijen voor onderwerpen (subjects, bv een persoon) en kolommen voor info over
bepaald kenmerk.
HOOFDSTUK 2
Variabele= kenmerk/aspect dat kan variëren in waarde
Meetschaal= wat de waardes kunnen worden, bv bij gender is dat man of vrouw
Kwantitatief= getallen
Kwalitatief= categorisch (woorden)
Verschillende schalen: (Kies steeds het hoogst mogelijke inhoudelijk zinvolle meetniveau)
Interval
Bij kwantitatieve variabelen, er zit telkens een interval tussen de getallen. Je kunt ermee rekenen.
Ratio
Bij kwantitatieve variabelen, er bestaat een absoluut nulpunt. Je kunt ermee rekenen (ook vermenigvuldigen).
Nominaal
Bij kwalitatieve variabelen, er worden labels gebuikt maar deze getalsinformatie niet, er is geen volgorde.
Ordinaal
Bij kwalitatieve variabelen, er worden labels gebruikt en deze hebben een ordening, bv (categorieën 1, 2 en 3
staan voor ‘zeer zinvol’, ‘zinvol’ en ‘totaal zinloos’. Iemand uit categorie 2 vindt iets dus minder zinvol dan
iemand uit categorie 1, maar het zegt niks over hoeveel minder zinvol).
Discrete waarden= mogelijke waarden vormen een set van aparte nummers (bv het aantal auto’s dat vandaag langs
je huis is gereden). Categorische variabelen zijn altijd discreet.
Continue waarden= kan continuüm van mogelijke waarden zijn, alle waarden zijn mogelijk (bv het gewicht van een
koe).
Simple random sample= elke mogelijke steekproef heeft dezelfde kans om geselecteerd te worden. Haalt kans op
vooroordelen weg.
Sampling frame= lijst van alle subjects (onderwerpen) in populatie. Simple random sample kan bijvoorbeeld hierna
door random nummers te laten selecteren door de computer.
Sample survey= een steekproef interviewen. Vaak ook met random digitdialing.
Behandelingen (treatments)= omstandigheden in een experiment. Plannen hiervoor mbv experimentele
ontwerpen.
Observationele onderzoeken= het observeren zonder experimentele controle te hebben. Risico hierbij is dat andere
factoren ook een rol kunnen spelen.
1
, Sampling error= error dat voorkomt wanneer we een statistic gebaseerd op een steekproef gebruiken voor het
voorspellen van de waarde van de populatie parameter. Voor steekproefgroottes van 1000 is er vaak foutmarge
van 3%.
Drie vormen van vooroordelen:
Sampling bias
Hierbij is er sprake van nonprobability sampling (niet-waarschijnlijke steekproeven) en is het dus niet
mogelijk om de waarschijnlijkheid van de mogelijke steekproeven te bepalen. Een voorbeeld hiervan is de
volunteer sampling. Hierbij wordt er vrijwillig deelgenomen aan de steekproef, waardoor er dus geen
zekerheid meer is dat de steekproef representatief is voor de populatie. De grootte van de volunteer
sample maakt hierbij niet uit. Het heet ook wel de selection bias. Het is soms niet te voorkomen,
bijvoorbeeld bij medische studies.
Ook met random sampling kan sampling bias zich voordoen, bijvoorbeeld als de sampling frame
undercoverage heeft. Hierbij worden sommige groepen uit de populatie niet gerepresenteerd in de lijst
(bijvoorbeeld bij een telefooninterview).
Respons bias
Gebeurt vaak bij slecht verwoordde of verwarrende vragen. Hierbij heeft dus de manier waarop een vraag
gesteld wordt of een vraag in elkaar zit invloed op de resultaten. Ook kenmerken van de interviewer zoals
bijvoorbeeld het karakter kan hier invloed op hebben (de geïnterviewden liegen bijvoorbeeld als ze
denken niet sociaal geaccepteerd te worden).
Nonresponse bias (missing data)
Gebeurt wanneer bepaalde groepen niet bereikt kunnen worden, weigeren te participeren of niet in staat
zijn om bepaalde vragen te beantwoorden. Heeft ook invloed op hoe betrouwbaar de resultaten zijn. Zorgt
ervoor dat er data mist. Het komt vaak voor bij longitudinale studies (sommige mensen zijn later in de tijd
niet meer bereikbaar bijvoorbeeld).
Systematic random sample: eerst een random subject kiezen uit de eerste ‘k’ aantal namen van de sampling frame,
daarna steeds de ‘k’ subject verder kiezen. K= skip number en dus het aantal namen/subjects in de lijst die je steeds
overslaat. K= N/n, waarbij N= de populatiegrootte en n= de steekproefgrootte. Sytematic random sample is geen
simple random sample, omdat niet alle subjects evenveel kans hebben om gekozen te worden.
Stratified sampling: De populatie wordt opgedeeld in aparte groepen, deze heten strata. Daarna wordt er een
simple random sample gekozen van elke aparte stratum. Het is proportioneel als de strata proporties dezelfde zijn
als in de gehele populatie. Het is disproportioneel als dit niet het geval is.
Simple, systematic en stratified sampling is vaak best ingewikkeld om uit te voeren, omdat je er een volledige
sampling frame voor nodig hebt en deze is niet altijd gemakkelijk te verkrijgen.
Als dit niet mogelijk is, is het gemakkelijker om cluster sampling te gebruiken: eerst de totale populatie opdelen in
een groot aantal clusters, hierna een simple random sampling nemen per cluster. Als laatste is dus je sample
nemen van de clusters. (Je gebruikt dus niet al je clusters in tegenstelling tot stratified sampling waarbij je wel al je
strata gebruikt, hierbij wil je namelijk de strata vergelijken en bij cluster sampling is dit niet het geval).
Bij multistage sampling gebruik je een combinatie van sampling methodes
HOOFDSTUK 3
Kwantitatieve variabelen kunnen beschrijven worden door de center van de data (een observatie) en de variabiliteit
van de data (de spreiding rondom de center). Het gemiddelde (mean) beschrijft de center en de standaarddeviatie
beschrijft de variabiliteit.
Bij categorische variabelen, wordt er eerst een lijst gemaakt van alle categorieën en daarbij het aantal observaties
gedaan per categorie. Om ze gemakkelijker met elkaar te vergelijken wordt er gebruik gemaakt van relative
frequences en dus percentages of proporties van het voorkomen van de categorieën. De tabel dat zo ontstaat heet
een frequency distribution (frequentieverdeling), als deze de percentages of proporties laat zien ipv nummer heet
het een relative frequency distribution.
2