Week 1 (herhaling Statistiek I)
Hoorcollege 1
Meetniveau’s)
Variabele = een eigenschap die kan variëren van persoon tot persoon, vb. lengte of IQ.
Variabele hebben verschillende soorten meetniveaus: nominaal, ordinaal, interval en ratio.
Nominaal: categorie (geboorteland, geslacht).
Ordinaal: geordende categorieën, er zit een volgorde in (inkomen, kledingmaten).
Interval: continue variabele, relatief nulpunt (extraversie, temperatuur in graden Celsius).
Ratio: continue variabele, absoluut nulpunt (lengte, reactietijd).
“Fuzzy’’ variabelen: het is niet duidelijk welk meetniveau de variabele heeft.
De meeste statistische methodes zijn gemaakt voor interval en ratio, deze noemen we
parametrische methoden.
Beschrijvende statistiek)
Voordat je gaat bekijken hoe je x- en y-variabele samenhangen is het belangrijk om je data
samen te vatten middels tabellen en figuren. Dus eerst exploreren, dan analyseren!
Categorische data: frequenties/proporties/percentages en staafdiagrammen.
Kwantitatieve data: frequenties/proporties/percentages voor een range van waardes,
histogrammen en een steelbladdiagram.
Hoe ziet de verdeling van mijn scores eruit?
Normaalverdeling (klokvormig), U-vormige verdeling (dalvormig), rechtsscheef- of
linksscheve verdeling.
Maten datacentrum
- mediaan (middelste), modus (vaakst) en gemiddelde (som scores/n)
Bij een normaalverdeling zijn de mediaan, modus en het gemiddelde gelijk. Een bimodale
verdeling heeft twee pieken waardoor er geen optimaal gemiddelde kan worden gegeven.
Maten datavariabiliteit
- range: hoogste - laagste score
- deviatie: individuele score - gemiddelde score
- kwadratensommen: de som van (individuele score - gemiddelde score) ^ 2
- variantie: kwadraatsom delen door n-1
- standaarddeviatie: de wortel van de variantie
De empirische regel: 68% (binnen één standaarddeviatie), 95% (binnen twee
standaarddeviaties) en 99% (binnen drie standaarddeviaties).
Kwartielen: hakken data in vier gelijke delen (25%).
Interkwartielafstand: afstand tussen het 1ste en 3de kwartiel.
Outliers: scores die 1.5 x IQR boven/onder Q1 en Q3.
,Kansverdelingen)
Kans: de kans op het verkrijgen van een specifieke uitkomst.
Random variabele: een variabele waarvan je een kans berekent.
Discrete (nominaal, ordinaal) vs. continue kansverdeling (interval, ratio)
Wanneer data normaal verdeeld is, kan er gebruik worden gemaakt van z-scores.
z-score = individuele score - gemiddelde / standaarddeviatie
𝜇 - populatiegemiddelde
ȳ - steekproefgemiddelde
Steekproevenverdeling: de verdeling van het gemiddelde van meerdere steekproeven.
De standaarddeviatie van de steekproevenverdeling is de standaardfout.
De steekproevenverdeling heeft minder spreiding en weinig extreme waardes.
Doel statistiek: op basis van een steekproef een uitspraak doen over de populatie.
Hoe meer mensen in de steekproef, des dichterbij je komt bij de werkelijkheid.
De verdeling van de observaties komt dan dichterbij de normaalverdeling.
Chapter 1
De observaties die worden verzameld tijdens een experiment van een aspect waarin men
geïnteresseerd is noemen we data. Bijvoorbeeld wanneer geslacht je aspect van interesse
is dan is de data die je verzamelt of iemand man of vrouw is. Bestaande gearchiveerde
collecties van data worden databases genoemd.
Statistiek bestaat uit een reeks van methoden die gebruikt kunnen worden voor het
verkrijgen en analyseren van gegevens.
Statistiek biedt methoden voor:
- Design (ontwerp); hoe wordt er data verzamelt en hoe zorg je ervoor dat wat je
verzamelt informatief is voor jouw onderzoek.
- Description (omschrijving); het samenvatten van de data die verkregen is in de
studie om ervoor te zorgen dat de data begrepen wordt. Dit doe je door het gebruik
van grafieken, tabellen en numerieke samenvattingen - dit worden beschrijvende
statistieken genoemd.
- Inference (gevolgtrekking); het maken van voorspellingen aan de hand van de
verkregen data - dit worden inferentiele statistieken genoemd.
,Data wordt verzameld aan de hand van een steekproef; dit is een subgroep van de
populatie. Bijvoorbeeld een werkgroep psychologie-studenten. De populatie is de totale set
personen binnen een groep die van belang is binnen de studie. Bijvoorbeeld alle studenten
die psychologie studeren.
Een beschrijvende statistiek verkleind de data naar meer begrijpelijke vormen. De
cijfermatige samenvatting die hoort bij een populatie wordt een parameter genoemd.
Bijvoorbeeld hoeveel procent van de Amerikanen gelooft in de hemel, de parameter hierbij
zou een percentage zijn bijvoorbeeld 60%, alleen is deze niet bekend van de populatie (dit
onderzoek je juist door een steekproef te gebruiken). De steekproefgrootheid is een
cijfermatige samenvatting van de data van een steekproef en deze kom je wel te weten aan
de hand van een onderzoek.
Chapter 2
Een variabele is een karakteristiek die verschillende levels moet hebben. Bijvoorbeeld de
hoeveelheid inkomen die iemand heeft, deze verschilt tussen personen.
Je kunt variabelen verdelen over schalen. Zo is een kwantitatieve variabele een variabele
dat numerieke waarden heeft, vb. leeftijd. Een categorische variabele (nominaal) is
opgedeeld onder categorieën, vb. single-married-divorced. Deze variabelen worden vaak
kwalitatief genoemd.
Een discrete variabele kan slechts een paar vaste waarden aannemen. Hieronder vallen de
nominale schaal en de ordinale schaal. De nominale schaal is een kwalitatieve meetschaal
met losstaande categorieën, bijvoorbeeld geslacht (man/vrouw). Metingen op ordinaal
niveau kennen een natuurlijke ordening. De volgorde is duidelijk, maar de verschillen zijn
niet te interpreteren. Een voorbeeld is het opleidingsniveau (VMBO-HAVO-VWO). De
verschillen tussen deze opleidingsniveaus zijn niet allemaal even groot.
Een continue variabele is een variabele die gemeten kan worden in getallen, waarbij de
tussenliggende waarden betekenis hebben. Hieronder vallen de interval schaal en de ratio
schaal. Bij een interval schaal zijn de verschillen tussen scores in tegenstelling tot een
ordinale schaal wél gelijk. Het verschil tussen 10 en 11 op een test is net zo groot als het
verschil tussen 50 en 51. Een intervalschaal heeft echter geen absoluut nulpunt. Daarom
kun je niet zeggen hoeveel hoger een waarde is. Een goed voorbeeld hiervan is de
Fahrenheit-schaal: 30 graden is niet twee keer zo warm als 15 graden.
Een ratioschaal heeft dezelfde eigenschappen als een intervalschaal, maar een ratioschaal
heeft wel een absoluut nulpunt. 50 centimeter is immers twee keer zo lang als 25 centimeter.
Randomisatie: iedereen heeft een gelijke kans om in de steekproef terecht te komen. Dit
kan worden gedaan door simple random sampling → je selecteert proefpersonen door
middel van het toekennen van nummers of ballen.
Op 3 manieren kun je data verzamelen:
- De proefpersonen een poll, interview of andere vorm van zelftest laten afnemen.
, - Het doen van een experiment met een controle en experimentele groep. De condities in
een experiment worden behandelingen (treatments) genoemd.
- Het doen van een observatiestudie: moeilijk om de proefpersonen te vergelijken omdat er
mogelijk 3de verklaringen opspelen ook al zijn de proefpersonen random verdeeld.
Een steekproef-fout is hoeveel de steekproefgrootheid verschilt van de parameter die deze
moet voorspellen. Deze fout is vaak onbekend omdat de parameter ook onbekend is. Vb. in
een steekproef rookt 15% van de subgroep Amerikanen. Het werkelijke aantal Amerikanen
(de populatie) daarvan blijkt 21% te roken. De steekproef-fout is dan 21%-15%= 6%. De
marge van de fout is vaak 3%.
Onwaarschijnlijke steekproeftechnieken → de kans dat iemand geselecteerd wordt is niet
bekend. Sampling bias: personen uit de populatie hebben elk een andere kans om in de
steekproef te komen.
3 vormen van een sampling bias;
- Vrijwillig steekproef trekken (ook wel selection bias genoemd) → proefpersonen melden
zich vrijwillig aan om in de steekproef terecht te komen. Dit maakt de steekproef niet
representatief want niet alle subgroepen waaruit de maatschappij bestaat worden hierin
opgenomen, het mist undercoverage.
- Response bias → doordat een vraag slecht geformuleerd of verwarrend is reageren
proefpersonen op een bepaalde manier. Mensen liegen bijvoorbeeld op het moment dat ze
denken dat hun mening niet gedeeld gaat worden of reageren naar de verwachting van de
onderzoeker.
- Non-response bias (er mist data) → bepaalde proefpersonen weigeren of kunnen niet
meedoen aan het onderzoek.
Andere vormen van waarschijnlijke steekproeftechnieken:
➢ Systematic sampling → een steekproef bepalen door middel van een
computerprogramma.
➢ Stratified sample → er wordt gezorgd dat bepaalde bevolkingsgroepen in de
steekproef voorkomen in de mate waarin deze ook in de populatie voorkomen,
bijvoorbeeld 15% chinezen, 10 % aziaten, 20% afro-amerikanen, enzovoort.
Proportioneel= gelijk aan de verhoudingen in de populatie, disproportioneel=
ongelijk aan de verhoudingen in de populatie.
➢ Cluster sampling → personen zijn van tevoren al ingedeeld in willekeurige groepen.
Bijvoorbeeld het gebruiken van klassen in een onderzoek naar de representativiteit
van een middelbare school.
➢ Multistage sampling → er worden twee random steekproeven geselecteerd; een
random steekproef van een cluster en een random steekproef van proefpersonen
binnen een cluster.