Kwantitatieve data-analyse
Wetenschappelijk onderzoek start vanuit een hypothese en/of onderzoeksvraag
> Elke hypothese/onderzoeksvraag impliceert een model (een vereenvoudigde, samenvattende
abstractie) van de realiteit de hypothese en onderzoeksvragen die je opstelt zijn
vereenvoudigingen van de realiteit
° We starten van een conceptueel model waarbij je data aan elkaar linkt in woorden.
° We moeten dit vertalen naar een statistisch model (geeft een wiskunde formalisering voor
het conceptueel model in de vorm van een vergelijking, bestaande uit variabelen en
parameters)
Twee stappen bij kwantitatieve data-analyse
1. STAP 1: analyse en modellering van de streekproefdata
- er wordt een steekproef genomen van de volledige populatie
2. STAP 2: statistische inferentie
- is de veralgemening van wat je in je steekproef hebt gevonden naar de populatie
in het algemeen.
- parameters in de populatie en statistieken in de steekproef
Herhaling basisconcepten
Onderzoekseenheden
= welke cases onderzoeken we?
> Populatie: de groep waarover je iets wil weten- alle onderzoekseenheden met een
bepaald gemeenschappelijk kenmerk
de waarde voor een bepaald kenmerk in de populatie heet een parameter (in
Griekse letters)
> Steekproef: elke deelverzameling van de populatie
de waarde voor een bepaald kenmerk in de steekproef heet een statistiek (in Latijnse
letters)
Variabele
= representatie van een kenmerk van een onderzoekseenheid
Per onderzoekseenheid krijg je voor elke variabele een waarde. Elke variabele heeft
een bepaald bereik.
Je kan variabelen opsplitsen naargelang verschillende meetniveaus:
- Categorisch: categorieën vb. kleur, SES, opleidingsniveau
- Nominaal: geen natuurlijke orde vb. kleur (rood is niet beter dan blauw)
- Ordinaal: hebben wel een natuurlijke orde vb. SES
- Numeriek: cijfers en getallen
- Discreet: enkel gehele getallen
- Continu: variabelen die alle waarden op het continuüm kunnen aannemen
- Ratio: hebben een absoluut nulpunt (dus 0 is de complete afwezigheid van iets)
- Interval: geen absoluut nulpunt
Frequenties
Absolute frequentie: hoe vaak een bepaalde waarde in absolute aantallen voorkomt
Relatieve frequentie: de aantallen in vergelijking met het totale aantal
rel.freq.= absol.freq./ totale n
Je kan frequenties in een histogram visueel weergeven.
Cumulatieve frequentie: het aantal waarnemingen dat je tot dan toe hebt gehad
, Centrummaten: zeggen iets over het centrum van een verdeling
> Modus: waarneming die het meeste voorkomt in een reeks, waarde met de hoogste
frequentie
> Mediaan: middelste getalen in de waarnemingen als je de getallen op volgorde
zet, 50% boven en 50% onder de mediaan
(bij even aantal dan neem je de twee middelste getallen en daar neem je het
gemiddelde van)
> Deciel 10% = de waarde waaronder 10% van uw waarnemingen zich bevindt
> Gemiddelde: soms van de waarnemingen delen door het aantal waarnemingen
Spreidingsmaten: elke observatie wijkt af van het gemiddelde van die observatie (=
deviatie)
> Variantie: gemiddelde van sum𝑆𝑆of squares
°Populatievariantie 𝜎2 = =
𝑛
∑𝑛 (𝑥𝑖−µ)² 1
𝑖=1 ∑𝑛
𝑛
𝑆𝑆 = 𝑖=1(𝑥𝑖 − µ)²
𝑛
°Variantie in steekproef s2 = =
𝑛−1
∑𝑛 (𝑥𝑖−𝑥̅)² 1
𝑖=1 = ∑𝑛
𝑛−1 𝑛−1 𝑖=1(𝑥𝑖 − 𝑥̅)²
> Standaarddeviatie/ standaardafwijking: vierkantswortel van de variantie
Grootte standaardafwijking: scores liggen over het algemeen rond/ver van gemiddelde
Verdelingen
> De normaalverdeling (Gausscurve)
• ° [Steekproefverdelingen zijn normaal verdeeld zie volgende les]
° klokvorming en symmetrisch
° Ongeveer 68% van de waarnemingen ligt binnen 1 standaarddeviatie van het
gemiddelde. Ongeveer 95% van de waarnemingen ligt binnen 2
standaarddeviaties (68-95-99,7-regel)
> De standaardnormaalverdeling: normaalverdeling met gemiddelde 0 en
standaarddeviatie 1
° als je een normaal verdeelde variabele standaardiseert (z-score berekent)
verkrijg je een standaardnormaalverdeling
° z-score: 𝑥𝑖−𝑥̅
= 𝑠𝑥
𝑧𝑖
Principes van inferentiële statistiek
In dit vak zullen alle modellen te reduceren zijn tot een General Linear Model
Y= b0+b1x
bo= intercept, welke waarde y aanneemt als x=0
, b1= stijging of daling in y in functie van een
eenheidsstijging in y
In de statistiek hebben we meestal te maken met een heel aantal observaties = scatterplot
vanaf les 4 bespreken we hoe we daar een regressielijn in modelleren
Elk getest statistisch model geeft 2 soorten informatie:
1) Parameterschattingen (statistieken)
2) Schattingen van fit van het model (in welke mate is er sprake van error, hoe ver liggen de
observaties van het model dat we gebruiken, …)
Statistische inferentie
Beredeneer wat de statistieken (parameterschattingen) uit het model zeggen over de parameters in
de populatie.
van steekproef naar populatie. Van observatie van statistiek naar uitspraak over parameter.
Waarom kunnen we ervanuit gaan dat een schatting (statistiek) in een steekproef überhaupt iets
zegt over de eigenlijke parameter in de populatie? En op welke manier veralgemenen we dan
precies?
> Steekproefverdeling
> Centrale limietstelling (CLT)
> Standaardfout
STEEKPROEFVERDELING
- Logica: je hebt een model opgesteld en een statistiek berekend op basis van je steekproef
Maar jouw specifieke steekproef is natuurlijk niet de enige mogelijke steekproef die je kan trekken
uit de populatie.
- DUS er is een hele verdeling aan mogelijke uitkomsten voor elke statistiek die je berekent,
afhankelijk van de specifieke steekproef (i.c., de exacte n mensen) die je toevallig hebt samengesteld.
Dit is de sampling distribution of steekproefverdeling van de statistiek.
De steekproefverdeling is dus een puur een puur abstract, theoretisch concept!
>> Het is de theoretische verdeling van alle mogelijke waarden die een statistiek kan aannemen in
alle mogelijke steekproeven die je uit de populatie kan trekken
VERWAR NIET met de geobserveerde empirische verdeling van een specifieke variabele in je
steekproef (vb. de beschrijving van de variabele leeftijd)!!
Het feit dat er in elke steekproef een fout zit op de schatting van de eigenlijke populatieparameter
reflecteert met sampling error. Het is o.w.v. die sampling error dat er een steekproefverdeling is.
De steekproefverdeling lijkt relatief normaal verdeeld
> centrale limietstelling: garandeert dat bij een degelijke steekproefgrootte (n> 40)
de steekproefverdeling van een statistiek bij benadering normaal verdeeld is rond de
populatieparameter.
> DUS steekproefverdeling van een statistiek is altijd normaal verdeeld o.w.v. de centrale
limietstelling
Ook wanneer de verdeling van de variabele die we gebruiken om de statistiek te berekenen niet
normaal verdeeld is (als een variabele bijvoorbeeld exponentieel verdeeld is)
We weten dus dat de steekproefverdeling normaal verdeeld is, we weten ook dat een
normaalverdeling volledig kan worden beschreven als we twee parameters kennen:
1) Het gemiddelde (gemiddelde van steekproefverdeling= de populatieparameter)
2) De standaarddeviatie (standaarddeviatie van de steekproefverdeling= standard error/
standaardfout)
Voordelen van het kopen van samenvattingen bij Stuvia op een rij:
Verzekerd van kwaliteit door reviews
Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!
Snel en makkelijk kopen
Je betaalt supersnel en eenmalig met iDeal, creditcard of Stuvia-tegoed voor de samenvatting. Zonder lidmaatschap.
Focus op de essentie
Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!
Veelgestelde vragen
Wat krijg ik als ik dit document koop?
Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.
Tevredenheidsgarantie: hoe werkt dat?
Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.
Van wie koop ik deze samenvatting?
Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper ChimeneKlasen. Stuvia faciliteert de betaling aan de verkoper.
Zit ik meteen vast aan een abonnement?
Nee, je koopt alleen deze samenvatting voor €4,99. Je zit daarna nergens aan vast.