STATISTIEK II VOOR DE SOCIALE WETENSCHAPPEN
H1. HERHALING KERNBEGRIPPEN
Een steekproef is een selectie/subset uit de volledige groep onderzoekseenheden in de populatie. Deze moet
dezelfde karakteristieken hebben als de populatie die ze vertegenwoordigt (= representativiteit).
⚠ Voor veel statistische technieken moet dit een eenvoudige aselecte toevalssteekproef zijn (EAS/SRS - simple
random sample). Dat wilt zeggen dat elke onderzoekseenheid een gelijke kans op selectie heeft ≠ 0. ⚠
Er zijn twee soorten steekproeffouten:
● Fouten van betrouwbaarheid → niet-systematische fouten
● Fouten van geldigheid → systematische fouten
○ Selectiebias: manier van selectie respondenten geeft een vertekend beeld
○ Non-respons bias: zij die deelname weigerden verschillen systematisch van respondenten
○ Item non-respons bias
Beschrijvende / deductieve statistiek
Inferentiële / inductieve statistiek
→ o.b.v. steekproefdata conclusies trekken m.b.t. de populatie, doel = bepalen significantie resultaten
→ veralgemeenbaarheid?
Inferentiële statistiek maakt gebruik van kansrekenen en kansverdelingen & theoretische basis van de
steekproevenverdeling en centrale limietstelling. Hiervoor worden twee technieken gebruikt: hypothesetoetsen en
betrouwbaarheidsintervallen.
1
,Variabelen zijn de kenmerken die we meten bij de onderzoekseenheden. Er is nood aan definiëring en
operationalisering van concepten.
Frequentieverdelingen
𝑛 = aantal antwoordcategorieën 𝑁 = som van absolute frequenties,
steekproefgrootte
= ∑ 𝐹𝑥 = 𝑁
𝑖=1 𝑖
𝐹𝑥 = absolute frequentie 𝑓𝑖 = relatieve frequentie → som van relatieve
𝑖 → aantal keer dat 𝑥𝑖 werd waargenomen frequenties is altijd 1
𝑓𝑖
voor de variabele 𝑥 = 𝑁
𝑁
→ ∑ 𝑓𝑖 = 1 = 𝑁
𝑖=1
𝐾𝑥 = cumulatieve absolute frequentie 𝑘𝑥 = cumulatieve relatieve frequentie
𝑖 𝑖
= ∑ 𝐹𝑥 = ∑ 𝑓𝑥
𝑥𝑖≤𝑥𝑗 𝑗 𝑥𝑖≤𝑥𝑗 𝑗
2
,Maten van centraliteit
𝑥0 = modus
= waarde die het vaakst voorkomt in de frequentietabel
∼ = mediaan
𝑥
= middelste waarde in de tabel
𝑥 = gemiddelde
1
= 𝑛
Σ𝑥𝑖
Maten van spreiding
𝑉 = 𝑚𝑎𝑥𝑥 − 𝑚𝑖𝑛𝑥 2 1 2
𝑖 𝑖 𝑠 = 𝑛−1
Σ(𝑥𝑖 − 𝑥)
= variatiebreedte = variantie in steekproef
= verschil tussen grootste en kleinste = gemiddelde van de gekwadrateerde
waargenomen waarde afwijkingen van het gemiddelde
𝐼 = 𝐾3 − 𝐾1 2
=
1
Σ(𝑥𝑖 − µ)
2
σ 𝑁
= interkwartielafstand = 𝐼𝑄𝑅 = variantie in populatie
2 2
= ∑ (𝑥𝑖 − 𝑥) (in steekproef) = 𝑠 (in steekproef)
𝑆𝑆 𝑖=1 𝑠 of σ 2
= σ (in populatie)
2
= ∑ (𝑥𝑖 − µ) (in populatie)
𝑖=1 = standaardafwijking
→ uitgedrukt in dezelfde meeteenheid als de
= variatie / kwadratensom variabele
→ altijd positief cijfer,
→ hoe hoger = hoe hoger de spreiding
H2. KANSREKENEN
Kans is een proportie, en kans heeft dus een waarde tussen 0 en 1 → ∈ [0, 1]
De mogelijke waarden zijn gekend, maar we kennen de exacte waarde voor elke observatie niet op voorhand. Dit feit is
de toevalsvariabele of stochastische variabele. Op korte termijn of op basis van weinig observaties is kans zeer
onvoorspelbaar. Naarmate het aantal observaties stijgt, komt het aantal keer dat een bepaalde uitkomst geobserveerd
wordt dichter bij de reële kans → cumulatieve proportie.
Figuur: Kans dat je op lange termijn een 6 gooit met een dobbelsteen = cumulatieve proportie
3
,Kans kwantificeert toeval op lange termijn. Deze wet van de grote aantallen werd ontdekt door Bernoulli.
Volgens deze wet lijkt het aandeel van een bepaalde uitkomst in het totaal aantal uitkomsten op lange termijn naar een
bepaalde waarde te convergeren. Belangrijk hiervoor is de assumptie van onafhankelijkheid, wat wil zeggen dat de
ene observatie onafhankelijk is van de andere observatie.
bv. een dobbelsteen ⚂ heeft geen geheugen: elke rol heeft ⅙ kans om op een bepaalde waarde uit te komen.
Theoretische kans is op voorhand bepaalbaar (bv. eerlijke dobbelsteen, kans op lottowinst). Maar soms is kans
onmogelijk om op voorhand te bepalen, denk aan kans op hospitalisatie bij covidinfectie. De definitie van
empirische kans:
“De kans op een bepaalde uitkomst is de limiet van de relatieve frequenties (wanneer het aantal observaties ∞
wordt). De kans op een bepaalde uitkomst is het aandeel van die uitkomst in het aantal uitkomsten op
lange termijn.”
⚠ Oneindigheid kan niet geobserveerd worden → deze kansen altijd benaderingen van hun limietwaarden. ⚠
Subjectieve kans
Soms is het onmogelijk om (veel) trials uit te voeren (bv.: Wat is de kans op een meteorietinslag?). In dit geval is de
kans op een bepaalde uitkomst gebaseerd op a priori informatie. Bayesian statistics is de tak van de statistiek die
vertrekt van subjectieve probabiliteit.
Ω = 𝑢𝑖𝑡𝑘𝑜𝑚𝑠𝑡𝑒𝑛𝑟𝑢𝑖𝑚𝑡𝑒 = 𝑠𝑎𝑚𝑝𝑙𝑒 𝑠𝑒𝑡
Ω is de verzameling van alle mogelijke uitkomsten. Enkele voorbeelden:
● Dobbelsteen ⚂ : Ω = {1, 2, 3, 4, 5, 6}
● Muntstuk - kop of munt: Ω = {𝐾, 𝑀}
● Som uitkomsten van twee dobbelstenen ⚂⚃ : Ω = {2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12}
De uitkomstenruimte voor meerdere observaties wordt gevisualiseerd via een boomdiagram. Hieronder de
mogelijke prestaties van studenten op een examen (C = correct, I = incorrect).
Uit het boomdiagram valt af te leiden dat er 8 uitkomsten van het examen mogelijk zijn:
Ω = {𝐶𝐶𝐶, 𝐶𝐶𝐼, 𝐶𝐼𝐶, 𝐶𝐼𝐼, 𝐼𝐶𝐶, 𝐼𝐶𝐼, 𝐼𝐼𝐶, 𝐼𝐼𝐼}
4
, Een gebeurtenis of event is een subset van de uitkomstenruimte / deelverzameling van uitkomsten. Voorbeelden:
● Dobbelsteen ⚂
○ Gebeurtenis 𝐴 = ‘een zes gooien’ = {6}
○ Gebeurtenis 𝐵 = ‘een even aantal ogen gooien’ = {2, 4, 6}
● Studenten op examen
○ Gebeurtenis 𝐴 = alle studenten die de drie vragen incorrect beantwoord hebben = {𝐼𝐼𝐼}
○ Gebeurtenis 𝐵 = alle studenten die minstens één vraag correct beantwoord hebben
= {𝐶𝐶𝐶, 𝐶𝐶𝐼, 𝐶𝐼𝐶, 𝐶𝐼𝐼, 𝐼𝐶𝐶, 𝐼𝐶𝐼, 𝐼𝐼𝐶}
De kans (probability) op gebeurtenis 𝑃(𝐴) wordt verkregen door de kansen van elke individuele uitkomst binnen
de gebeurtenis op te tellen. Wanneer alle mogelijke uitkomsten dezelfde kans hebben is dit de formule voor het
berekenen van een kans op een gebeurtenis:
𝑎𝑎𝑛𝑡𝑎𝑙 𝑢𝑖𝑡𝑘𝑜𝑚𝑠𝑡𝑒𝑛 𝑖𝑛 𝑔𝑒𝑏𝑒𝑢𝑟𝑡𝑒𝑛𝑖𝑠 𝐴
𝑃(𝐴) = 𝑎𝑎𝑛𝑡𝑎𝑙 𝑢𝑖𝑡𝑘𝑜𝑚𝑠𝑡𝑒𝑛 𝑖𝑛 Ω
Bijvoorbeeld ⚂
1
● Gebeurtenis 𝐴 = ‘een vier gooien’ = {4} → 𝑃(𝐴) = 6
● Gebeurtenis 𝐵 = 7 als som van twee geworpen ⚂⚃ = {7}
6 1
→ 𝑃(𝐵) = 36
= 6
● Gebeurtenis 𝐶 = 3 als som van twee geworpen ⚂⚃ = {3}
2 1
→ 𝑃(𝐶) = 36
= 18
We kunnen ook de kans op de doorsnede van gebeurtenissen 𝑃(𝐴 ∩ 𝐵) berekenen. De doorsnede van
gebeurtenissen impliceert dat beide gebeurtenissen tegelijkertijd voorkomen.
𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐵 ∩ 𝐴)
Bijvoorbeeld kaartspel 🂱🂩
● Gebeurtenis 𝐴 = kaart is een aas = {1}
4
𝑃(𝐴) = 52
● Gebeurtenis 𝐵 = kaart is een hart = {♥}
13 1
𝑃(𝐵) = 52
= 4
● Doorsnede van gebeurtenissen 𝑃(𝐴 ∩ 𝐵)
1
𝑃(𝐴 ∩ 𝐵) = 52
5