Statistiek II voor de sociale wetenschappen (1017129BNR)
Summary
Samenvatting Statistiek II voor de sociale wetenschappen - VUB
32 views 1 purchase
Course
Statistiek II voor de sociale wetenschappen (1017129BNR)
Institution
Vrije Universiteit Brussel (VUB)
Beknopte én complete samenvatting van de theorie voor het vak 'Statistiek II voor de sociale wetenschappen' zoals gedoceerd aan de VUB door prof. De Winter.
Politieke Wetenschappen en Sociologie: Sociologie
Statistiek II voor de sociale wetenschappen (1017129BNR)
All documents for this subject (1)
Seller
Follow
spookslotje
Content preview
STATISTIEK II VOOR DE SOCIALE WETENSCHAPPEN
H1. HERHALING KERNBEGRIPPEN
Een steekproef is een selectie/subset uit de volledige groep onderzoekseenheden in de populatie. Deze moet
dezelfde karakteristieken hebben als de populatie die ze vertegenwoordigt (= representativiteit).
⚠ Voor veel statistische technieken moet dit een eenvoudige aselecte toevalssteekproef zijn (EAS/SRS - simple
random sample). Dat wilt zeggen dat elke onderzoekseenheid een gelijke kans op selectie heeft ≠ 0. ⚠
Er zijn twee soorten steekproeffouten:
● Fouten van betrouwbaarheid → niet-systematische fouten
● Fouten van geldigheid → systematische fouten
○ Selectiebias: manier van selectie respondenten geeft een vertekend beeld
○ Non-respons bias: zij die deelname weigerden verschillen systematisch van respondenten
○ Item non-respons bias
Inferentiële statistiek maakt gebruik van kansrekenen en kansverdelingen & theoretische basis van de
steekproevenverdeling en centrale limietstelling. Hiervoor worden twee technieken gebruikt: hypothesetoetsen en
betrouwbaarheidsintervallen.
1
,Variabelen zijn de kenmerken die we meten bij de onderzoekseenheden. Er is nood aan definiëring en
operationalisering van concepten.
Frequentieverdelingen
𝑛 = aantal antwoordcategorieën 𝑁 = som van absolute frequenties,
steekproefgrootte
= ∑ 𝐹𝑥 = 𝑁
𝑖=1 𝑖
𝐹𝑥 = absolute frequentie 𝑓𝑖 = relatieve frequentie → som van relatieve
𝑖 → aantal keer dat 𝑥𝑖 werd waargenomen frequenties is altijd 1
𝑓𝑖
voor de variabele 𝑥 = 𝑁
𝑥0 = modus
= waarde die het vaakst voorkomt in de frequentietabel
∼ = mediaan
𝑥
= middelste waarde in de tabel
𝑥 = gemiddelde
1
= 𝑛
Σ𝑥𝑖
Maten van spreiding
𝑉 = 𝑚𝑎𝑥𝑥 − 𝑚𝑖𝑛𝑥 2 1 2
𝑖 𝑖 𝑠 = 𝑛−1
Σ(𝑥𝑖 − 𝑥)
= variatiebreedte = variantie in steekproef
= verschil tussen grootste en kleinste = gemiddelde van de gekwadrateerde
waargenomen waarde afwijkingen van het gemiddelde
𝐼 = 𝐾3 − 𝐾1 2
=
1
Σ(𝑥𝑖 − µ)
2
σ 𝑁
= interkwartielafstand = 𝐼𝑄𝑅 = variantie in populatie
2 2
= ∑ (𝑥𝑖 − 𝑥) (in steekproef) = 𝑠 (in steekproef)
𝑆𝑆 𝑖=1 𝑠 of σ 2
= σ (in populatie)
2
= ∑ (𝑥𝑖 − µ) (in populatie)
𝑖=1 = standaardafwijking
→ uitgedrukt in dezelfde meeteenheid als de
= variatie / kwadratensom variabele
→ altijd positief cijfer,
→ hoe hoger = hoe hoger de spreiding
H2. KANSREKENEN
Kans is een proportie, en kans heeft dus een waarde tussen 0 en 1 → ∈ [0, 1]
De mogelijke waarden zijn gekend, maar we kennen de exacte waarde voor elke observatie niet op voorhand. Dit feit is
de toevalsvariabele of stochastische variabele. Op korte termijn of op basis van weinig observaties is kans zeer
onvoorspelbaar. Naarmate het aantal observaties stijgt, komt het aantal keer dat een bepaalde uitkomst geobserveerd
wordt dichter bij de reële kans → cumulatieve proportie.
Figuur: Kans dat je op lange termijn een 6 gooit met een dobbelsteen = cumulatieve proportie
3
,Kans kwantificeert toeval op lange termijn. Deze wet van de grote aantallen werd ontdekt door Bernoulli.
Volgens deze wet lijkt het aandeel van een bepaalde uitkomst in het totaal aantal uitkomsten op lange termijn naar een
bepaalde waarde te convergeren. Belangrijk hiervoor is de assumptie van onafhankelijkheid, wat wil zeggen dat de
ene observatie onafhankelijk is van de andere observatie.
bv. een dobbelsteen ⚂ heeft geen geheugen: elke rol heeft ⅙ kans om op een bepaalde waarde uit te komen.
Theoretische kans is op voorhand bepaalbaar (bv. eerlijke dobbelsteen, kans op lottowinst). Maar soms is kans
onmogelijk om op voorhand te bepalen, denk aan kans op hospitalisatie bij covidinfectie. De definitie van
empirische kans:
“De kans op een bepaalde uitkomst is de limiet van de relatieve frequenties (wanneer het aantal observaties ∞
wordt). De kans op een bepaalde uitkomst is het aandeel van die uitkomst in het aantal uitkomsten op
lange termijn.”
⚠ Oneindigheid kan niet geobserveerd worden → deze kansen altijd benaderingen van hun limietwaarden. ⚠
Subjectieve kans
Soms is het onmogelijk om (veel) trials uit te voeren (bv.: Wat is de kans op een meteorietinslag?). In dit geval is de
kans op een bepaalde uitkomst gebaseerd op a priori informatie. Bayesian statistics is de tak van de statistiek die
vertrekt van subjectieve probabiliteit.
Ω = 𝑢𝑖𝑡𝑘𝑜𝑚𝑠𝑡𝑒𝑛𝑟𝑢𝑖𝑚𝑡𝑒 = 𝑠𝑎𝑚𝑝𝑙𝑒 𝑠𝑒𝑡
Ω is de verzameling van alle mogelijke uitkomsten. Enkele voorbeelden:
● Dobbelsteen ⚂ : Ω = {1, 2, 3, 4, 5, 6}
● Muntstuk - kop of munt: Ω = {𝐾, 𝑀}
● Som uitkomsten van twee dobbelstenen ⚂⚃ : Ω = {2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12}
De uitkomstenruimte voor meerdere observaties wordt gevisualiseerd via een boomdiagram. Hieronder de
mogelijke prestaties van studenten op een examen (C = correct, I = incorrect).
Uit het boomdiagram valt af te leiden dat er 8 uitkomsten van het examen mogelijk zijn:
Ω = {𝐶𝐶𝐶, 𝐶𝐶𝐼, 𝐶𝐼𝐶, 𝐶𝐼𝐼, 𝐼𝐶𝐶, 𝐼𝐶𝐼, 𝐼𝐼𝐶, 𝐼𝐼𝐼}
4
, Een gebeurtenis of event is een subset van de uitkomstenruimte / deelverzameling van uitkomsten. Voorbeelden:
● Studenten op examen
○ Gebeurtenis 𝐴 = alle studenten die de drie vragen incorrect beantwoord hebben = {𝐼𝐼𝐼}
○ Gebeurtenis 𝐵 = alle studenten die minstens één vraag correct beantwoord hebben
= {𝐶𝐶𝐶, 𝐶𝐶𝐼, 𝐶𝐼𝐶, 𝐶𝐼𝐼, 𝐼𝐶𝐶, 𝐼𝐶𝐼, 𝐼𝐼𝐶}
De kans (probability) op gebeurtenis 𝑃(𝐴) wordt verkregen door de kansen van elke individuele uitkomst binnen
de gebeurtenis op te tellen. Wanneer alle mogelijke uitkomsten dezelfde kans hebben is dit de formule voor het
berekenen van een kans op een gebeurtenis:
● Gebeurtenis 𝐵 = 7 als som van twee geworpen ⚂⚃ = {7}
6 1
→ 𝑃(𝐵) = 36
= 6
● Gebeurtenis 𝐶 = 3 als som van twee geworpen ⚂⚃ = {3}
2 1
→ 𝑃(𝐶) = 36
= 18
We kunnen ook de kans op de doorsnede van gebeurtenissen 𝑃(𝐴 ∩ 𝐵) berekenen. De doorsnede van
gebeurtenissen impliceert dat beide gebeurtenissen tegelijkertijd voorkomen.
𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐵 ∩ 𝐴)
Bijvoorbeeld kaartspel 🂱🂩
● Gebeurtenis 𝐴 = kaart is een aas = {1}
4
𝑃(𝐴) = 52
● Gebeurtenis 𝐵 = kaart is een hart = {♥}
13 1
𝑃(𝐵) = 52
= 4
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller spookslotje. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $7.71. You're not tied to anything after your purchase.