Statistical Methods
For the social science Fifth edition
Alan Agresti
Hoofdstuk 4. Normale kansverdeling en steekproefverdeling (voor gemiddelden)
Hoofdstuk 5. Betrouwbaarheidsinterval voor 1 proportie en 1 gemiddelde
Hoofdstuk 6. Significantie toetsing voor 1 proportie en 1 gemiddelde
Hoofdstuk 7. Betrouwbaarheidsinterval en significatie toetsing voor 2 proporties
en 2 gemiddelden (onafhankelijk en afhankelijke steekproef)
Hoofdstuk 8. Analysering associatie tussen categorische variabelen (kwalitatieve,
nominale data)
Hoofdstuk 9. Lineaire regressie en correlatie (kwantitatieve, continue data)
,Hoofdstuk 4. Kansverdelingen
Tentamenstof 4.4 – 4.5
4.1 introductie
De kans (probability) is de proportie van het aantal keren dat een bepaalde observatie voorkomt in
een lange sequentie van soortgelijke observaties. De lange sequentie is hierbij belangrijk: naarmate
deze langer is, wordt de kans steeds nauwkeuriger.
De proportie uit de steekproef gaat dan steeds meer lijken op de proportie uit de populatie.
Kansen kunnen ook worden weergegeven in percentages (bijvoorbeeld 70%) in plaats van in
proporties (bijvoorbeeld 0.7). Een specifieke tak binnen de statistiek gaat uit van subjectieve kansen,
deze tak heet Bayesiaanse statistiek. Het merendeel van de statistiek draait echter om de reguliere
kansrekening objectieve data
(p) verwijst naar de lange termijn want je hebt een groot aantal waarnemingen nodig om de
nauwkeurigheid te beoordelen.
Voorbeeld: Je kan er namelijk niet van uitgaan dat als je 10 proefpersonen hebt en zij allemaal
rechtshandig zijn dat de kans op het rechtshandig zijn, 1.0/ 100% is.
De lange termijn benadering is lang niet altijd toepasbaar. Bijvoorbeeld de kans dat je bedrijf succesvol
wordt. Dan moet je afgaan op subjectieve informatie ipv objectieve data Bayesiaanse statistiek
p(A)=0 -> het gebeurt nooit.
p(A)=1 -> het gebeurt altijd.
Kansregels
P(niet A) = 1 – P(A)
Als je de kans kent dat een bepaalde uitkomst optreedt, is de kans dat het niet voorkomt 1 minus die
kans
Stel dat er twee mogelijke uitkomsten zijn die elkaar uitsluiten: A (getrouwd) en B (niet getrouwd). Dan
schrijf je de kans op A als P(A). De kans op B staat gelijk aan 1 – P(A).
P(A of B) = P(A) + P(B)
als A en B verschillende mogelijke uitkomsten zijn zonder overlap
Bijvoorbeeld: De kans dat iemand rood (A) of blauw (B) als lievelingskleur heeft
P(A en B) = P(A) x P(B gegeven A)
Als A en B mogelijke uitkomsten zijn (ze zijn afhankelijk van elkaar)
Stel dat er meerdere vragen worden gesteld en je wilt weten hoeveel van de getrouwde mensen ook kinderen
hebben.
Bijvoorbeeld P(getrouwd en kinderen) = P(getrouwd) x P(kinderen) = /Vaak genoteerd als P(B|A)
56% is de kans dat iemand getrouwd is en 40% is de kans dat iemand kinderen heeft
0,56 x 0,40 =
P(A en B) = P(A) x P(B)
als A en B onafhankelijk zijn
bijvoorbeeld: hoeveel is de kans dat de eerste en tweede persoon in de steekproef CO2-belasting
ondersteunt? 60% in de populatie ondersteunt de CO2-belasting
0,60 x 0,60 =
Hoeveel is de kans dat de eerste 10 personen het ondersteunt?
0,60 x 0,60 x 0,60 x 0,60 x 0,60 x 0,60 =
,Onafhankelijk= uitkomst A geen invloed op uitkomst B: p(B)= p(B│A)
Trekking met teruglegging= onafhankelijk
Eerste trekking geen invloed op volgende trekking.
Zonder teruglegging= afhankelijk
Eerste trekking wel invloed op volgende trekking
4.2 kansverdeling voor discrete en continue variabelen
Een kansverdeling heeft, net als de populatie distributie/verdeling, parameters die het midden (μ) en
de variabiliteit (σ) beschrijven
Het gemiddelde μ beschrijft het centrum van de kansverdeling
De standaard deviatie σ beschrijft de variabiliteit, spreiding rondom het gemiddelde
Hoe groter de waarde van SD, hoe meer spreiding de verdeling
Random variabele = een variabele waarbij elke mogelijke uitkomst een kans heeft
Kansverdelingen voor discrete variabelen (hele getallen zonder decimalen)
De som van de kansen van alle mogelijke waarden is gelijk aan 1
bepaalde waarde is mogelijk (hoeveel mensen gaan er naar een feestje? 10, 11?, niet elke waarde is
aan te nemen)
De kans dat x kleiner is dan 80
P(x < 80)
P(x ≤ 79)
Formule: P(x < K) = P(x ≤ K – 1)
Staafdiagram / histogram beschrijft de kansverdeling
Verschillende waarden staan op de horizontale as
De kans staat op de verticale as
Het gemiddelde van een kansverdeling voor een discrete variabele y
μ = Σ yP(y)
, Kansverdeling voor continue variabelen (hele getallen met decimalen)
Continue variabele heeft oneindige waarden
De kansverdeling van een continue variabele sorteert kansen in intervallen
De kans dat een waarde in een interval valt is tussen 0 en 1
elke waarde is mogelijk (gewicht 80,,5 kg, elke waarde is aan te nemen)
We willen weten wat de kans is op het gebied kleiner dan 80
Dus alles vanaf 0 t/m 80
De kans dat y gelijk of kleiner is dan 80
P(y ≤ 80)
Formule: P(x ≤ K)
P(<15) de kans dat de populatie minder dan 15 minuten reist naar werk
P(30 < y < 60) de kans dat de reistijd is tussen 30 en 60 minuten interval
Normaal verdeling beschrijft de kansverdeling
Gemiddelde is μ
Standaard deviatie is σ
Standaard deviatie = wortel uit variantie
Variantie = standaard deviatie in het kwadraat
spreiding/range. Het verschil tussen de hoogste en laagste getalswaarden in een reeks
de tussenstap tot standaarddeviatie. Het gekwadrateerde gemiddelde afstand van scores die boven
en/of onder het gemiddelde liggen
Σ (y- μ)2P(y)