Samenvatting GAO 1
1 PROBABILITEIT & INFERENTIËLE STATISTIEK
Op weg naar inducties vanuit 1 steekproef naar de populatie:
Steekproefparameters vs populatieparameters
Steekproevenverdeling
Toetsen = aanvaardingsintervallen bouwen
Uitspraken doen over de populatieparameter=betrouwbaarheidsintervallen bouwen
Kwantitatief onderzoek gebeurt obv een steekproef waarbij we een aantal mensen (N) bevragen of observeren.
• Kunnen we obv 1 SP waar we x̄ meten exact het echte populatiegemiddelde μ kennen?
• Zal een SP op maandag 11u exact hetzelfde beeld geven als op een ander moment?
Nee
• Wat als we 1000 SP’en nemen en daarvan het “super” gemiddelde
berekenen?
Zal heel erg bij echte waarheid liggen
• Is een grotere SP beter dan een kleine SP?
Ja, beter om 100 mensen te bevragen dan 10
Gemiddeldes van alle verschillende lijnen = exact mu (μ)
Betrouwbaarheidsinterval maken van dit
1.1 STEEKPROEVENVERDELING
• Steekproefgrootheden (vb het percentage p) zijn kansvariabelen
• Steekproevenverdeling: geeft weer hoe steekproefgrootheden variëren bij onbeperkt aantal
herhaalde steekproeftrekkingen
• De kennis van die ‘sampling distribution’ laat ons toe om op basis van 1 SP
o ‘Scherpe’ uitspraken te doen over de populatiewaarden ‘hoe groot is het echte percentage
bezorgden over het klimaat?’
o Beweringen te toetsen: kan het echte percentage gelijk zijn aan een bepaalde waarde vb
π=0,70
Noteer: p = SP percentage, π = populatie percentage
VB
Stel dat in VS populatie 60% niet-kerkelijk (π = 0,60)
Stel dat 1000 EAS van 100 personen à benadering van steekproevenverdeling:
SP-grootte is heel belangrijk. 100 bevragen is beter dan 10, maar hiermee aantonen
dat dat effectief zo is
Grootste aantallen liggen in buurt van 0,60
Hoewel echte percentage 60% is, toch resultaten van 45% en 80%
1.2 BASISLOGICA INDUCTIE
Via SP-grootheden populatiegrootheden schatten
We gebruiken daarvoor zuivere schatters: gemiddelde van SP’enverdeling (verwachting) = populatiegrootheid
Spreiding neemt af naarmate SP-omvang groter wordt
Vertekening mogelijk door SP-ontwerp
SP’enverdeling bezit spreiding: gemeten via standaardafwijking van die SP’enverdeling (standaardfout of
standard error)
!(#$!) Stel 1000 en 10. Is die van 1000 dan 100 keer beter
Se(p) =
& dan die van 10? Nee, werkt met wortelfactor ervan
In vb: 0,049 à 95% SP’en [0,50 ; 0,70] Voor 2,5% links & recht nemen we 1,96 se (afgerond
2)
,Samenvatting GAO 2
1.3 IMPACT VAN N
Stel dat 1000 EAS van 1785 personen
Standaardfout = 0,01
à 95% steekproeven [0,58 ; 0,62]
Standard error is veel kleiner aangezien meer personen in elke SP à dichter in buurt van echte waarde
1.4 ZUIVERE SCHATTER
Hoge vertekening: lage variabiliteit Lage vertekening: hoge variabiliteit
Betrouwbaar maar niet valide Niet betrouwbaar maar wel valide
Hoge vertekening: hoge variabiliteit Lage vertekening: lage variabiliteit
Niet betrouwbaar en niet valide Betrouwbaar en valide
Als je op een SP x̄ berekent zal die heel dicht tegen μ liggen
1.5 VERDELINGEN
2 soorten verdelingen die goed uit elkaar moeten gehouden worden
• Populatieverdeling: verdeling van variabele in populatie
• Steekproevenverdeling: ‘gedrag’ van steekproefgrootheid bij onbeperkt aantal trekkingen
Vooraleer maken van inducties: studie van SP’enverdelingen van gangbare SP-grootheden
Zijn x̄ en p zuivere schatters voor μ en π?
• Aantal: aantal keer bepaalde respons (X)
'
• Fractie: aantal keer bepaalde respons in verhouding tot het aantal waarnemingen =
&
• Beide zijn kansvariabelen
1.6 VERWACHTING EN VARIANTIE VAN KANSVARIABELEN
k k
p = ∑ ( xi − µ )² p
2
µ = ∑ xi σ X X i
X i i =1
i =1
= spreiding, variantie
,Samenvatting GAO 3
Kan hier eenvoudiger:
𝑍) kansvariabele: is i-de waarneming succes ?
𝑍) = 1 als succes, 𝑍) = 0 als mislukking
P(𝑍) = 1) = 𝑝; P(𝑍) = 0) = 1 - 𝑝
𝜇 - = (1) (𝑝) + (0) (1- 𝑝) = 𝑝
𝜎²- = (1- 𝑝)² 𝑝 + (0- 𝑝)²(1- 𝑝)
= (1- 𝑝)² 𝑝 + 𝑝 ²(1- 𝑝)
= (1- 𝑝) ((1- 𝑝)p + 𝑝 ²)
= (1- 𝑝) (𝑝 - 𝑝 ²+ 𝑝 ²)
= 𝑝 (1- 𝑝)
Aantal X = aantal keer 1 in de Zi‘s
X = Z1 + Z2 + ... + Zn
Optelregel voor verwachtingen:
µX = µZ1 + µZ2 + ... + µZn = nµZ = np
Optelregel voor varianties:
σ ²X = σ²Z1 + σ²Z2 + ... + σ²Zn
=nσ²Z
= np(1-p)
Kijken hoeveel keer X een waarde 1 heeft en dat optellen. Daar zijn regels voor
1.7 TOEGEPAST OP FRACTIES
Schatting maken van π via schatter p:
Dus zuivere schatter en bij grotere N kleinere variantie
Verwachte waarde van waargenomen percentages μ p = π à resultaat is een zuivere schatter
In situatie met meeste onzekerheid kans = 0,5 . 0,50 . 0,50 =
1.8 TOEGEPAST OP GEMIDDELDEN
Naar analogie met fracties
SP-grootheden zijn kansvariabelen
Kansverdeling: SP’enverdeling (sampling distribution)
SP-gemiddelde x̄ is zuivere schatter van populatiegemiddelde μ
SP’enverdeling van x̄ bepaald door SP-ontwerp, SP-omvang en populatieverdeling
Meting van variabele in EAS: N onafhankelijke kansvariabelen: X1, X2,..., XN met verdeling elke Xi =
populatieverdeling
, Samenvatting GAO 4
Verwachting van x̄ is populatiegemiddelde (zuivere schatter)
Variantie: kleiner naarmate N groter
Gemiddelde waarde waarnaar x̄ streeft is μ, is echte waarheid
σ = st afw in populatie
s = st afw in SP. Aangezien σ niet gekend à s
1.9 CENTRALE LIMIETSTELLING
= kern van statistiek
Bij grotere N: ook als populatieverdeling niet normaal is, volgt x̄ een normaalverdeling (hoe sterker afwijking
van normaalverdeling, hoe groter N moet zijn, met N vanaf 30 meestal ok)
Verdeling van som of gemiddelde van vele kleine toevalsgrootheden benadert sterk de normaalverdeling à
geeft aan waarom vele geobserveerde variabelen sterk een normaalverdeling benaderen
CLS in actie
1.10 ONDERZOEK = HYPOTHESETOETSING
= nagaan of een geformuleerde veronderstelling over de werkelijkheid, met een bepaalde betrouwbaarheid,
statistisch gevalideerd kan worden
= nagaan in welke mate onderzoeksresultaten aan het toeval te wijten zijn of niet
Significant: er is iets aan de hand of niet significant: verwaarlozen
1.11 BASISBEGRIPPEN
1. Geen hypothesetoetsing zonder hypothesen
2. Eenzijdig en tweezijdig toetsen
3. Aanvaardingsinterval
4. Fouten van de eerste en de tweede soort
5. Betrouwbaarheidsinterval
1. GEEN HYPOTHESETOETSING ZONDER HYPOTHESEN
2 hypothesen: H0 en H1
• Nulhypothese H0 : parameter=waarde, geen effect, geen verschil, geen correlatie
• Alternatieve hypothese H1 of Ha
vb. De Morgen beweert succesjaar achter de rug te hebben. Er werden gem. 20% meer kranten verkocht, zodat
men nu op een oplage van ca. 76.000 beweert te zitten.
Oplage ‘De Morgen’
• Representatieve SP voor VL (N=2500)
• Onderzoekshypothese: nagaan of de opgegeven oplagecijfers wel kloppen