1 PROBABILITEIT & INFERENTIËLE STATISTIEK
Op weg naar inducties vanuit 1 steekproef naar de populatie:
Steekproefparameters vs populatieparameters
Steekproevenverdeling
Toetsen = aanvaardingsintervallen bouwen
Uitspraken doen over de populatieparameter=betrouwbaarheidsintervallen bouwen
Kwantitatief onderzoek gebeurt obv een steekproef waarbij we een aantal mensen (N) bevragen of observeren.
• Kunnen we obv 1 SP waar we x̄ meten exact het echte populatiegemiddelde μ kennen?
• Zal een SP op maandag 11u exact hetzelfde beeld geven als op een ander moment?
Nee
• Wat als we 1000 SP’en nemen en daarvan het “super” gemiddelde
berekenen?
Zal heel erg bij echte waarheid liggen
• Is een grotere SP beter dan een kleine SP?
Ja, beter om 100 mensen te bevragen dan 10
Gemiddeldes van alle verschillende lijnen = exact mu (μ)
Betrouwbaarheidsinterval maken van dit
1.1 STEEKPROEVENVERDELING
• Steekproefgrootheden (vb het percentage p) zijn kansvariabelen
• Steekproevenverdeling: geeft weer hoe steekproefgrootheden variëren bij onbeperkt aantal
herhaalde steekproeftrekkingen
• De kennis van die ‘sampling distribution’ laat ons toe om op basis van 1 SP
o ‘Scherpe’ uitspraken te doen over de populatiewaarden ‘hoe groot is het echte percentage
bezorgden over het klimaat?’
o Beweringen te toetsen: kan het echte percentage gelijk zijn aan een bepaalde waarde vb
π=0,70
Noteer: p = SP percentage, π = populatie percentage
VB
Stel dat in VS populatie 60% niet-kerkelijk (π = 0,60)
Stel dat 1000 EAS van 100 personen à benadering van steekproevenverdeling:
SP-grootte is heel belangrijk. 100 bevragen is beter dan 10, maar hiermee aantonen
dat dat effectief zo is
Grootste aantallen liggen in buurt van 0,60
Hoewel echte percentage 60% is, toch resultaten van 45% en 80%
1.2 BASISLOGICA INDUCTIE
Via SP-grootheden populatiegrootheden schatten
We gebruiken daarvoor zuivere schatters: gemiddelde van SP’enverdeling (verwachting) = populatiegrootheid
Spreiding neemt af naarmate SP-omvang groter wordt
Vertekening mogelijk door SP-ontwerp
SP’enverdeling bezit spreiding: gemeten via standaardafwijking van die SP’enverdeling (standaardfout of
standard error)
!(#$!) Stel 1000 en 10. Is die van 1000 dan 100 keer beter
Se(p) =
& dan die van 10? Nee, werkt met wortelfactor ervan
In vb: 0,049 à 95% SP’en [0,50 ; 0,70] Voor 2,5% links & recht nemen we 1,96 se (afgerond
2)
,Samenvatting GAO 2
1.3 IMPACT VAN N
Stel dat 1000 EAS van 1785 personen
Standaardfout = 0,01
à 95% steekproeven [0,58 ; 0,62]
Standard error is veel kleiner aangezien meer personen in elke SP à dichter in buurt van echte waarde
1.4 ZUIVERE SCHATTER
Hoge vertekening: lage variabiliteit Lage vertekening: hoge variabiliteit
Betrouwbaar maar niet valide Niet betrouwbaar maar wel valide
Hoge vertekening: hoge variabiliteit Lage vertekening: lage variabiliteit
Niet betrouwbaar en niet valide Betrouwbaar en valide
Als je op een SP x̄ berekent zal die heel dicht tegen μ liggen
1.5 VERDELINGEN
2 soorten verdelingen die goed uit elkaar moeten gehouden worden
• Populatieverdeling: verdeling van variabele in populatie
• Steekproevenverdeling: ‘gedrag’ van steekproefgrootheid bij onbeperkt aantal trekkingen
Vooraleer maken van inducties: studie van SP’enverdelingen van gangbare SP-grootheden
Zijn x̄ en p zuivere schatters voor μ en π?
• Aantal: aantal keer bepaalde respons (X)
'
• Fractie: aantal keer bepaalde respons in verhouding tot het aantal waarnemingen =
&
• Beide zijn kansvariabelen
1.6 VERWACHTING EN VARIANTIE VAN KANSVARIABELEN
k k
p = ∑ ( xi − µ )² p
2
µ = ∑ xi σ X X i
X i i =1
i =1
= spreiding, variantie
,Samenvatting GAO 3
Kan hier eenvoudiger:
𝑍) kansvariabele: is i-de waarneming succes ?
𝑍) = 1 als succes, 𝑍) = 0 als mislukking
P(𝑍) = 1) = 𝑝; P(𝑍) = 0) = 1 - 𝑝
𝜇 - = (1) (𝑝) + (0) (1- 𝑝) = 𝑝
𝜎²- = (1- 𝑝)² 𝑝 + (0- 𝑝)²(1- 𝑝)
= (1- 𝑝)² 𝑝 + 𝑝 ²(1- 𝑝)
= (1- 𝑝) ((1- 𝑝)p + 𝑝 ²)
= (1- 𝑝) (𝑝 - 𝑝 ²+ 𝑝 ²)
= 𝑝 (1- 𝑝)
Aantal X = aantal keer 1 in de Zi‘s
X = Z1 + Z2 + ... + Zn
Kijken hoeveel keer X een waarde 1 heeft en dat optellen. Daar zijn regels voor
1.7 TOEGEPAST OP FRACTIES
Schatting maken van π via schatter p:
Dus zuivere schatter en bij grotere N kleinere variantie
Verwachte waarde van waargenomen percentages μ p = π à resultaat is een zuivere schatter
In situatie met meeste onzekerheid kans = 0,5 . 0,50 . 0,50 =
1.8 TOEGEPAST OP GEMIDDELDEN
Naar analogie met fracties
SP-grootheden zijn kansvariabelen
Kansverdeling: SP’enverdeling (sampling distribution)
SP-gemiddelde x̄ is zuivere schatter van populatiegemiddelde μ
SP’enverdeling van x̄ bepaald door SP-ontwerp, SP-omvang en populatieverdeling
Meting van variabele in EAS: N onafhankelijke kansvariabelen: X1, X2,..., XN met verdeling elke Xi =
populatieverdeling
, Samenvatting GAO 4
Verwachting van x̄ is populatiegemiddelde (zuivere schatter)
Variantie: kleiner naarmate N groter
Gemiddelde waarde waarnaar x̄ streeft is μ, is echte waarheid
σ = st afw in populatie
s = st afw in SP. Aangezien σ niet gekend à s
1.9 CENTRALE LIMIETSTELLING
= kern van statistiek
Bij grotere N: ook als populatieverdeling niet normaal is, volgt x̄ een normaalverdeling (hoe sterker afwijking
van normaalverdeling, hoe groter N moet zijn, met N vanaf 30 meestal ok)
Verdeling van som of gemiddelde van vele kleine toevalsgrootheden benadert sterk de normaalverdeling à
geeft aan waarom vele geobserveerde variabelen sterk een normaalverdeling benaderen
CLS in actie
1.10 ONDERZOEK = HYPOTHESETOETSING
= nagaan of een geformuleerde veronderstelling over de werkelijkheid, met een bepaalde betrouwbaarheid,
statistisch gevalideerd kan worden
= nagaan in welke mate onderzoeksresultaten aan het toeval te wijten zijn of niet
Significant: er is iets aan de hand of niet significant: verwaarlozen
1.11 BASISBEGRIPPEN
1. Geen hypothesetoetsing zonder hypothesen
2. Eenzijdig en tweezijdig toetsen
3. Aanvaardingsinterval
4. Fouten van de eerste en de tweede soort
5. Betrouwbaarheidsinterval
1. GEEN HYPOTHESETOETSING ZONDER HYPOTHESEN
2 hypothesen: H0 en H1
• Nulhypothese H0 : parameter=waarde, geen effect, geen verschil, geen correlatie
• Alternatieve hypothese H1 of Ha
vb. De Morgen beweert succesjaar achter de rug te hebben. Er werden gem. 20% meer kranten verkocht, zodat
men nu op een oplage van ca. 76.000 beweert te zitten.
Oplage ‘De Morgen’
• Representatieve SP voor VL (N=2500)
• Onderzoekshypothese: nagaan of de opgegeven oplagecijfers wel kloppen
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller paulieneetesonne. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $7.08. You're not tied to anything after your purchase.