Craig, B: Introduction to the Practice of Statistics
Hoi !
Dit is mijn reddende engel geweest met statistiek 1B en ik hoop ook die van jou.
Hierbij mijn samenvatting / college aantekeningen voor het vak statistiek 1B. Echt Alles wat je nodig hebt om het vak te halen. Heel veel plaatjes, oefenvragen met uitwerkingen en alle belangrijke formules staa...
Parameter: beschrijft de populatie
- Populatiegemiddelde 𝜇
- Populatieproportie 𝑝
Statistische inferentie gebruikt statistics (steekproef) bij het nemen van beslissingen en het maken van
voorspellingen over parameters (populatie)
▪ Inferentie voor gemiddelden: Hoofdstuk 6 en 7
▪ Inferentie voor proporties: Hoofdstuk 8 en 9
Doel van statistische inferentie:
▪ Conclusies trekken, beslissingen nemen, voorspellingen maken over een populatie op basis van
steekproefresultaten
Twee belangrijke methodes:
▪ Betrouwbaarheidsintervallen - Het schatten van de waarde van een parameter – range van
mogelijke waardes van parameter
▪ Significantietoetsen - Het verkrijgen van bewijs tegen een bepaalde claim
Er is niet 1 “correcte” inferentiële methode
Verschillende aanpakken:
▪ Frequentistische aanpak: verzekert ons dat we correcte conclusies trekken voor een vast
percentage van onderzoeken, in the long run
▪ Bayesiaanse aanpak: kwantificeert bewijs in een bepaalde dataset voor een bepaalde hypothese
Statistische inferentie
• Betrouwbaarheidsintervallen & Significantietoetsen
Beide methodes gebaseerd op Sampling distributions van statistics
- Idee: Wat zou er gebeuren als we deze inferentiemethode heel vaak herhalen?
Basis: Sampling distributions
Voorwaarde hiervoor:
▪ Probability model van de data (sampling distribution)
▪ Betrouwbaar model >> properly randomized design
▪ Problematisch: voluntary response samples, confounded experiments
,Chapter 5 - Basis: Sampling Distributions
Centrale Limietstelling:
Als 𝑛 groot is, dan is de sampling distribution van het steekproefgemiddelde 𝑋̅ ongeveer normaal verdeeld:
𝜎
𝑋̅ is ongeveer 𝑁 (𝜇, )
√𝑛
▪ Dit geldt ongeacht de vorm van de populatieverdeling
▪ Voorwaarde: SRS, eindige 𝜎 en voldoende grote 𝑛
▪ Als 𝑋~𝑁 (𝜇, 𝜎) dan is 𝑋̅ exact normaal verdeeld, ook bij kleine 𝑛
Aannames Chapter 6
1. SRS uit de populatie waarin we geïnteresseerd zijn. Geen nonresponse of een ander praktisch
problemen
2. Normale populatieverdeling 𝑁 (𝜇, 𝜎)
3. Het populatiegemiddelde 𝜇 is onbekend, maar de populatiestandaarddeviatie 𝜎 is wel bekend.
Opmerkingen:
▪ Deze setting is te simpel om realistisch te zijn
▪ Later (Chapter 7) stappen we af van een aantal van deze onrealistische voorwaarden
▪ Nu eerst begrijpen wat statistische inferentie eigenlijk is
Schatten met betrouwbaarheid – Estimating with confidence
Gedachte achter betrouwbaarheid
Betrouwbaarheidsintervallen
▪ Het schatten van de waarde van een parameter
Twee soorten schatters:
▪ Puntschatter:
- een enkel getal dat onze “beste gok” is voor de parameter
▪ Intervalschatter:
- een interval van getallen dat de parameterwaarde (hopelijk) zal bevatten.
Betrouwbaarheidsinterval:
▪ Een interval dat de meest geloofwaardige waarden van een parameter bevat
▪ Betrouwbaarheidsniveau (confidence level) = de kans dat deze methode (manier van steekproeftrekking)
een interval produceert dat de parameter bevat
,Gedachte achter betrouwbaarheid
Hoeveel Netflix je, gemiddeld genomen?
▪ 𝑋 = gemiddeld aantal uur dat een random geselecteerde persoon Netflixt (dagelijks)
▪ Aanname:
- In de populatie is 𝑋 normaal verdeeld met standaarddeviatie 𝜎 = 2 uur
▪ Steekproefgrootte 𝑛 = 100
▪ Gevolg (CLS):
- Steekproefgemiddelde normaal verdeeld:
2
𝑋̅ ~𝑁 (𝜇, = 0,2)
√100
▪ Resultaat steekproef:
- Stel dat Steekproefgemiddelde 𝑥̅ = 3 (puntschatter)
- bij volgende steekproef kan je ander getal hebben, dus zit mate van onnauwkeurigheid in.
Dus als we het heel vaak doen dan hebben we het in 95 % van de gevallen goed. dan zit 𝜇 binnen het
interval. Je zegt. Met 95% betrouwbaarheid denken we dat 𝜇 ergens binnen dit interval valt.
Je zegt NIET met 95% zekerheid of 95% kans. Kans is niet gelijk aan betrouwbaarheid.
Gedachte achter betrouwbaarheid
Gedachte achter statistische inferentie:
▪ Wat zou er gebeuren op de lange duur, bij heel veel herhalingen
Twee mogelijkheden voor onze ene steekproef:
1. Het interval bevat het populatiegemiddelde 𝜇
2. Het interval bevat het populatiegemiddelde 𝜇 niet
95% betrouwbaarheid betekent:
We hebben dit interval verkregen met een methode die ons een correct resultaat geeft in
95% van de gevallen (als we het heel vaak zouden doen).
Opmerking:
▪ In dit voorbeeld: link met 68-95-99.7 regel
▪ Dit is een vuistregel en geeft geen exact resultaat
Vanaf nu: gebruik de normale verdeling om exactere grenzen te
gebruiken
▪ Tabel A – standard normal distribution
▪ 𝑍-scores in plaats van vuistregel
,Betrouwbaarheidsintervallen
Algemeen: 𝐶 BHI (betrouwbaarheidsinterval, confidence interval) voor een parameter
schatter ± margin of error
Schatter = Beste gok voor de parameterwaarde
Margin of error = Indicatie van de nauwkeurigheid van de schatter
▪ Gebaseerd op
1. variabiliteit van de schatter (via sampling distribution) en
2. betrouwbaarheid van de methode (betrouwbaarheidsniveau 𝐶)
BHI voor een populatiegemiddelde 𝜇
Algemene vorm 𝐶-BHI:
schatter ± margin of error
Schatter = beste gok voor populatiegemiddelde
▪ Steekproefgemiddelde 𝑋̅
𝜎
▪ 𝑋̅ is ongeveer 𝑁 (𝜇, ) (CLS)
√𝑛
Margin of error, bepaald door
𝜎
1. Variabiliteit: 𝜎𝑋̅ =
√𝑛
2. Betrouwbaarheid methode: 𝐶, onder de aanname van normale verdeling
,BHI voor een populatiegemiddelde
Voorbeeld 1
Populatie studenten:
▪ IQ-scores normaal verdeeld met 𝜎 = 15
SRS van 𝑛 = 10 studenten:
▪ Gemiddelde IQ in steekproef is 117
Wat is het 80% BHI voor het populatiegemiddelde?
Gegeven 𝑋 ~ 𝑁(𝜇, 𝜎 = 15) , 𝑛 = 10, 𝑥̅ = 117
Gevolg: 𝑋̅ is normaal verdeeld, ook nu 𝑛 zo klein is (CLS)
, BHI voor een populatiegemiddelde
Voorbeeld 2
In de populatie Nederlanders zijn de scores op een geheugentest (𝑋) rechtsscheef verdeeld met 𝜎 = 15.
In een random steekproef van 100 Nederlanders blijkt de gemiddelde score op de geheugentest 55 te zijn.
Wat is het 96% BHI voor het populatiegemiddelde?
Aanname:
Door de grote 𝑛 is steekproefgemiddelde vrijwel normaal verdeeld (CLS)
Gedrag van BHI
Gewenste eigenschappen BHIs:
▪ Hoge betrouwbaarheid
- Betekenis: Onze methode levert bijna altijd correcte antwoorden
- Keuze van onderzoeker
▪ Kleine margin of error
- Betekenis: Accurate schatting van de parameter
Hoe smaller het BHI, hoe nauwkeuriger de schatting van de parameter
Welke factoren bepalen de breedte van het BHI?
▪ Kritieke waarde 𝒛∗
- Kritieke waarde 𝑧 ∗ wordt bepaalt door de keuze van het betrouwbaarheidsniveau 𝐶
- Hoe kleiner 𝐶, hoe kleiner 𝑧 ∗ , hoe smaller het BHI
- Dit is vaak niet wat je wilt …
▪ Populatiestandaarddeviatie 𝜎
- Hoe kleiner 𝜎, hoe smaller het BHI
- Maar … 𝜎 is een kenmerk van de populatie en hier kun je (meestal) niets aan veranderen
▪ Steekproefgrootte 𝑛
- Hoe groter 𝑛, hoe kleiner 𝜎⁄ (kleinere variabiliteit), hoe smaller het BHI
√𝑛
Een kleinere margin of erro is smaller BHI
Een kleinere waarde C is smaller BHI
𝜎
𝑥̅ ± 𝑧 ∗
√𝑛
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller lisebouwsema. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $6.48. You're not tied to anything after your purchase.