Craig, B: Introduction to the Practice of Statistics
In deze samenvatting komen de volgende onderwerpen aan de orde:
Steekproevenverdelingen; significantietesten, betrouwbaarheidsintervallen; t-procedures. De samenvatting is gebaseerd op hoofdstuk 6 en 7 uit het boek van Moore, McCabe en Craig.
Steekproevenverdelingen
Statistische gevolgtrekking tekent conclusies over een populatie of een proces op basis van
de data. De data is samengevat in statistieken (mean, proporties, etc.). Als data willekeurig is
verkregen is de statistiek een random variabele die de wetten van kansrekening
gehoorzamen. De steekproevenverdelingen zorgen voor een link tussen kansen en data.
Een steekproefverdeling laat zien hoe een statistiek zal variëren bij herhaaldelijke
dataproductie. Het beantwoordt de vraag “wat zal er gebeuren als we dit heel vaak deden?”
Eigenlijk is de steekproevenverdeling een soort kansverdeling van statistiek. En een
statistiek uit deze steekproevenverdeling (van een random sample) is een random variabele.
Populatieverdeling van een variabele is de verdeling van zijn waarde voor alle leden van de
populatie. De populatieverdeling is ook de kansverdeling van de variabele wanneer we 1
individu willekeurig kiezen uit de populatie.
Als er maar twee mogelijke uitkomsten zijn voor een random variabele kunnen we de
resultaten samenvatten door de telling voor een van de mogelijke uitkomsten te geven. “n”
(let op dit is een kleine letter n) presenteert de steekproefgrootte en x wordt gebruikt om de
random variabele aan te duiden die de telling geeft voor de uitkomsten waar in we
geïnteresseerd zijn. Bijvoorbeeld: een onderzoek naar -> “Voelen kinderen van ouders van
basisschool Q onder druk gezet door hun ouders?” n= 2000 (steekproefgrootte). X= het
aantal kinderen die zich “onder druk” voelen gezet X =840. Dus X is de random variabele
met de waarde van 840. Je had er ook voor kunnen kiezen om de waarde voor x te kiezen
uit de kinderen die zich niet onder druk voelde gezet. Meestal kies je “X” op die manier zoals
je de data wilt presenteren in je onderzoek en zoals je de samenvatting van je rapport wilt
schrijven.
Wanneer een random variabele twee uitkomsten heeft kunnen we een sample proportion
𝑥
gebruiken. → Als we 840 zouden delen door 2000 komt daar de proportie van 0.42 uit.
𝑛
Tellingen van steekproeven en steekproef proporties zijn gelijke statistieken.
De verdeling van de telling van x hangt af van hoe de data geproduceerd is. We zoomen
eerst in op een binominale setting:
1) Er is sprake van een binominale setting wanneer er een vaststaand nummer is voor
n (aantal observaties).
2) De n aantal observaties zijn allemaal onafhankelijk (de uitkomst van de ene
observatie beïnvloed niet de uitkomst van de daaropvolgende observaties).
3) Elke observatie valt in één of twee categorieën welke we voor het gemak “succes” of
“falen” noemen.
4) De kans voor succes (p) is gelijk voor elke observatie (je spreekt dus eigenlijk van
een trekking met terugleggen).
We noemen dit ook wel een binominale verdeling. De parameters in deze verdeling zijn “n”
(aantal observaties) en “p” (de kans op succes). De mogelijke waarden van x zijn bij deze
setting alle waarden van 0-n. We zeggen B(n,p) als we de verdeling willen samenvatten. Bij
een normaalverdeling is dit N(µ,σ). Dus als er staat B(3;0.25) is het aantal observaties 3 en
de kans op succes 0.25.
Een SRS kiezen is officieel niet echt een binominale verdeling. Want als je een steekproef
neemt uit de populatie verandert het aantal observaties en daarmee ook de kans op een
succes. Maar wanneer de populatie heel groot is en je neemt een grootte steekproef heeft dit
een zo kleine verwijdering van de daadwerkelijke populatie dat het is toegestaan de
binominale verdeling te gebruiken. Een vuistregel die we gebruiken in deze situaties is: we
, gebruiken de binominale verdeling voor tellingen waarbij de populatie op zijn minst 20 keer
groter is als de sample.
Voor het vinden van binominale kansen gebruiken we software en tabellen (voor kleine
observaties).
Let op: er zit een verschil in de kans voor De verwachtingswaarde voor de
P(x=10) en P(x<10). De kans op precies 10 binominale verdeling vind je door:
is kleiner dan P(x<10). Want bij de laatste n * p = verwachtingswaarde
tellen we alle kansen van P(x = 0-10) mee. Je vindt de spreiding door de formule:
σx=√𝑛 ∗ 𝑝 ∗ (1 − 𝑝)
De variantie vindt door dezelfde formule maar zonder de wortel van de vergelijking te nemen.
Steekproefproporties vind je door de tellingen van successen in de steekproef te delen
door de grootte van de sample. Let hierbij goed op dat de proportie anders is dan de telling
van x. De telling van x is namelijk altijd een nummer tussen 0 en n terwijl de proportie altijd
een getal tussen 0 en 1 is.
Het gemiddelde (mean) en de standaarddeviatie (SD) van een steekproef proportie zijn als
volgt: laat de proportie die je berekent door de “telling van successen in de steekproef te
delen door de grootte van de sample” laat die je steekproefproportie zijn van successen in
een SRS van grootte n getrokken uit een grote populatie met p voor successen. Dan is:
µ^p = p (het gemiddelde is dus de kans op succes)
1−𝑝
σ^p = √𝑝 ∗ 𝑛
Deze formules gebruiken we wanneer de populatie op zijn minst 20 keer zo groot is als de
steekproef. ^p is eigenlijk een taxateur voor de populatie met proportie p aan successen.
Normaalverdeling bij tellingen en proporties
Een steekproefproportie ^p ligt dichtbij “normaal”. Nu weten we dat de verdeling van ^p een
binominale telling is verdeeld over de steekproefgrootte n. Als de steekproefgrootte toeneemt
komt de normale benadering meer naar voren (de verdeling verandert naar een
normaalverdeling als de steekproefgrootte toeneemt). Een steekproevenverdeling (let op:
dit is anders dan een steekproefverdeling) maak je door telkens uit de populatie een
steekproef te nemen van dezelfde grote en alle steekproef proporties te verzamelen in één
nieuwe verdeling. Een steekproevenverdeling kan (bij een grote n) worden benaderd met de
regels van een normaalverdeling. Dit komt omdat het steekproefgemiddelde vaak minder
verspreid is dan de verdeling van individuele uitkomsten.
Tellingen en proporties zijn discrete random variabelen die categorische data omschrijft.
Continue waarden omschrijven vaak kwantitatieve data. Het steekproef gemiddelde,
percentages, SD zijn voorbeelden van statistieken gebaseerd op kwantitatieve data.
Steekproefgemiddelden zijn gemiddelde van observaties. Ze zijn ook de meest voorkomende
statistieken. Ze zijn populair omdat je ze kunt onderwerpen aan de regels van de
normaalverdeling. Daardoor zijn ze bijvoorbeeld gemakkelijk te gebruiken om een
betrouwbaarheidsinterval te geven, of een area te berekenen door middel van de Z- scores.
Het steekproefgemiddelde (mean) is net als ^p een schatting van het gemiddelde van de
populatie (µ). Een steekproef gemiddelde van een SRS van grootte n bereken je als volgt:
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller ReneeMWD. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $3.64. You're not tied to anything after your purchase.