Craig, B: Introduction to the Practice of Statistics
Dit is een samenvatting van het vak statistiek 1B. De samenvatting bevat de stof uit alle colleges met aanvullingen van het boek. Het is een uitgebreide samenvatting met belangrijke begrippen en methodes voor het opstellen van BHI's en significantietoetsen. Ook zijn er een aantal plaatjes ter verdu...
Statistiek gedeelte van Methoden en Technieken van onderzoek & onderdelen van tentamen
Alles voor dit studieboek (6)
Geschreven voor
Rijksuniversiteit Groningen (RuG)
Psychologie
Statistiek 1 B (PSBA108)
Alle documenten voor dit vak (7)
Verkoper
Volgen
Anoniem180
Ontvangen beoordelingen
Voorbeeld van de inhoud
Statistiek 1B les 1 14/10/2022
Statistische inferentie: op basis van steekproef iets willen zeggen over de hele populatie. De
steekproef is een klein stukje van de populatie en daar baseren we dan onze conclusies op over de
hele populatie. Kenmerken van de steekproef beschrijven we met statistics (Latijnse letters,
steekproefgemiddelde x -, steekproefproportie p^). Kenmerken van de populatie beschrijven we met
parameters (Griekse letters, populatie gemiddelde , populatie proportie p). Dus wat we willen doen
is op basis van de kenmerken in de steekproef (statistics) willen we voorspellingen maken over
kenmerken van de populatie (parameters). Het doel van statistische inferentie is: conclusies trekken,
beslissingen nemen, voorspellingen maken over een populatie op basis van steekproefresultaten.
Methodes voor statistische inferentie gebruiken kansrekening waarbij random sampling of een
random experiment verondersteld wordt. Dus bij methodes voor statistische inferentie worden altijd
steekproeven gebruikt waarin een random element zit, bijv. doordat er een SRS getrokken wordt,
dan gebruiken we kansrekening. Als we een SRS uit de populatie trekken, dan heeft iedereen een
gelijke kans om in de steekproef te komen, dus dan zit er een bepaald kans element in. De
kansrekening verwijst naar een sampling distribution (steekproefverdeling) van een statistic, vaak
een normale verdeling. Checken aannames: inspecteren van je data door het maken van plots en
summary statistics.
Als we iets willen zeggen over de populatie op basis van de steekproef, onderscheiden we twee
belangrijke methodes:
- Betrouwbaarheidsintervallen (= schatten van waarde van een parameter (kenmerk in de
populatie) op basis van de statistic van de steekproef)
- Significantietoetsen (= het verkrijgen van bewijs tegen een bepaalde claim waardoor we
afstand kunnen doen van een bepaalde hypothese).
Er zijn dus twee methodes, betrouwbaarheidsintervallen en significantietoetsen, maar er is niet 1
“correcte” inferentiële methode, er zijn twee verschillende aanpakken:
- Frequentistische aanpak: verzekert ons dat we correcte conclusies trekken voor een vast
percentage van onderzoeken, op de lange termijn (in the long run).
- Bayesiaanse aanpak: we zoeken bewijs in een data set voor een bepaalde hypothese.
De bovenste aanpak domineert in de psychologie. In deze aanpak willen we bewijs verzamelen tegen
een hypothese. In de bayesiaanse aanpak wil je bewijs vinden voor een bepaalde hypothese. We
kunnen heel vaak met beide aanpakken dezelfde conclusie trekken maar we gebruiken vooral de
frequentistische aanpak.
BHI’s en significantietoetsen: beide methoden zijn gebaseerd op de steekproefverdeling van statistics
(sampling distributions van statistics). Deze steekproevenverdeling zet alle mogelijke uitkomsten van
alle mogelijke steekproeven op een rij, en hierbij kun je dan zien wat de kans is op elke mogelijke
uitkomst. Die steekproevenverdeling is de basis voor BHI’s en significantietoetsen. We moeten weten
wanneer we de steekproefverdeling kunnen gebruiken. Voorwaardes voor sampling distributions
zijn:
1. We moeten een probability model voor de data hebben (onze data moet op een bepaalde
nette manier verzameld zijn).
2. Betrouwbaar model properly randomized design (bijv. gebruik maken van SRS)
3. Problematisch: geen SRS (voluntary response samples, confounded experiments, etc.).
Basis: sampling distributions
Wat gebeurt er als je een methode heel vaak herhaald? Dan val je terug op de centrale limiet
stelling (CLS) als n groot is, dan is de steekproefverdeling (sampling distribution)
,van het steekproefgemiddelde X ongeveer normaal verdeeld met gemiddelde dat gelijk is aan en
standaarddeviatie die gelijk is aan /n. Dit geldt altijd, ongeacht de vorm van de populatieverdeling.
Ook al is de populatieverdeling scheef, dan zal het steekproefgemiddelde altijd ongeveer normaal
verdeeld zijn als je een SRS trekt, een eindige standaarddeviatie hebt en een voldoende grote n hebt
(hoeft niet extreem groot te zijn, bij n=10 kan dit al). Als onze variabele x perfect normaal verdeeld is,
dus XN(, ), dan is het steekproefgemiddelde X exact normaal verdeeld, ook bij een kleine n.
Onrealistische aannames die we maken in H6:
1. SRS uit de populatie trekken waarin we geïnteresseerd zijn. Hierbij zijn geen te problemen als
non-response etc.
2. We hebben een normale populatieverdeling N(, ). (Onrealistisch want sommige variabelen
zijn inderdaad normaal verdeeld, maar er zijn ook variabelen die niet normaal verdeeld zijn).
3. Populatiegemiddelde is onbekend, maar de populatiestandaarddeviatie is wel bekend.
Deze setting is te simpel om realistisch te zijn. De eerste aanname blijft altijd staan, van die andere
twee doen we later afstand.
Schatten met betrouwbaarheid
Wat is betrouwbaarheid? Stel je wilt het stressniveau bij studenten aan de RUG onderzoeken, dan
is de populatie alle studenten maar dit zijn er te veel om te onderzoeken. Dan neem je een SRS uit de
populatie en je berekent steekproefgemiddelde. Als je vervolgens een andere steekproef trekt, dan
krijg je ander resultaat. Hier gaat betrouwbaarheid over. Hoe goed kan je de waarde van een
parameter (populatie) schatten? Dus hoe goed kan je het populatie gemiddelde schatten? BHI
houdt dus in het schatten van de waarde van een parameter. Dus bijvoorbeeld het populatie
gemiddelde schatten. Hier hebben we twee soorten schatters voor:
- Puntschatter: een enkel getal dat onze ‘beste gok’ is voor de parameter (in het begin van dit
vak onze beste gok om het populatiegemiddelde te schatten het steekproefgemiddelde).
- Intervalschatter: een interval van mogelijke waarden dat de parameterwaarde (hopelijk) zal
bevatten. Hierbij heb je dus een interval rond het steekproefgemiddelde, en dit geeft dus
mogelijke waardes voor het populatiegemiddelde .
BHI: een interval dat de meest geloofwaardige waarden voor het populatiegemiddelde (parameter)
bevat. Bij een BHI hebben we altijd een bepaald betrouwbaarheidsniveau (confidence level) nodig.
Dit is de kans dat deze methode een BHI produceert dat ook echt het populatiegemiddelde bevat.
Hoe werkt zo’n BHI? Onderzoek hoeveel Netflix je gemiddeld genomen?
- X = gemiddeld aantal uur dat een random geselecteerde persoon netflixt (dagelijks).
- Aanname: in de populatie is X normaal verdeeld met een standaarddeviatie = 2 uur.
- Steekproefgrootte n = 100.
- Dan zien we als gevolg (CLS) dat ons steekproefgemiddelde ongeveer normaal verdeeld is
met gemiddelde gelijk aan en standaarddeviatie gelijk aan /n. XN(, 2/100 = 0.2).
- Als je dit onderzoekt vind je een gemiddelde van de steekproef van x = 3 en is 0.2.
Hoe kan je dan onderzoeken hoeveel er gemiddeld genomen genetflixt wordt (want als je andere
steekproef trekt kan het zijn dat je geen X = 3 vindt maar iets anders, want dit varieert)?
Dan vallen we terug bij betrouwbaarheid op de 68-95-99.7 vuistregel. Als je kijkt naar 95%
BHI, dan zien we dat 95% van de data binnen 2 standaarddeviaties van het gemiddelde
afligt. We hebben een standaarddeviatie van 0.2, als we dit keer 2 doen dan hebben we dus
ongeveer een kans van 0.95 dat X binnen 0.4 boven en onder het populatiegemiddelde ligt. Dus
ons steekproefgemiddelde ligt binnen 0.4 punten van ons populatiegemiddelde af. Dit is hetzelfde als
dat we kunnen zeggen dat binnen 0.4 punten van het steekproefgemiddelde afligt. Dus met 95%
zekerheid kunnen we zeggen dat ons populatiegemiddelde waarschijnlijk maximaal 0.4 punten onder
of boven het steekproefgemiddelde ligt. Dus het populatie gemiddelde ligt tussen 2.6 en 3.4, dit
,zijn geloofwaardige waarden. Dus wat we nu gedaan hebben is dat we een steekproefgemiddelde
van 3 hadden, dit is een hele goede gok maar hij rammelt een beetje want als je een andere
steekproef trekt kan je een net iets ander resultaat krijgen. Daarom willen we rekening houden met
dat die 3 een goede gok is maar niet perfect. Daarom willen we een interval om die 3 heen leggen
met geloofwaardige waardes voor het populatiegemiddelde waarvan we denken dat het
populatiegemiddelde daarin moet liggen. Dus, op de lange duur als we heel vaak een steekproef
trekken en elke keer een interval X 0.4 opstellen, dan zullen 95% van deze intervallen bevatten.
Je kan ook kijken naar 80% of 99% BHI, het hoeft niet per se 95% te zijn. Confidence level van 95%
zegt dat als we 100 steekproeven trekken, in 95% het populatiegemiddelde te pakken hebben en in
5% niet.
Bij betrouwbaarheidsintervallen en statistische inferentie gaat het over de lange duur, dus als we het
heel vaak herhalen. Bij elke steekproef hebben we twee opties:
- Interval bevat populatie gemiddelde wel
- Interval bevat populatie gemiddelde niet
We weten niet of onze steekproef een van de intervallen is die bevat of niet. 95% betrouwbaarheid
betekent dat we in 95 van de 100 intervallen wel het populatie gemiddelde te pakken hebt en in 5
niet. We hebben dit interval verkregen met een methode die ons een correct resultaat geeft in 95%
van de gevallen. 100% BHI zegt niets want dan zou je alle mogelijke waarden uit de populatie in je
interval moeten hebben die dan van – oneindig tot + oneindig loopt en dit zegt ons helemaal niets.
De 68-95-99.7 vuistregel geeft een ongeveer resultaat maar niet exact. Daarom is het beter om de
normale verdeling te gebruiken (tabel A) om exactere grenzen te gebruiken. We mogen die normale
verdeling ook gebruiken omdat we veronderstellen dat onze populatieverdeling normaal is. Dus we
gaan kijken in tabel A naar Z-scores om de grenzen van ons BHI vast te stellen.
BHI voor een populatiegemiddelde .
De algemene vorm van C-BHI is de schatter margin of error. De schatter is de beste gok
(puntschatter) voor het populatie gemiddelde. Als we het populatiegemiddelde willen schatten, dan
is ons steekproefgemiddelde X onze beste gok (schatter) voor het populatiegemiddelde. Uit CLS volgt
dat ons steekproefgemiddelde X is ongeveer normaal verdeeld is met gemiddelde en een
standaarddeviatie /n. Dus N(, /n) (CLS).
De margin of error geeft een indicatie van de nauwkeurigheid van de schatter, wordt bepaald door:
- Variabiliteit X = /n
- Betrouwbaarheid methode: C, onder de aanname van normale verdeling.
Dus we hebben een goede gok, onze schatter, het steekproefgemiddelde. Die heeft een bepaalde
standaarddeviatie die ons aangeeft hoe nauwkeurig onze gok is. Bij kleinere standaarddeviatie
hebben we veel nauwkeurigere uitkomsten dan bij een grote standaarddeviatie.
Als we kijken naar een normale verdeling en we hebben een kans C om tussen z*
standaarddeviaties boven en onder het gemiddelde terecht te komen. Als we kijken naar
een betrouwbaarheidsniveau van 95%, dan hebben we in het midden 95% van de data,
en in de staarten ligt 5% perfect symmetrisch over die staarten verdeeld. Als we dit
hebben, dan hebben we (1-0.95)/2 = 2.5% in beide staarten.
We weten uit CLS dat het steekproefgemiddelde X normaal verdeeld is met gemiddelde en
standaarddeviatie /n. Als we dan een BHI opstellen, dan hebben we een kans C dat X ligt tussen:
z* is een kritieke waarde.
Dat het steekproefgemiddelde X tussen die grenzen van het
populatiegemiddelde ligt is niet zo boeiend want dit kunnen we uitrekenen, we willen het weten
, voor de populatiegemiddelde . Wat hierboven staat is equivalent met: de onbekende parameter
ligt tussen:
Dus er is een kans C dat het interval x z*/n de ware waarde van omvat. Dan willen we het
populatiegemiddelde schatten. Als goede schatter voor de onbekende gebruiken we het
steekproefgemiddelde en we hebben een margin of error die gelijk is aan z* /n. We proberen dus
met een BHI ons steekproef gemiddelde te nuanceren (want het is een goede gok
maar niet perfect) door er een margin of error omheen te leggen. De kritieke waarde
z* geeft de grenzen van het BHI aan.
Dus, we hebben een populatie en we kiezen een bepaalde SRS van een bepaalde grootte n
met een onbekend gemiddelde en een bekende standaarddeviatie . Dan weten we dat
het C-BHI interval voor het onbekende populatiegemiddelde is:
Dit is de algemene
Waarbij z* de waarde van de standaardnormale verdeling is met een oppervlakte C binnen vorm van het BHI (de
de kritieke punten -z* en z*. Het betrouwbaarheidsniveau van het interval is exact C als de schatter de margin
populatieverdeling normaal is en is ongeveer C bij andere populatieverdelingen, als n of error).
voldoende groot is.
BHI opstellen voor een populatiegemiddelde.
Voorbeeld 1. Populatie studenten: IQ-scores normaal verdeeld met = 15. SRS van n = 10 studenten.
Gemiddelde van IQ is 117. Wat is het 80% BHI interval voor het populatiegemiddelde?
- Gegeven XN(, =15), n = 10, x = 117. Gevolg: X is normaal verdeeld, ook nu n zo klein is
(CLS). We willen een 80% BHI opstellen, dus dan ligt het grootte gedeelte van data (80%) in
het midden van de grafiek.
- Gezocht: 80% BHI voor : x z*/n met z* zodanig dat 80% van
oppervlakte onder de standaardnormaalverdeling ligt tussen -z* en z*.
- z* voor c = 80%, dus als we dit 80% BHI opstellen, in tabel A zoeken bij P = 0.9
(en 0.1) opzoeken, dan zie je z* waarden van (-)1.28. Dus 80% BHI voor :
1171.28 x 15/10 = 117 6.1.
- Conclusie: met 80% betrouwbaarheid ligt het populatiegemiddelde tussen 110.9 en 123.1.
Dus alle waarden in het interval zijn geloofwaardige waarden voor het populatiegemiddelde.
Hiermee hebben we ons steekproefgemiddelde van 117 genuanceerd. Als je naar linker staart kans
kijkt dan zie je dat die negatief is. Waarom is de z* (kritieke z waarde) 1.28? We willen een 80%-BHI
opstellen. Dan ligt de grote bups aan data (die 80%) in het midden van de grafiek. We weten dat het
gebied onder de curve 100% is. Als we uitgaan van een 80% BHI, dan is de overige 20% symmetrisch
verdeeld is over de twee staarten. Dit kan je ook berekenen met (1 - C-BHI)/ 2. Daarom zoek je de z-
waarden op voor 0.1 en 0.9. Je kan dit voor zowel de rechter als de linker staart doen, maar omdat ze
symmetrisch zijn is het gelijk. Kijk je naar de rechterstaart kans dan krijg je een positief getal, voor de
linkerstaart kans een negatief getal. Het positieve getal is het makkelijkst om mee te werken.
Voorbeeld 2. In de populatie Nederlanders zijn de scores op een geheugentest (𝑋) rechtsscheef
verdeeld met 𝜎 = 15. In een random steekproef van 100 Nederlanders blijkt de gemiddelde score op
de geheugentest 55 te zijn. Wat is het 96% BHI voor het populatiegemiddelde? Aanname: door de
grote n is steekproefgemiddelde vrijwel normaal verdeeld (CLS).
- Gegeven XN(, 15/100), n = 100, x = 55. 96% BHI voor : x z*/n met z* zodanig dat
96% van oppervlakte onder de standaardnormale verdeling ligt tussen -z* en z*.
- z* voor C = 96% is 2.05 (Tabel A voor P = 0.98 (en P = 0.02).
- 96% BHI voor : 55 2.05 x 15/100 = 55 2.05 x 1.5 = [51.9; 58.1].
- Conclusie: 96% zeker dat het populatiegemiddelde tussen 51.9 en 58.1 ligt.
Gedrag BHI
Gewenste eigenschappen BHI’s:
Voordelen van het kopen van samenvattingen bij Stuvia op een rij:
√ Verzekerd van kwaliteit door reviews
Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!
Snel en makkelijk kopen
Je betaalt supersnel en eenmalig met iDeal, Bancontact of creditcard voor de samenvatting. Zonder lidmaatschap.
Focus op de essentie
Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!
Veelgestelde vragen
Wat krijg ik als ik dit document koop?
Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.
Tevredenheidsgarantie: hoe werkt dat?
Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.
Van wie koop ik deze samenvatting?
Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper Anoniem180. Stuvia faciliteert de betaling aan de verkoper.
Zit ik meteen vast aan een abonnement?
Nee, je koopt alleen deze samenvatting voor €9,99. Je zit daarna nergens aan vast.