Een uitgebreide, duidelijke samenvatting van de leerstof van het vak Statistische Modellen voor Communicatieonderzoek (SMCO) van de bachelor communicatiewetenschap aan de UvA. Elk hoofdstuk uit de Engelse syllabus 'A Gentle but Critical Introduction to Statistical Inference, Moderation, and Mediati...
Week 1 - Hoofdstuk 1
Om een geïnformeerde beslissing te maken over het betrouwbaarheidsinterval of de nulhypothese,
moeten we kenmerken vergelijken van de steekproef die we hebben getrokken met de kenmerken van
de steekproeven die we hadden kunnen trekken.
De kenmerken van de steekproeven die we hadden kunnen trekken noemen we de
steekproevenverdeling.
In dit hoofdstuk simuleren we steekproevenverdelingen om te begrijpen wat ze zijn. Hier betekent
simuleren dat we een computer vele willekeurige steekproeven laten trekken van een populatie.
§1.1 Statistische inferentie
Statistiek is een gereedschap voor wetenschappelijk onderzoek. Het biedt een aantal technieken om te
controleren of beweringen over de observeerbare wereld (de empirische realiteit) worden ondersteund
door verzamelde data. Wetenschappelijke theorieën streven naar algemene beweringen, dat zijn
beweringen die toepasbaar zijn op meerdere situaties.
De grote set observaties waarover we een bewering willen doen, wordt de populatie genoemd.
De kleinere set observaties noemen we een steekproef.
→ We willen een bewering over de steekproef generaliseren naar een bewering over de populatie
waaruit we een steekproef trekken.
§1.2 Een discrete random variabele
Het aantal gele snoepjes in een zak is een voorbeeld van een sample statistic (steekproefuitkomst): een
getal dat een kenmerk van de steekproef beschrijft. Elke zak, dus elke steekproef, heeft een uitkomst
score op het sample statistic. Alle mogelijke uitkomsten vormen de sampling space
(steekproefruimte). Een zak snoepjes kan 0 tot en met 10 gele snoepjes bevatten. 0 tot en met 10 zijn
dus de sampling space van het sample statistic ‘aantal gele snoepjes in een zak’.
Het sample statistic wordt een random variabele genoemd.
- Het is een variabele omdat het een uitkomst score aan een steekproef toewijst en verschillende
steekproeven verschillende scores kunnen hebben.
- Het is een random variabele omdat de score afhangt van kans, namelijk de kans dat bepaalde
elementen worden getrokken tijdens het random steekproeftrekken.
Steekproevenverdeling
Sommige sample statistic uitkomsten komen vaker voor dan andere uitkomsten. We kunnen dit zien
als we heel veel random steekproeven trekken van een populatie en de frequenties van alle
uitkomstscores verzamelen in een tabel of grafiek. We noemen de verdeling van de uitkomstscores van
heel veel steekproeven een steekproevenverdeling.
Wat is de kans dat we een steekproef trekken met vijf gele snoepjes? Deze kans hangt af van het
aandeel gele snoepjes in de populatie van alle snoepjes.
We kunnen de verdeling van alle steekproeven gebruiken om te berekenen wat de kans is dat je een
zak koopt met precies vijf gele snoepjes. We verdelen dan het aantal steekproeven met vijf snoepjes
door het totaal aantal steekproeven dat getrokken is.
Als we de frequenties in de steekproevenverdeling veranderen in proporties, krijgen we de
kansverdeling van het sample statistic. Een sampling space met een kans voor elke uitkomst in de
sample statistic.
1
,Een discrete kansverdeling geeft maar een bepaald aantal mogelijke uitkomsten. Het is uitvoerbaar
om de kans van elke uitkomst apart op te schrijven.
De steekproevenverdeling als een kansverdeling brengt hele belangrijke informatie over. Het vertelt
ons welke uitkomsten we kunnen verwachten, dus hoeveel gele snoepjes we kunnen vinden in onze
zak met tien snoepjes.
We kunnen naar kansen verwijzen als
- Proporties: dat is een getal tussen de 0 en 1
- Percentages: een getal tussen 0% en 100%
Verwachte waarde
We hebben nog niet gedacht aan de waarde die we het meest waarschijnlijk tegenkomen in de
steekproef die we gaan trekken. Intuïtief gezien moet het verwant zijn aan de verdeling van kleuren in
de populatie van snoepjes waaruit de steekproef getrokken wordt.
Als in de populatie 0,20 is (20%), dan verwachten we dat een van de vijf snoepjes in onze steekproef
geel zal zijn. Dit is de verwachte waarde.
→ De verwachte waarde van de proportie van gele snoepjes in de steekproef is gelijk aan de proportie
gele snoepjes in de populatie.
De verwachte waarde van een random variabele is dus het gemiddelde van de steekproevenverdeling
van een random variabele.
De steekproevenverdeling is een voorbeeld van een kansverdeling, dus de verwachte waarde is het
gemiddelde van een kansverdeling. De verwachte waarde wordt ook wel de verwachting van een
kansverdeling genoemd.
De verwachte waarde van de proportie gele snoepjes in de zak (sample statistic) is gelijk aan de ware
proportie van gele snoepjes in de snoepfabriek (population statistic). De steekproefproportie is dus een
unbiased estimator van de proportie in de populatie.
→ Een sample statistic is een unbiased estimator van het population statistic als de verwachte waarde
gelijk is aan het population statistic (parameter).
Als we het aantal snoepjes in de populatie (parameter dus) willen schatten door het aantal in de
steekproef, zullen we dit aantal waarschijnlijk onderschatten. Dan is de schatting downward biased.
→ Daarom gebruiken we de proportie als unbiased estimator.
Representatieve steekproef
Omdat het aandeel gele snoepjes in de populatie de kans op een geel snoepjes vertegenwoordigt,
verwachten we dat 20% van onze snoepjes geel zullen zijn. We verwachten dat een random steekproef
lijkt op de populatie waaruit hij getrokken is.
Een steekproef is representatief voor een populatie wanneer de variabelen in de steekproef op
dezelfde manier zijn verzameld als in de populatie. We verwachten in ieder geval dat het representatief
is, dus noemen we het in principe representatief voor de populatie.
§1.3 Een continue random variabele
Nu kijken we naar een andere variabele; het gewicht van snoepjes in een zak.
Continue variabele
Gewicht is een continue variabele, omdat je altijd kunt denken aan een nieuw gewicht tussen twee
andere gewichten. Als je kunt denken aan een nieuwe waarde tussen twee waarden, is het continu.
2
,We zijn geïnteresseerd in het gemiddelde gewicht van alle snoepjes in onze steekproef-zak, dus
gemiddeld gewicht van het snoep in onze steekproef-zak is ons belangrijkste sample statistic. We
willen dit sample statistic gebruiken om iets te zeggen over gemiddeld gewicht van snoepjes in de
populatie van alle snoepjes.
Het steekproefgemiddelde is een unbiased estimator van het populatiegemiddelde, dus het gemiddelde
gewicht van alle snoepjes in de populatie is het gemiddelde van de steekproevenverdeling.
P-waarde
Wanneer we willen kijken naar de kans op een steekproef met een bepaald gewicht van snoepjes,
komen we in de problemen met een continue sample statistic. De kans op een steekproef-zak met een
gemiddelde van 2,8 gram is heel klein, aangezien 2,801 hier niet onder valt.
→ Zo worden alle kansen op de mogelijke uitkomsten ongeveer 0.
Dit lossen we op door te kijken naar een serie van waarden, in plaats van een enkele waarde. Zo kun je
bijvoorbeeld kijken naar de kans op een steekproef-zak met een gemiddeld gewicht van maximaal of
minimaal 2,8 gram. Je kiest dus een drempel.
Ook kun je twee drempels vaststellen, door bijvoorbeeld te kijken naar een gemiddeld gewicht dat ligt
tussen de 2,75 en 2,85 gram.
De waarschijnlijkheid van waarden tot en met de drempelwaarde, of de drempelwaarde en hoger, zijn
de P-waarden.
- Left-hand p-waarde: De kans op waarden tot en met de drempelwaarde.
- Right-hand p-waarde: De kans op de drempelwaarde of hoger.
→ De waarden bij elkaar komt altijd uit op 1.
§1.4 Slotopmerkingen
Waarschijnlijk het meest verwarrende aspect van steekproevenverdelingen is het feit dat steekproeven
onze cases zijn en de steekproefkenmerken onze observaties. In een steekproevenverdeling observeren
we steekproeven en meten we een steekproefkenmerk als de variabele. Elke steekproef voegt een
observatie toe aan de steekproevenverdeling.
In ons eerste voorbeeld is het sample statistic een proportie, namelijk de proportie van gele snoepjes.
Het wordt wat ingewikkelder als we geïnteresseerd zijn in een steekproefgemiddelde, zoals het
gemiddelde gewicht van snoepjes in een snoepzak.
We hebben gemiddelden op drie verschillende niveaus:
1. De populatie
2. De steekproevenverdeling
3. De steekproef
De steekproevenverdeling is een verdeling van steekproefgemiddelden, maar heeft zelf ook een
gemiddelde, namelijk de verwachte waarde of de verwachting. Het gemiddelde van de
steekproevenverdeling is het gemiddelde van het gemiddelde gewicht van snoepjes uit alle steekproef-
zakken.
3
, A Gentle Intro – W. de Nooy
Week 2 - Hoofdstuk 2
Hoe krijgen we een steekproevenverdeling zonder heel veel steekproeven te hoeven trekken? Dit
hoofdstuk geeft drie manieren waarop we dit kunnen doen: bootstrappen, exacte benaderingen en
theoretische benaderingen.
§2.1 Bootstrappen
De eerste manier is nog steeds gebaseerd op het idee van een groot aantal steekproeven trekken. Echter
trekken we maar één steekproef uit de populatie waarvoor we data verzamelen. Vervolgens trekken we
veel steekproeven uit de originele steekproef. Deze steekproeven heten bootstrap samples. We willen
meestal zo’n 5000 bootstrap samples voor onze steekproevenverdeling.
Zonder terugleg
Als we ervoor zorgen dat elke case in de originele steekproef maar één keer getrokken mag worden,
dan bevat elke bootstrap sample alle cases van de originele steekproef, waardoor het een exacte kopie
wordt. Zo kun je dus geen verschillende bootstrap samples creëren.
In echt onderzoek werken we zonder terugleg, omdat je maar één keer dezelfde respondent wil
interviewen.
Met terugleg
Als we het wel toestaan dat een case vaker dan één keer mag worden getrokken, kan een bootstrap
sample afwijken van een ander. Zo verkrijg je dus verschillende bootstrap samples uit de originele
steekproef, maar zijn de bootstrap samples toch even groot als de originele steekproef.
De kans dat je een geel snoepje pakt, als 20% van de snoepjes geel is, is 0,2. De kans dat je hierna nog
een geel snoepje pakt, is weer 0,2, omdat we werken met terugleg.
In een empirische studie selecteren we respondenten zonder terugleg, maar onze software behandelt
onze steekproef alsof we met terugtrekken hebben geselecteerd, omdat het zo’n klein verschil is bij
een grote steekproef.
Voordelen bootstrappen
Een steekproef is waarschijnlijk representatief voor de populatie als hij op een willekeurige manier
getrokken is en als de steekproef groot is.
Als de originele steekproef niet zo groot is, weten we bijna zeker dat de bootstrap verdeling niet op de
werkelijke steekproevenverdeling zal lijken.
Een groot voordeel van bootstrappen is dat we een steekproevenverdeling kunnen maken voor bijna
elke sample statistic. Elke statistic die je kan berekenen voor je originele steekproef, kun je ook
berekenen voor je bootstrapverdeling. Ook is bootstrappen ongeveer de enige manier om de mediaan
te berekenen, bijvoorbeeld het mediaan gewicht voor een zak snoepjes.
In principe kun je dus elke sample statistic bootstrappen. SPSS, echter, bootstrapt niet elk sample
statistic. Zo bootstrapt SPSS niet de minimum waarde, maximum waarde of de range tussen de
minimum en maximum waarde van een variabele.
4
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller annerensink. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $6.52. You're not tied to anything after your purchase.