Samenvatting:
Statistische Modellen voor Communicatieonderzoek (SMCO)
Hoofdstuk 1: Steekproevenverdeling
Belangrijke concepten: inferentiële statistiek, generalisatie, populatie, random
(aselecte) steekproef, steekproefuitkomst/-grootheid, steekproefruimte, random
variabele, steekproevenverdeling, kans, kansverdeling, discrete kansverdeling,
verwachte waarde, zuivere schatter, parameter, onzuiver, representatieve
steekproef, continue variabele, continue kansverdeling, kansdichtheid, (links-
eenzijdige, rechts-eenzijdige) p-waarde
1.1. Statistische inferentie
Dataverzameling is kostbaar, zowel in tijd als in geld. Er wordt daarom gestreefd
om met zo min mogelijk data, alsnog conclusies te trekken over een zo groot
mogelijke groep.
Inferentiële statistiek: uitspraken doen over een grote set aan observaties
(populatie) aan de hand van data verkregen uit een kleinere set van observaties
(steekproef). Doel: het generaliseren van de uitkomsten van de
steekproefobservaties.
Statistische inferentie is traditioneel gezien de generalisatie vanuit data
verzameld in een random steekproef naar de populatie waaruit de steekproef
is getrokken.
1.2. Een discrete random variabele
Random steekproeven vanuit dezelfde populatie hoeven nooit noodzakelijk
identiek aan elkaar te zijn, maar ze kúnnen wel identiek zijn.
We zijn meestal geïnteresseerd in een specifiek karakteristiek van de steekproef
(vb: aantal gele snoepjes), en niet per se in de exacte samenstelling van elke
observatie in de steekproef.
Steekproefuitkomst/-grootheid (sample statistic): een waarde die een
karakteristiek van de steekproef beschrijft (vb: aantal gele snoepjes). Dit is een
random variabele, omdat er verschillende uitkomsten mogelijk zijn, waarbij de
uitkomst berust op kans.
Steekproefruimte (sampling space): alle mogelijke uitkomsten van de sample
statistic.
Steekproevenverdeling (sampling distribution): de verdeling van de
uitkomsten van heel veel steekproeven. De eenheden van een
steekproevenverdeling zijn steekproeven.
1
, Horizontale as: steekproefruimte
Linker verticale as: aantal steekproeven dat is getrokken
Rechter verticale as: de proportie van eerder getrokken steekproeven
met een specifiek aantal gele snoepjes (kans)
Kans (probability): de proportie van alle mogelijke steekproeven die we hadden
kunnen trekken die een x aantal gele snoepjes bevatten.
Als we de (absolute) frequenties in een steekproevenverdeling veranderen in
proporties (relatieve frequenties), verkrijgen we de kansverdeling (probability
distribution) van de steekproefuitkomst (sample statistic). Dit is een
steekproefruimte (tussen 0 en 1) voor iedere uitkomt van de sample statistic.
Discrete kansverdeling (discrete probability distribution): er is een beperkt
aantal uitkomsten mogelijk (vb: waarden mogelijk tussen 0 en 10, maar 7,3 is
niet mogelijk).
Verwachte waarde (expected value): is gelijk aan het gemiddelde van de
steekproevenverdeling van een random variabele. Dit is de waarde die verwacht
wordt wanneer een steekproef wordt getrokken. De verwachte waarde van de
proportie in de steekproef is gelijk aan de daadwerkelijke proportie in de
populatie.
Zuivere schatter (unbiased estimator): een steekproefuitkomst (sample
statistic) waarbij de verwachte waarde gelijk is aan de populatie-uitkomst
(parameter).
Onzuivere schatter: de verwachte waarde is ongelijk aan de parameter.
Neerwaarts (downward biased): te lage schatting.
Representatieve steekproef: wanneer de variabelen in een steekproef
hetzelfde verdeeld zijn als in de populatie.
Een random steekproef kan echter per toeval verschillen van de populatie, dus
de specifieke steekproef die is getrokken is gewoonlijk niet representatief voor de
populatie. We verwachten daarentegen alsnog dat hij representatief is. Daarom
zeggen we dat de steekproef in principe representatief is voor de populatie.
1.3. Een continue random variabele
Continue variabele: een variabele met een oneindig aantal uitkomsten (vb:
gewicht). Er is altijd een tussenliggende waarde tussen twee waarden mogelijk.
2
,Dit heeft tot gevolg dat alle kansen bij een continue variabele (bijna) gelijk zijn
aan 0 (vb: 3,081 wordt niet onder de kans op 3,08 geschaard). De kansverdeling
is dan logischerwijs heel saai.
Dit probleem wordt opgelost door naar een range waarden te kijken in plaats van
naar specifieke waarden. Hierbij wordt gebruikgemaakt van kansdichtheid
(probability density). Hierbij wordt met behulp van een curve (probability density
function) weergegeven hoe groot de kans is dat de waarde binnen twee
specifieke waarden valt.
P-waarde: de kans op een waarde. Alle kansen samen vormen altijd 1.
Links-eenzijdige (left-handed) p-waarde: de kans tot een bepaalde
drempel (links van een drempel).
Rechts-eenzijdige (right-handed) p-waarde: de kans vanaf een
bepaalde drempel (rechts van een drempel).
1.4. Concluderende opmerkingen
Onthoud: bij een steekproevenverdeling zijn steekproeven de analyse-eenheden
en steekproefkenmerken zijn de observaties (vb: aantal gele snoepjes).
Er zijn drie niveaus van gemiddelden:
1. Het gemiddelde van de populatie: het ware gemiddelde. Dit is meestal
onbekend.
Onderzoekseenheden: gele snoepjes
2. Het gemiddelde van de steekproevenverdeling: hoe meer steekproeven,
hoe dichter het gemiddelde in de buurt zal komen van het
populatiegemiddelde (= verwachte waarde). Hierbij ontstaat een normale
verdeling.
Onderzoekseenheden: steekproeven
3. Het gemiddelde van de steekproefverdeling: de uitkomst van één
steekproef uit de populatie.
Onderzoekseenheden: gele snoepjes
3
, Het gemiddelde van de populatie is gelijk aan het gemiddelde van de
steekproevenverdeling, aangezien dit een zuivere schatter is van de parameter.
De steekproevenverdeling is de verbinder tussen de steekproef en de populatie
en is essentieel om uitspraken over de populatie te doen op basis van een
steekproef.
4