Samenvatting Statistiek 3
H1 SMCO
Inferentiële statistiek biedt ons een p waarde en een betrouwbaarheidsinterval waardoor
we conclusies kunnen trekken.
Sampling distribution: de steekproevenverdeling. De verdeling die ontstaat na het trekken
van veel steekproeven.
Sampling space: alle waarden die je steekproef kan aannemen. Bv. 0-10 snoepjes.
De expected value ofwel de verwachte waarde is gelijk aan het gemiddelde van de
steekproef verdeling/ sampling distribution.
Als je heel veel steekproeven trekt weet je de populatiewaarde, Maaarrr hiervoor moet de
steekproef wel aan voorwaarden voldoen:
- Steekproef moet random zijn
- De sample statistic moet een unbiased estimator zijn: een zuivere schatter: wanneer
de verwachtte waarde gelijk is aan de populatiewaarde. Als een steekproefstatistiek
een zuivere schatter van een parameter is, is de parameterwaarde gelijk aan het
gemiddelde van de steekproevenverdeling, die de verwachte waarde of verwachting
wordt genoemd.
Daarnaast:
- Een steekproefdistributie ziet er wat anders uit als de statistic continuous is (alle
mogelijke waarden kan aannemen bv. gewicht en hierbij moet je gebruik maken van
probability density ipv van probabilities bij discreet
- Het is heel onpraktisch om duizenden steekproeven te trekken
Probability density: de kans dat een conitinue random variabele binnen een specifiek
interval ligt.
Continuous variable: We can always think of a new value in between two
values.
,Met een continue statistische waarden moeten we naar een reeks waarden kijken in plaats
van een enkele waarde. We kunnen zinvol praten over de kans op het hebben van een
monsterzakje met een gemiddeld snoepgewicht van minimaal 2,8 gram van maximaal 2,8
gram. We kiezen een drempel, in dit voorbeeld 2,8 gram, en bepalen de kans op waarden
boven deze drempel. We kunnen ook twee drempels gebruiken, bijvoorbeeld de kans op een
gemiddeld snoepgewicht tussen 2,75 en 2,85 gram. Dit is waarschijnlijk waar je aan dacht
toen ik een zak met 2,8 gram als gemiddeld snoepgewicht verwees.
Als we de waarschijnlijkheid van een enkele waarde, die we gebruikten om op de verticale as
af te beelden in een grafiek van een steekproevenverdeling, niet kunnen bepalen, en we
kansen moeten koppelen aan een reeks waarden op de x-as, bijvoorbeeld het gemiddelde
snoepgewicht boven/beneden 2,8 gram, hoe kunnen we kansen weergeven? We moeten
een kans weergeven als een gebied tussen de horizontale as en een curve. Deze curve wordt
een kansdichtheidsfunctie genoemd, dus als er een label is op de verticale as van een
continue kansverdeling, is dit "Kansdichtheid" in de plaats van "Waarschijnlijkheid".
Voor discrete steekproefstatistieken vertelt de steekproevenverdeling ons de
waarschijnlijkheid van individuele steekproefuitkomsten. Voor continue
steekproefstatistieken vertelt het ons de kansdichtheid, die ons de kans geeft om een
steekproef te trekken met een uitkomst die ten minste of ten hoogste een bepaalde waarde
is, of een uitkomst die tussen twee waarden ligt.
een right-hand probability specificeert een drempelwaarde en alle waarden die groter zijn.
Het betreft de rechter staart van de steekproevenverdeling.
Een probability density functie kan ons de kans geven op waarden tussen twee drempels.
Het kan ons ook de waarschijnlijkheid geven van waarden tot (en inclusief) een
drempelwaarde, die bekend staat als een left-hand probability, of de waarschijnlijkheid van
waarden boven (en inclusief) een drempelwaarde, die een right-hand probability wordt
genoemd. waarschijnlijkheid. In een nulhypothese significantietest (Hoofdstuk 4) worden de
rechter- en linkerwaarschijnlijkheden gebruikt om p-waarden te berekenen.
1 steekproef is niet representatief voor de populatie, daarom gebruiken we meerdere
steekproeven en zetten die in een steekproevenverdeling.
Sample statistic: steekproefgrootheid: een waarde die de sample beschrijft.
Random variabele: heeft telkens een andere uitkomst. (alleen een dobbelsteen met 6
vlakken met 6 erop is niet random.
Expected value: het gemiddelde van de steekproefverdeling van een kansvariabele
,H2 SMCO
Expected value = gemiddelde van de steekproefverdeling = true population value
Proportie berekenen: (Expected value/ gemiddelde van de steekproefverdeling/true
population value)/ maximale waarde van de sampling space
Er zijn drie manieren om een sampling distributie te krijgen wanneer je maar een steekproef
trekt: (1) bootstrapping (2) the exact approach (3) theoretical approximation
1. Bootstrapping: duizenden steekproeven trekken uit je eigen steekproef
Een bootstrapped sample moet even groot zijn als de originele sample.
Sampling with replacement: Ieder snoepje wordt teruggestopt in de zak bij het
trekken van een nieuwe steekproef, zo maken ze iedere keer evenveel kans om
getrokken te worden. Wanneer er gesampled wordt without replacement krijg je
alleen maar heel vaak dezelfde steekproef als de originele. Eigenlijk gebruik je je
enige getrokken steekproef als een soort minipopulatie.
LIMITATION/BEPERKING: een bootstrapped sampling distribution is alleen bruikbaar
als de originele steekproef ongeveer representatief is voor de populatie. Bij een grote
steekproef die random is getrokken is er meer kans op een representatieve
steekproef.
2. The exact approach werkt alleen voor categorische variabelen. Is heel intensief voor
je computer. Je berekent eigenlijk voor iedere mogelijke steekproef de kans dat deze
getrokken wordt. Dus je doet alle kansen van de variaties van de variabele X elkaar.
Een exacte aanpak / exact approach somt en telt alle mogelijke combinaties. Dit kan
alleen als we met discrete of categorische variabelen werken. Voor een onbeperkt
aantal categorieën kunnen we niet alle mogelijke combinaties opsommen.
Let op! Dit kan alleen berekend worden bij discrete of categorische variabelen anders
kan je de combinaties niet opsommen en berekenen.
3. Theoretical approximation: als de steekproef heel groot is, is het gemiddelde van de
steekproefverdeling normaal verdeeld. Je kan dan uitgaan van een normaal
verdeling. Er zijn voorwaarden opgesteld voor de minimale sample size of andere
requirements als voorwaarden om een theoretical approximation te gebruiken. Let
, op! De approximation blijft een benadering, geen zekerheid.
Bootstrappen in SPSS: Analyze – compare means – independent samples t test variabele
bij test variables, grouping variable: bv. Kleur define groups, bootstrap: perform
bootstrapping: number of samples: 5000. Set seed for Mersenne Twister. Confidence
interval: 95, Bias corrected accelerated continue, paste run
Bootstrap resultaten interpreteren in SPSS: T test: N: aantal per groep. Mean, standaard
afwijking en bijbehorende betrouwbaarheidsintervallen. Independent samples test: Levene’s
test for equality of variances F. Als Sig van F > 0.05 kan je ervan uitgaan dat de
populatievarianties gelijk zijn. Als Sig van t > 0.05 kan je ervan uitgaan dat er geen statistisch
verschil is in het gemiddelde van de verschillende groepen bv. de rode en gele snoepjes
wegen niet statisch significant anders dan elkaar. Bootstrap for independent samples test: je
krijgt het gemiddelde verschil tussen de groepen, en het betrouwbaarheidsinterval van de
bootstrap.
Als een betrouwbaarheidsinterval 0 bevat, kan je concluderen dat je niet weet of er een
positief of negatief verschil is tussen de groepen.
Een aandeel is gebaseerd op frequenties en frequenties zijn discreet (gehele waarden), dus
we kunnen een exacte benadering gebruiken om een steekproevenverdeling te maken voor
één deel, zoals het aandeel gele snoepjes in het bovenstaande voorbeeld. De exacte
benadering maakt gebruik van de binomiale kansformule om kansen te berekenen.
Er zijn ook exacte benaderingen beschikbaar voor de associatie tussen twee categorische
(nominale of ordinale) variabelen in een contingentietabel: komen sommige combinaties van
waarden voor de twee variabelen relatief vaak voor? Zijn gele snoepjes bijvoorbeeld vaker
plakkerig dan rode snoepjes? Als snoepjes plakkerig of niet plakkerig zijn en ze hebben een
van een beperkte reeks kleuren, dan hebben we twee categorische variabelen. We kunnen
een exacte kansverdeling maken voor de combinatie van kleur en plakkerigheid. De Fisher-
exact-test is een voorbeeld van een exacte benadering van de steekproevenverdeling van de
associatie tussen twee categorische variabelen.