In dit document staan de aantekeningen bij alle colleges van het vak Statistische Modellen 1. Vrijwel alles wat behandeld is tijdens de colleges staat hier in.
College aantekeningen samengevoegd – Statistische modellen 1
Statistische modellen 1 – College 1a
Conclusie wordt vaak (onterecht) toegepast op een grotere groep (generalisatie) > hoe kan je
beschrijvende data omzetten naar generalisatie = statistische modellen 1
Inferentiële statistiek: datgene dat je kan concluderen/ generaliseren > wat voor conclusies kan je
verbinden aan statistische data > houdt zich bezig met generaliserende uitkomsten.
Populatie: groep waarvan onderzoeker eigenschappen wil weten (als je alle middelen tot je
beschikking zou hebben)
Parameter: numerieke samenvatting van eigenschap in populatie (gemiddelde score bv op adhd test)
Steekproef: subgroep uit populatie die onderzocht wordt
Statistic: numerieke samenvatting van eigenschap in steekproef
Kansrekening: gaat uit van random gebeurtenissen + voorspelt regelmaat op lange termijn van
random gebeurtenissen.
Kansverdeling: geeft aan wat er op de lange duur gebeurt. Steekproeftrekking ook een random
gebeurtenis.
Op basis van onze statistic maken we een inschatting van onze parameter.
Sampling distributions: hoe verschillende steekproeven verdeeld zijn
Steekproevenverdeling: kansverdeling die een kans aangeven voor iedere mogelijke uitkomst, vaak
normaal verdeeld (dus kunnen hiermee dingen uitrekenen)(behalve bij hele kleine
steekproefgrootte))+ Kan voor elke uitkomst maat (statistic)
Steekproefgemiddelde varieert over meerdere steekproeven > zijn zelf random variabelen met
verdeling > steekproevenverdeling van het gemiddelde (wat kan er uit de steekproeven komen als je
een gemiddelde berekend)
Stel je trekt heel vaak een steekproef uit een populatie, dan de volgende bevindingen:
1. Steekproefgemiddelden variëren minder dan de losse scores in populatie (in elkaar geduwd)
> verdeling van steekproefgemiddelden niet hetzelfde als verdeling van scores in populatie.
De variantie van steekproefgemiddelden is kleiner dan variantie van scores in populatie.
Gemiddelde van steekproefgemiddelden is hetzelfde als het gemiddelde van scores in
populatie.
2. Verdeling van steekproefgemiddelden is ‘meer’ normaal verdeeld dan de losse scores in de
populatie
Algemeen geldt: gemiddelde van steekproefgemiddelden (dus als je heel vaak een steekproef trekt)
is hetzelfde als het gemiddelde van scores in populatie, dus gemiddelde is ‘unbiased’. Daarnaast:
naarmate je n groter wordt, lijkt de verdeling van de steekproevenverdeling steeds meer op een
normale verdeling = centrale limietstelling (Central limit theorem) > Dit is zo omdat: je trekt veel
steekproeven, sommige gemiddelden zijn hoger en andere zijn lager dan het populatiegemiddelde en
de gemiddelde van al die steekproefgemiddelden komt uit op het populatiegemiddelde.
Altijd geldt:
, y
en
y y n
-
- Als de populatie exact normaal verdeeld is, is het steekproefgemiddelde exact normaal
verdeeld
- Als de populatie niet normaal verdeeld is, en n groot is, dan is het steekproefgemiddelde
ongeveer normaal verdeeld
Steekproef: 1 uitkomst (statistic) of spreiding binnen de groep: standaarddeviatie (sigma of s)
Steekproevenverdeling: oneindig veel uitkomsten
Spreiding: standaardfout (standard error) > hoe dicht hij bij je parameter is (0 = perfect) > maat voor
spreiding tussen steekproefuitkomsten > dus: hoeveel spreiding is er tussen statistics als ik heel vaak
een steekproef zou nemen > blijkt bij gemiddelde samen te hangen met standaarddeviatie:
y
y n > Dus: hoe groter je steekproef, hoe dichter steekproefuitkomsten bij elkaar komen te
liggen
Steekproevenverdeling nuttig want:
- Geeft inzicht in hoe bijzonder jouw ene uitkomst is
- Gebruikt om jouw uitkomst te vergelijken met andere mogelijke uitkomsten
- Hoe bijzonder is het wat ik gevonden heb? Had ik ook iets anders kunnen vinden?
,College 1b – Statistische modellen 1
Als je een steekproef trekt vind je een bepaalde uitkomst (statistic): bv. proportie, gemiddelde
lengte/verschil etc. De parameter kennen we echter niet > Dus:
Dan moeten we de populatiewaarde (parameter) maar schatten:
- Puntschatting (point estimate) > 1 specifieke waarde (je best mogelijke schatting is deze
waarde) (Dus bv. mijn beste schatting is 4 of 75%). VB: gemiddelde, mediaan, proportie, etc.
Hoe goed is je punt schatting?
Bias = er zit een structurele verdeling in een bepaalde richting (structurele vertekening)
dus de inschatting is in het algemeen een over/onderschatting door de opzet van je
onderzoek (bv. zelf inschatting, vraagstelling of een bepaalde bron (bv overlast hulplijn)).
o Unbiased estimator: geen structurele vertekening als je het heel vaak zou herhalen
(gemiddelde, proportie en standaarddeviatie over het algemeen (als je je onderzoek
goed uitvoert) ‘unbiased’)
o Biased estimator: structurele vertekening bij herhaling, bv. range (de hoogste – de
laagste) > bv. lengte Nederlanders (langste – kleinste). > snel een onderschatting,
kleine kans dat je en de kleinste en de grootste Nederlander erbij hebt.
In beide situaties is er bij 1 steekproef wel over/onderschatting mogelijk (maar niet perse
beide). Ook als er geen bias is, is er nog steeds een zekere mate van spreiding over
steekproeven heen (steekproeven (uitkomsten) variëren), heb je sowieso maar wordt
kleiner naarmate je n toeneemt > om een iets genuanceerdere uitspraak te kunnen doen
kijk je naar intervallen >
- Intervalschatting (interval estimate) > mijn best mogelijke schatting van een range van
waarden (serie van waarden), is … (Dus bv. waarschijnlijk ligt het tussen 5 en 7) > Meest
gebruikte intervalschatter:
Betrouwbaarheidsinterval (confidence interval) > basisidee: een C%-
betrouwbaarheidsinterval (bv. 95%-) dekt in C% (95%) van de intervallen de parameter >
dus: waarvan je hoopt dat in 95% van de gevallen de parameter hier binnen ligt > lijntjes
(verschillende steekproeven) die variëren rondom u (ken je eigenlijk niet) > je schatting is het
midden van ieder blauw lijntje (betrouwbaarheidsinterval, intervalschattingen). Dus: als je
heel veel onderzoeken doet, wil je dat in 95% van de gevallen, de u hierbinnen valt > Als je
heel vaak zo’n interval op zou stellen zou je in C% van je intervallen de parameter hebben.
Algemene vorm betrouwbaarheidsinterval: Puntschatting + of - foutenmarge.
Foutenmarge (margin of error) hangt af van percentage C, en van over welke uitkomst je het
hebt (gemiddelde, mediaan, etc.)
o Betrouwbaarheidsinterval voor proporties (een deel van het geheel dat een bepaalde
eigenschap heeft) > gevonden op basis van steekproef: puntschatting pi dakje ^π >
dakje staat voor schatting > dus: schatting vd populatieproportie (pi) op basis van de
steekproef (ook wel p genoemd). Hoe komen we nu op een intervalschatting? >
Nodig voor betrouwbaarheidsinterval (bhi) rond gevonden proportie: - Kennis over
wat er gebeurt als je heel vaak een steekproef zou nemen > =
steekproevenverdeling > theoretische verdeling (weten we wiskundig en uit eerder
onderzoek). We trekken maar één steekproef, maar gebruiken de kennis van een
steekproevenverdeling > hoe dicht liggen steekproeven bij elkaar (ongeveer een
, normale verdeling: middelste 95% ongeveer daarin
o Dus redenering bhi: als we weten wat er uitkomt als je heel vaak een steekproef zou
nemen, weet je ook hoe dicht je schatting meestal bij de parameter ligt > in de
meeste gevallen (95%) liggen we niet meer dan 2 standaardfouten (=
standaarddeviatie in de steekproevenverdeling) af van parameter (bij plaatje
steekproevenverdeling)
o Nu omgekeerde redenering: als ik weet dat 95% van de statistics niet verder dan 2
standaardfouten afligt van de parameter > dan: ligt de parameter in 95% van de
steekproeven niet verder dan 2 standaardfouten af van je statistic (als wij in 95% vd gevallen
binnen 5 km zijn van de docent, is de docent in 95% van de gevallen ook binnen 5 km van
ons) > Dus: als je rond iedere statistic een interval maakt, ligt 95% van die intervallen de
parameter > 95% betrouwbaarheidsinterval (C).
Steekproevenverdeling bij proporties: bij grote n: min of meer normale verdeling.
Standaardfout/deviatie (se) (hoeveel variëren steekproeven/proporties als je heel vaak een
π (1−π )
proportie neemt) : σ ^π =
√ n
Maar: pi kennen we niet (populatieproportie), oplossing: pi dakje invullen
Algemene bhi: puntschatting +- margin of error
> 95%-bhi bij proporties: pi dakje ^π (puntschatting) +- 1.96 (= 1.96 std fouten van de
π^ (1−^π )
parameter bij 95%) x
√ n
Naarmate n groter wordt, wordt het interval smaller ( > nauwkeuriger)
Wat als we een 99%-bhi willen? Aanpassen 1.96 > opzoeken in tabel A of B: z = 2.58.
π^ (1−^π )
Algemene formule: ^π ± z
n√
Voordelen van het kopen van samenvattingen bij Stuvia op een rij:
Verzekerd van kwaliteit door reviews
Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!
Snel en makkelijk kopen
Je betaalt supersnel en eenmalig met iDeal, creditcard of Stuvia-tegoed voor de samenvatting. Zonder lidmaatschap.
Focus op de essentie
Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!
Veelgestelde vragen
Wat krijg ik als ik dit document koop?
Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.
Tevredenheidsgarantie: hoe werkt dat?
Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.
Van wie koop ik deze samenvatting?
Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper elishavanderbij. Stuvia faciliteert de betaling aan de verkoper.
Zit ik meteen vast aan een abonnement?
Nee, je koopt alleen deze samenvatting voor €9,89. Je zit daarna nergens aan vast.