Week 1
Toetsen en schatten
Schatten → op basis van een steekproef een gok doen over een waarde in een populatie.
- Als het gemeten wordt weten we de gemiddelde lengte (M) exact.
- Dit gemiddelde is ook onze beste gok voor de gemiddelde lengte van de populatie (µ)
- Dit is een schatting (estimation). Er blijft onzekerheid aanwezig.
Toetsen → vaststellen of de populatieparameter (waarschijnlijk) afwijkt van een verwachte
waarde.
→ beide vormen is binnen een steekproef.
Census → van alle eenheden een meting doen.
Steekproef fout / sampling error → het verschil tussen de schatting en het daadwerkelijke
meting. Op basis van te kleine steekproef schatting maken over gehele populatie, maar die
kan dus afwijken.
Populatieparameters schatten op basis van sample = als sample representatief is voor de
populatie dan kunnen we geïnformeerde gok doen over populatieparameter.
Verdeling van steekproefgemiddelden:
- Stel je voor dat ik alle mogelijke steekproeven van 5 studenten uit een populatie zou
trekken, en voor elke steekproef de gemiddelde lengte berekenen.
• Elke steekproef heeft een ander gemiddelde
• Er is een verdeling van steekproefgemiddelden
• De gemiddelde van ALLE steekproeven = het werkelijke populatiegemiddelde
• De standaardafwijking van deze sampling distribution (=steekproefverdeling)
kan je interpreteren als “de gemiddelde afwijking van steekproefgemiddelden
t.o.v. het populatiegemiddelde”.
• Dit heet de standard error, en het is een maat van onzekerheid over je
schatting. (verschil tussen M en µ)
• Deze kunnen we niet uitrekenen op basis van 1 steekproef.
• Standard error voor gemiddelde:
Steekproef is in Romeinse letters (geschatte waarde)
Populatie is in Griekse letters (werkelijke waarde).
Standaardafwijking → “gemiddelde” afwijking van observaties t.o.v. het gemiddelde. Geeft
weer hoe gespreid je data zijn. (s, σ, SD)
,Standard error → “gemiddelde” afwijking van steekproefgemiddelden tov het populatie
gemiddelde. Geeft weer hoe onzeker we zijn over onze schatting van het
populatiegemiddelde, op basis van de steekproef. (SE, Sem)
Steekproef is het meest representatief als een steekproef willekeurig wordt getrokken. Ze zijn
in de praktijk minder vaak representatief.
DF = n-parameters. Parameters is de onbekende informatie over de populatie, zoals
gemiddelde. Hoe hoger, hoe meer je met zekerheid kan zeggen, dus hoe hoger de df is, hoe
beter.
Betrouwbaarheidsinterval
Confidence intervals (betrouwbaarheidsinterval) → een ‘venster’ om de schatting,
gebaseerd waarbinnen de populatieparameter waarschijnlijk valt. De buitenwaarden (1.96)
hebben te maken met toetsen. Te
berekenen door het percentage dat
je in het betrouwbaarheidsinterval
wilt laten zien. -> SE x staartkans
Elke waarde buiten deze interval is
vergelijkbaar met de nulhypothese
en zou je kunnen verwerpen.
Wat heb je nodig om betrouwbaarheidsinterval te berekenen?:
1. Sigma (SD van populatie)
→ Als steekproef groter is dan 30 = normaal verdeeld = SEgem = sigma
→ Als steekproef kleiner is dan 30 = gebruik t-verdeling (ipv normaalverdeling)
2. Steekproefomvang; hoeveel n heeft steekproef
3. Z-waarde tabel (boek)
4. Steekproefgemiddelde
CI95 % = steekproefgemiddelde – 1.96 x SE (ondergrens)
CI95 % = steekproefgemiddelde + 1.96 x SE (bovengrens)
Bij een tweezijdige toets betrouwbaarheidsinterval van 95% en bij een eenzijdige toets een
betrouwbaarheidsinterval van 90%.
Voor een n > 30 en (.30 < pi <.70) (pi = populatieproportie) kunnen we vertrouwen op een
normale benadering van een steekproefverdeling. Als pi buiten dit bereik (.30; .70) valt, dan
is de steekproefverdeling scheef voor een kleine n, en hebben we minstens 10 observaties
nodig in ZOWEL de 0 ALS de 1 categorie voor een goede/ juiste benadering van de
steekproefverdeling door de normaalverdeling.
,Meetniveaus
Meetniveaus (NOIR)
- Nominaal → categorisch, verschilt enkel in naam (man/vrouw, provincies)
- Ordinaal → categorieën met volgorde (socio-economische status, gewicht, politieke
voorkeur)
- Interval → continu met betekenisvolle afstanden (intervallen). Een stap van 1 tot 2 is
even “groot” als een stap van 2 tot 3. Waarde 0 is hier geen indicaite van afwezigheid
gemeten variabele. (IQ, temperatuur in graden)
- Ratio → heeft een absoluut 0-punt, en daarom zijn verhoudingen ook betekenisvol.
(%, leeftijd, lengte)
- Continue variabelen (ratio/interval) →
steekproefgemiddelde als schatting
voor populatiegemiddelde.
- Discrete variabelen
(nominaal/ordinaal) →
steekproefproportie van mensen met
bepaald kenmerk als puntschatting voor
populatiegemiddelde. Dichotome
variabelen vallen hier ook onder.
Puntschattingen
Puntschattingen voor gemiddelde/Prop, in de populatie = steekproefgemiddelde/prop.
- DESCRIPTIVES
- MEANS
- FREQ/STAT
- EXAMINE
Andere schattingen voor centraliteit zijn de puntschattingen Mediaan en Modus ook heel
interessant.
Mediaan het beste bij continue variabelen
Modus het beste bij discrete variabelen
, Toetsen stappenplan
Toetsen → omdat we geen data over de hele populatie hebben is het onmogelijk om de hele
populatie te testen. Wat is de kans om data te observeren die ‘minstens zo extreem zijn’ als
onze steekproef, ALS de nulhypothese waar zou zijn dat het populatiegemiddelde 0 nul is?
P(data|H0). (Voor een gemiddelde)
1. Assumpties
Als n groter is dan 30, dan is de kans groot dat ie normaal verdeeld is. Interval
variabele is dan dus M en 𝑆 2 zijn relevant.
2. Hypotheses formuleren (= toetsbare verwachting over populatieparameter)
H0: het populatiegemiddelde is kleiner of gelijk aan 0 (geen effect)
Ha: het populatiegemiddelde is groter dan 0 (wel effect)
Eenzijdige hypothese of tweezijdige hypothese.
3. Test-statistiek berekenen
a) Bereken gemiddelde van variabel M
b) Bekijk standaarddeviatie van variabel SD, s.
c) Bereken standaardfout SE
𝑠
Formule standaardfout: 𝑆𝐸 =
√𝑛
d) Bereken Z-waarde
Formule Z-waarde:
Deze beschrijft hoeveel standaarderrors het steekproefgemiddelde afligt van het
gemiddelde onder de nulhypothese. > Het cijfer van de Z-waarde zegt hoeveel
standaardfouten het gemiddelde van de steekproef valt boven het gemiddelde van de
populatie die wordt gespecificeerd onder de H0.
4. P-waarde uitrekenen
➢ Kans op deze data is nog extremer als H0 waar is.
➢ Bij eenzijdige hypothese en data in de goede richting (P-waarde/2). Bij eenzijdige
hypothese en data in de verkeerde richting (1 - P-waarde). Bij tweezijdige
hypothese (gewoon P-waarde).
5. Conclusie trekken over H0.
Hypothese
Hypothese → een toetsbare verwachting
over een populatieparameter.
Ha: alternatieve hypothese; wat we denken
dat er echt aan de hand is. Er is hier een
verband.
H0: nulhypothese; er is niks aan de hand.
Geen verband aanwezig. Sluit de
alternatieve hypothese uit.
➢ Toetsen = We proberen de
nulhypothese te verwerpen.
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller sophiedelfgaauw. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $7.95. You're not tied to anything after your purchase.