1
SAMENVATTING TOETSENDE STATISTIEK
Opmerkingen
Formuleboekje nodig: vanaf p20
Tentamen: 1/3 open rekenvragen
2/3 kennisvragen
Afronden tussenantwoorden op 4 decimalen
Afronden eindantwoorden op 2 decimalen
Begrippen
S = standaarddeviatie/standaardafwijking van steekproef
σ = standaarddeviatie/standaardafwijking van populatie
x̄ = gemiddelde van steekproef
μ = gemiddelde van populatie
P-waarde = wat is kans dat we deze scores/gemiddelden vinden als H0 waar is
SPSS toets altijd 2zijdig:
-Als je eenzijdig P-waarde wil doe je ‘Sig. 2-tailed’ : 2
-Sig. = niet eenzijdig!!
-Ga bij zowel 1zijdig als 2zijdig uit van 0.05, en pas je p-waarde aan (:2 of x2)
Parametrische toets = eisen aan meting: normaal verdeeld, minstens intervalniveau (t-toets)
Non-parametrische toetsen = geen eisen meting: verdelingsvrije toetsen (binomiaal toets)
Meetniveaus belangrijk: bepalen welke toetsen je wel of niet kan uitvoeren met de variabelen
, 2
Hoorcollege 1 – Toetsen, 1 Groep (Z-toets voor 1 proportie & T-toets voor 1 gemiddelde)
Beschrijvende Statistieken > steekproef
Toetsende/Inferentiële statistiek > populatie
Soorten: 1. Schatten van populatieparameters obv gegevens uit steekproef
> Interval opstellen dat met bepaald betrouwbaarheidsniveau populatieparameter bevat
> Statistieken: puntschattingen en betrouwbaarheidsintervallen
2. Toetsen van hypothesen over populatieparameters obv gegevens uit steekproef
> Kans om steekproefwaarde/extremer vinden als populatieparameter weten/H0 waar is
> Statistieken: toetsingsgegevens en toetsingsresultaten
1. Betrouwbaarheidsinterval
Populatieparameter (p) heeft vaste/exacte/onbekende waarde
Steekproefwaarde (p̂ ) gebruikt als schatting met bepaalde onzekerheid
Betrouwbaarheidsinterval (BI of CI) om aangeven van precisie schatting/plausibele waarden
Op basis van
Puntschatting midden, interval daaromheen (gevonden proportie/gemiddelde/verschil) in
Kritieke grenzen behorend bij toetsingsgrootheid (T, Z, 99% = 2.58, 95% = 1.96, 90% = 1.65)
Alpha gebied buiten interval valt, kans fouten maakt (95%= 0.05/2= ROK 0.025, LOK 0.975, Z = 1.96)
Standaardfout (SE) van puntschatting
Houdbaarheid van aannamen (variabele normaal verdeeld, maar in werkelijkheid niet)
Se formule hangt af van gelijke of niet gelijke varianties
Bij herhaalde steekproeftrekking ligt in 100(1-α)% van gevallen p binnen grenzen van het interval
Werking
Steekproefgrootte n neemt toe neemt af
= SE kleiner (deelt door grotere n) groter (deelt door kleinere n)
= foutmarge kleiner (preciezere schatting) groter (minder precieze schatting)
= betrouwbaarheidsinterval smaller breder
99%-betrouwbaarheidsniveau
= meer zekerheid op correcte conclusie, schatting algemener en minder precies
= Interval breder, puntschatter in midden
= foutenmarge groter: hoe hoger betrouwbaarheidsniveau, hoe zekerder parameter in interval ligt
Voorbeeld:
Steekproef: Zaal met 120 studenten, 80 vrouwen
Steekproefproportie vrouwen: p̂ = 80/120 = 0.67
Wat dit over populatieproportie vrouwen (p)?
Bij alle mogelijke steekproeven zal gemiddelde steekproefwaarde
gelijk zijn aan werkelijke waarde in populatie
, 3
2. Toetsen hypotheses
Statistisch significantietoets beschermt tegen claimen van effect dat door toeval kan zijn ontstaan
Significantie is afhankelijk van steekproefgrootte n
>Klein/irrelevant effect kan in grote sample statistisch significant worden
OPFRISSER: Meetniveaus
Categorisch/kwalitatief: categorieën, cijfers toegekend maar geen betekenis, soms ordenen
1. Nominaal meetniveau | Identiteit
Onderscheid dmv ongeordende categorieën, verschillen in variabele uitdrukken (koud/warm)
Cijfers gebruikt als label, niet als wiskundige waarde
NIET rekenen, NIET vergelijken
Kleur ogen, geslacht, Persoon 1 Persoon 2 Persoon 3, rugnummers voetbalelftal, type religie
2. Ordinaal meetniveau | Identiteit + Rangorde
Onderscheid dmv geordende categorieën, verschillen geven info over relatieve verhoudingen
Cijfers gebruikt als label wbt omvang eigenschap
NIET rekenen, WEL vergelijken/ordenen
Opleidingsniveau, Likertschaal, Stokje 1 groot - Stokje 2 middel - Stokje 3 klein, tentamencijfer
Kwantitatief/numeriek: cijfers hebben betekenis, hoeveelheid/grootte van die variabele, rekenen
3. Interval meetniveau | Identiteit + Ordening + Kwantiteit
Gelijke afstand tussen opeenvolgende waarden, cijfers betekenis, vergelijken
Cijfers info over omvang/precieze hoeveelheid van verschillen tussen individuen
Arbitrair nulpunt = willekeurig punt van eigenschap
WEL rekenen + -, WEL vergelijken/ordenen, gemiddelde/bereik/omzetten
Optellen scores, thermometer: 0 graden is geen afwezigheid warm/koud
4. Ratio meetniveau | Identiteit + Ordening + Kwantiteit + Absolute 0
Gelijke afstand tussen opeenvolgende waarden, cijfers betekenis, vergelijken
Cijfers info over omvang/precieze hoeveelheid van verschillen tussen individuen
Absolute nul = persoon/object bestaat niet
WEL rekenen + - : x, WEL vergelijken/ordenen
Aantal kinderen echtpaar, lengte, km hardlopen
, 4
Z-toets | 1 proportie (obv p̂ uitspraken doen over p): 1 groep, nominaal
Stap 1 Assumpties (om te mogen generaliseren)
-Random steekproef
-Categorische variabele (dichotoom, nominaal)
-Steekproef groot genoeg (normaal verdeeld)
np 15 ≥ en n(1-p) ≥ 15 (n=steekproefgrootte, p=werkelijke proportie in populatie)
Stap 2 Hypotheses (obv populatiewaarde)
-H0 p = p0 altijd vanuit H0 waar, geen effect in populatie (mag niet zeggen H0 waar is)
-Ha p > p0 eenzijdig, P=ROK, H0 sneller verwerpen
p < p0 eenzijdig, P=LOK, H0 sneller verwerpen
p ≠ p0 tweezijdig, P=BEIDE ZIJDEN Px2
Stap 3 Toetsingsgrootheid (Z-score)
-Aantal SE (Z-score) ligt steekproefwaarde af van verwachte parameterwaarde onder H0
Se niet gelijk aan Se in BI, maar Se onder H0
+ positief = boven verwachte parameterwaarde
- negatief = onder verwachte parameterwaarde
Stap 4 P waarde (overschrijdingskans)
-Kans om gevonden/extreme Z-waarde vinden als H0 waar is
-P waarde van TG opzoeken in Z-tabel mbv KW Z*
-α hoort bij KW Z* = grootte kans H0 fout verwerpen
>Meestal 0.05/5%, kleinere α = H0 minder vaak verworpen
-Standaardnormaal verdeling (z-verdeling)
-P-waarde 0.493 = onder H0 in 49.3% gevallen x̄ vinden
die gelijk/extremer dan waarde die we nu hebben
Stap 5 Conclusie + terugkoppeling
TG z > KW z* = significant, verwerp H0
TG z < KW z* = niet significant, verwerp niet H0
P≤α = significant, verwerp H0
P>α = niet significant, verwerp niet H0