WEEK 1
Representativiteit = wanneer verdeling van onderzochte variabelen in steekproef hetzelfde is als in populatie
Stappen representativiteitstoets via Chi2 (ook mogelijk via frequentietabellen indien beschrijvende analysetechniek. Dan kijken bij ‘Valid
Percent’.
1. Tabel ‘Test Statistics’
H0: Verdeling van de steekproef is hetzelfde als de verdeling van de populatie = representatief.
Of: H0: De proporties in de steekproef zijn gelijk aan die in de populatie.
Ha: Verdeling van de steekproef is niet hetzelfde als de verdeling van de populatie = niet representatief.
Of: Ha: Tenminste n van de proporties uit de steekproef wijkt significant af van de proporties uit de populatie.
P < 0,30 H0 verwerpen. Het is goed als P > 0,30 is. Dan is het representatief.
2. Tabel ‘Naam variabele’
‘Residual’ positief = overrepresentatie Grote steekproeven (>400) tot 5% is verwaarloosbaar.
‘Residual’ negatief = onderrepresentatie Kleine steekproeven (=<400) tot 10% is verwaarloosbaar.
X2 (Df, N) = observed X2, p = …) ^ Deze percentages zijn ‘D%’ = verschil populatie en steekproef.
Chi2 handmatig berekenen
Hoe? Voor alle categorieën de volgende (en dezelfde) berekening en dan bij elkaar optellen:
(Geobserveerde frequentie – verwachte frequentie) 2
Verwachte frequentie
Stappen representativiteitstoets via t-toets
1. Tabel ‘One sample t-test’
H0: Verdeling van de steekproef is hetzelfde als de verdeling van de populatie = representatief.
Ha: Verdeling van de steekproef is niet hetzelfde als de verdeling van de populatie = niet representatief.
P < 0,30 H0 verwerpen. Het is goed als P > 0,30 is. Dan is het representatief.
2. Tabel ‘Naam variabele’
‘Residual’ positief = overrepresentatie
‘Residual’ negatief = onderrepresentatie
T (Df) = t-value, p = …)
Overig
Chi2toetsen p = 0,30 (of hoger) omdat je niet te snel wil besluiten dat verdeling in steekproef overeenkomt met verdeling in populatie. Zo
heb je minder kans op een type II fout (=Bèta. Hoe hoger Alfa, hoe lager Bèta) = H0 niet verwerpen terwijl dit wel moet.
Beschrijvende analysetechniek = frequentietabel, interval/ratio = percentage
Toetsende analysetechniek = Chi2, nominaal/ordinaal = p-waarde (=percentage delen door 100)
Chi2 = kruistabel
Z-toets = series waarden gebruiken = gebruik je wanneer N > 30
T-toets = series waarden gebruiken = gebruik je wanneer N < 30
1
, Missing data = missing value analysis = data opschonen waarna begonnn kan worden aan statistische procedures
Kun je checken bij: frequentietabellen, kruistabellen, metadata (data over data) in tabblad ‘Variable view’
Stappen (type en omvang) missing data random (=willekeurig) of non-random (=bewust geen antwoord/patroon)?
Negeerbaar non-respons/steekproef, routings en censored data/ontwerp.
1. Tabel ‘Univariate statistics’
‘Missing percent’ < 10% verwaarloosbaar. Dan is er sprake van MCAR.
Als antwoordcategorie ‘Weet niet’ ertussen staat, dan moet je dit opgeven als missing.
Stappen random missing data Missing at random (MAR) of Missing completely at random (MCAR)? = verhouding missing data bij
verschillende groepen
2. (1) Tabel ‘Separate variance T-test’ bij metrische waarden
‘P(2-tail)’ < 0,05
T > of = -/+ 2 MAR
T < -/+ 2 MCAR
OF (2) Chi2 uitvoeren Tabel ‘Test Statistics’. P > 0,05 = niet significant = MCAR
Of (3) Cross table ‘Naam variabele’ bij categorische waarden. Kijk bij ‘Missing’ rijen. Als er meerdere missings zijn, dan eerst
N > 400 en steekproefpercentage verschil (hoogste minus laagste): rijen optellen van boven naar beneden
> 5% MAR = ontbr. scores afhankelijk van ontbrekende scores op andere variabele = selectiviteit = patronen.
< 5% MCAR = wijst niet op systematische vaker voorkomen missing bij bepaalde categorie. Ontbr. is willekeurig
N < 400 en steekproefpercentage verschil (hoogste minus laagste):
> 10% MAR
< 10% MCAR
3. (Indien MCAR) Tabel ‘EM covariances’ ‘Little MCAR test’
H0: Patronen wijken niet af van de verwachte patronen voor MCAR.
Ha: Patronen wijken af van de verwachte patronen voor MCAR.
P < 0,05 H0 verwerpen. Als je dat doet dan is er sprake van MAR. Maar je wil H0 behouden omdat de resultaten niet moeten
afwijken. Dan zijn ze random en dat is goed. Dus P > 0,05 = MCAR.
X2 (Df) = observed X2, p = …)
Vervolg
Wanneer missing data < 10% en MCAR, dan complete data en missings vervangen door gemiddelden.
2