§2.2 Bootstrappen in SPSS
We gaan bijvoorbeeld een independent samples t-test doen, maar dan met bootstrappen.
Analyze → Compare Means → Independent samples t-test.
- Ik wil snoepjes vergelijken in gewicht. Ik ga kijken of rode snoepjes zwaarder zijn dan gele.
- Test variables: weight.
- Grouping variables: colour. Define groups.
- Bootstrap → perform bootstrapping → number of samples: 5000.
- Set seed for Mersenne Twister: Als we bootstrappen met dezelfde dataset, krijgen we dezelfde
resultaten. Als je deze niet aan zet, krijg je altijd andere resultaten. Deze hoeft dus niet.
- Bias corrected accelarated.
Het duurt wellicht even voordat de resultaten worden gegeven, doordat het bootstrappen wat langer
duurt.
Hier zie je dat de rode snoepjes gemiddeld ongeveer 2,7 gram wegen en de gele snoepjes ongeveer 2,8
gram. We hebben ook een betrouwbaarheidsinterval voor de gemiddelden en de standaarddeviatie. De
betrouwbaarheidsintervallen liggen wel erg dichtbij elkaar, dus je verwacht niet dat er een groot
verschil te vinden is.
Hier zie je de Levenes F en je ziet dat de significantie ver boven de 0,05 ligt, dus je kunt uitgaan van
gelijke varianties in de populatie. De t-waarde bij equal variances assumed is ook ver boven 0,05, dus
we gaan niet uit van een statistisch verschil tussen het gewicht van rode en gele snoepjes.
Hier zie je het gemiddelde verschil in gewicht, en het geeft het betrouwbaarheidsinterval volgens de
bootstrap. Hier zie je dat het van negatief naar positief gaat, dus het kan zwaarder en lichter zijn. Je
gaat dus niet uit van een verschil in gewicht tussen rode en gele snoepjes.
,§2.4 Exacte aanpakken in SPSS
We gaan een exacte test doen in SPSS. Een exacte test kan alleen worden uitgevoerd bij categorische
variabelen. We doen bij categorische variabelen meestal non-paramatic tests.
Analyze → Nonparametic tests → Legacy dialogs → Chi-square.
- Exact → Exact. Je kunt hier een tijdslimiet aanzetten.
Analyze → Nonparametic tests → Legacy dialogs → Binomial Test.
- Nu wil je bijvoorbeeld weten of de helft van de snoepjes in de populatie plakkerig is.
- Exact → Exact.
Maar waarschijnlijk moeten we een exacte test doen bij een kruistabel.
Analyze → Descriptive statistics → Crosstabs
- Rows: colour
- Columns: sticky
- Exact → Exact
- Statistics → Chi-square + Phi’s and Cramers V
- Cells → Column percentages
Hier kun je al zien dat de blauwe, groene en oranje snoepjes hoge proporties plakkerige snoepjes
hebben. De rode en gele snoepjes zijn over het algemeen minder plakkerig.
Hier zie je de Fisher’s exact test. Het enige handige dat het geeft is de p-waarde voor de 2-sided test.
0,010 is kleiner dan 0,05 dus we kunnen waarschijnlijk concluderen dat er een statistische associatie is
tussen kleur en plakkerigheid.
Dan geven de associatie maten ook nog aan dat er een vrij sterke associatie is tussen kleur en
plakkerigheid (0,519).
Het enige wat de exacte test ons geeft is een meer betrouwbare p-waarde.
, §3.6 Betrouwbaarheidsintervallen in SPSS
Hoe krijgen we betrouwbaarheidsintervallen in SPSS? Meestal krijg je deze al automatisch. Als je een
one samples t-test doet, krijg je al meteen het betrouwbaarheidsinterval.
- Bij een one-way ANOVA krijg je niet meteen een betrouwbaarheidsinterval, maar deze krijg
je wel als je bijvoorbeeld een post-hoc test doet.
- Als de optie betrouwbaarheidsinterval er niet bij staat, dan moet je bootstrappen. Dan krijg je
hem altijd.
§4.8.1 Een binominale test op een enkele proportie
We doen een test op één proportie. We hebben een hypothese over het aandeel van een categorie in de
populatie. Bijv: kan de helft van de huishoudens een bepaalde televisiezender ontvangen. Er zijn twee
categorieën: Ja en nee. Een binomiale test heeft betrekking op een dichotome variabele.
Analyze → Nonparametic tests → Legacy Dialogs → Binomial
- Test variable: selecteer de variabele waar het over gaat.
- Define dichotomy → Cut point = 1. Nu gebruikt SPSS 1 en alle variabelen onder 1.
- Test proportion: 0,50 (bij 50%).
We hebben twee groepen, de eerste groep is alles onder 1 en 1 (nee-categorie). De tweede groep is
alles boven 1. Daar achter zie je staan dat een proportie van 0,48 van de huishoudens de zender niet
kan ontvangen.
→ 52% van de huishoudens kan het wel ontvangen.
→ De significantie is 0,784 dus we hebben geen reden om de nulhypothese te verwerpen.
§4.8.1 Een chi-square test op een frequentieverdeling
Als we een frequentieverdeling willen testen tegen een bekende of hypothetische populatieverdeling,
moeten we een one-sample chi-square test.
Je wil in deze situatie bijvoorbeeld weten in welke regio’s de geteste huishoudens zich bevinden.
We hebben een categorische variabele met 4 categorieën: Oost, Noord, Zuid en West.
Analyze → Nonparametic tests → Legacy Dialogs → Chi-square.
- Test variable: region.
- Dan moeten we onze nulhypothese specificeren. Stel we verwachten dat de populatie eerlijk is
verspreid over alle vier de regio’s, dan kiezen we ‘all categories equal’.
- Stel je verwacht dat de aandelen anders verdeeld zijn over de categorieën, vul je in onder
‘values’, op volgorde van de 4 categorieën, het percentage dat je verwacht.
Hier heb je een frequentieverdeling met het aantal huishoudens. Links heb je wat in werkelijkheid het
aantal huishoudens per regio, daarnaast zie je de verwachte waarde (20% van 120 huishoudens = 24)
en daarnaast zie je het verschil tussen verwachting en werkelijkheid.