Samenvatting Toetsende Statistiek
College 1 Alpha en Bèta
Alpha en Type 1 fout:
De alpha bepaalt of de kans groot of klein is om een significante uitkomst te vinden wanneer de
nulhypothese onjuist is. Wanneer er gekozen wordt voor alpha = 0.05 dan leggen we daarmee vast
dat wanner de nulhypothese waar is (er is géén verschil) we slechts 5% kans lopen om de
nulhypothese toch te verwerpen. Het ten onrechte verwerpen van de nulhypothese heet een fout
van de eerste soort, en door een kleine alpha te kiezen, zorgen we ervoor dat die kans klein is.
Bèta en Type 2 fout:
Wanneer de nulhypothese niet verwerpen, terwijl deze onwaar is, maken we een fout van de tweede
soort (Bèta). Het onderscheidingsvermogen (Power) van een toets is 1 – Bèta, dit noem je de kans
om de nulhypothese te verwerpen wanneer deze daadwerkelijk onwaar is. En de kans om een
significant resultaat te vinden wanneer in de populatie inderdaad een effect bestaat. De kans op Bèta
kun je niet bepalen, wel schatten. Een power van .80 is een gewenst en haalbaar doel. Dit vereist
vaak een grote steekproef of het vergroten van alpha.
Welke factoren hebben invloed op de Power?
Steekproefgrootte. Hoe groter de steekproef, des te kleiner is de standaardfout van de
steekproevenverdeling.
Significantieniveau. Bij een grotere alfa is het gemakkelijker om een significant resultaat te
vinden en wordt het onderscheidingsvermogen groter.
Effectgrootte (d). Wanneer de nulhypothese onwaar is, bestaat er dus een reëel effect. Hoe
groter dat effect is, des te gemakkelijker zal het zijn dat effect aan te tonen. Bij een groter
effect is daarom het onderscheidingsvermogen groter. Van te voren moeten onderzoekers
bepalen in welke effectgrootte zij geïnteresseerd zijn, of wat de effectgrootte is die
redelijkerwijs kan worden verwacht. d = .20 klein effect, d = .50 middelmatig effect, d = .80
groot effect. Hoe groter de effectgrootte, hoe kleiner de steekproef hoeft te zijn.
Aard van de toets. Eenzijdige toetsen hebben een groter onderscheidingsvermogen dan
tweezijdige toetsen. Ook parametrische toetsen hebben een groter
onderscheidingsvermogen dan non-parametrische toetsen, mits aan de aannamen is
voldaan.
Variantie-analyse (F-toets):
Bij variantie-analyse worden doorgaans meer dan twee groepen met elkaar vergeleken.
Het onderscheidingsvermogen hangt af van het aantal groepen. Voor elk verschillend aantal
groepen moet dus een aparte onderscheidingsvermogen tabel worden gebruikt.
De rekenprocedures bij ongelijke groepsgroottes zijn vooral bij Two Way and More Way
ANOVA erg ingewikkeld.
F = .10 klein effect, F = .25 middelmatig effect, F=.40 groot effect.
Chi-kwadraattoets (Chi-toets):
P1 is het geobserveerde proporties. Wanneer je het onderscheidingsvermogen wilt schatten,
moet je met een denkbeeldige kruistabel werken. Dat wil zeggen dat je een kruistabel moet
verzinnen die een bepaald effect bevat en daarvoor neem je dan het kleinste effect (de
kleinste afwijking van de nulhypothese) waarin we nog geïnteresseerd zijn.
, Het aantal categorieën van de variabelen heeft invloed op het onderscheidingsvermogen.
Voor elk aantal categorieën bestaat dus een aparte tabel.
Non-parametrische toetsen:
Omdat je bij non-parametrische toetsen niet uitgaat van een normale verdeling, is het
onderscheidingsvermogen moeilijk te berekenen. Om toch iets zinnigs te zeggen over het
onderscheidingsvermogen, moet je bereid zijn voor de variabelen een specifieke verdeling
aan te nemen.
De power van non-parametrische toetsen is doorgaans kleiner dan die van parametrische
toetsen (power-efficiency).
College 2 Hypothesetoetsen voor twee onafhankelijke proporties en gemiddelden
Om te analyseren of twee groepen gelijke proporties hebben kunnen we deze op twee relevante
manieren met elkaar vergelijken.
Ten eerste het betrouwbaarheidsinterval. Om het betrouwbaarheidsinterval te berekenen worden
de proporties van de twee groepen van elkaar afgetrokken. Het maakt hierbij niet uit welke groep
van welke wordt afgetrokken, dit is arbitrair. Vervolgens werkt het als het normale
betrouwbaarheidsinterval: zie formuleboek blz. 22.
Het betrouwbaarheidsinterval wordt als volgt geïnterpreteerd: eerst wordt er gekeken of het getal 0
in het betrouwbaarheidsinterval valt. Als dit het geval is, is het waarschijnlijk dat de twee
populatieproporties aan elkaar gelijk zijn. Er is dus geen verschil tussen de ene groep en de andere
groep. Zit het getal 0 niet in het interval en zijn alle waarden voor (P1 – P2) positief, dan is P1 > P2.
Zijn alle waarden negatief dan is P1 < P2. De grootte van de waarde in het betrouwbaarheidsinterval
staat voor de grootte van het werkelijke verschil. Vallen de waarden vlak bij 0, dan is het werkelijke
verschil waarschijnlijk klein.
Een tweede manier om de proporties van twee groepen met elkaar te vergelijken is door middel van
een significantietest.
1. Assumpties: Categorische afhankelijke variabelen voor 2 groepen. Independent random
sample. n1 en n2 zijn groot genoeg, zodat er minstens 5 successen en 5 niet successen in elke
groep zitten bij tweezijdig toetsen. Bij eenzijdig toetsen minstens 10 successen en 10 niet
successen.
2. Hypothese:
H0 : p1 = p2, (p1 – p2= 0)
Ha: p1 ≠ p2 of Ha: p1< p2 of Ha: p1> p2
3. Statistische z-test: zie formuleboek blz. 22. Je gebruikt hiervoor de gepoolde proportie
(p dakje).
4. P-waarde: Opzoeken welke p-waarde er bij de gevonden z-waarde hoort.
5. Conclusie: Bepaal aan de hand van het significantieniveau of de gevonden P-waarde
kleiner of groter is. Is de P-waarde kleiner dan het significantieniveau dan verwerpen we
de H0, is de P-waarde groter dan verwerpen we H0 niet.
Let op! Bij tweezijdig
toetsen, p-waarde x 2