Statistiek III: Inductieve technieken (Hoofdstuk 6)
1. Inductieve technieken
Er wordt vanuit een steekproef (een populatie) een
parameter getrokken (een gemiddelde, een percentage,..).
Er wordt een hypothese geschat
(betrouwbaarheidsintervallen).
In de hypothesetoetsing gebeurt ongeveer hetzelfde. De
hypothese moet getrokken worden, er moet een
beschrijvende grootheid (het gemiddelde) berekend
worden. Indien de hypothese en het berekende
gemiddelde, verschillen van elkaar, is er sprake van een
significant verschil (= significantietoetsen).
2. 95% betrouwbaarheidsinterval
Het betrouwbaarheidsinterval is een waarde die berekend wordt
op basis van kennis over de populatieverdeling (onze schatter)
waarvan we een interval gaan definiëren rondom het
populatiegemiddelde. Afhankelijk v/d grenzen die we kiezen (2.5%
bijvoorbeeld) krijgen we de breedte van een interval waarbinnen we
verwachten dat indien dat de populatie is, er 95% kans is dat het
gemiddelde tussen de grenzen ligt (onder het oranje gebied zou
vallen).
95% betrouwbaarheidsinterval is een omgeving rondom het
resultaat van 1 replicatie zodat in 95% van de replicaties een interval
wordt gevonden dat de echte populatiewaarde van de onderzochte
variabele (het resultaat op populatie niveau) bevat. Elk nieuw
onderzoek levert een ander betrouwbaarheidsinterval op.
Er kan een steekproefgemiddelde berekend worden maar op basis van de theoretische interpretatie van de
populatieverdeling, kunnen wij uitspraken doen over hoe breed het interval is. Het midden van de rode pijl, is de
steekproefgrootheid, daarrond gaat het betrouwbaarheidsinterval opgezet worden. Het betrouwbaarheidsinterval stelt:
‘voor deze steekproef denken we dat de echte populatieparameter zal liggen tussen de grenzen v/d rode pijl’.
2.1 Gedrag van de betrouwbaarheid
Betrouwbaarheidsintervallen zijn gemaakt door rondom een steekproefgrootheid, een gemiddelde, een soort van
betrouwbaarheidsinterval te definiëren, gebaseerd op twee componenten:
o De spreiding i/d populatie (σ): hoe groter de spreiding i/d populatie, hoe meer verschillende resultaten er
ontstaan wanneer er steekproeven uitgetrokken worden
o Het niveau van betrouwbaarheid dat we willen: hoeveel kans heb je dat de echte mu gaat vallen binnen de
grenzen v/h interval (indien kleine betrouwbaarheidsintervallen willen, gaan we kiezen om meer
beslissingsfouten te maken).
Een klein betrouwbaarheidsinterval (BI) impliceert een hoge betrouwbaarheid = kleine foutenmarge. Er kan een klein beetje
met de intervallen gespeeld worden door bijvoorbeeld heel goede meetinstrumenten te hebben (hoe beter het
meetinstrument, hoe kleiner de toevallige fouten, hoe kleiner de spreiding i/d populatie).
o Grote steekproef (kostprijs, tijd, organisatie…)
o Lager betrouwbaarheidsnsiveau (meestal 95%, maar ook 90% of 99%): risico, exploratief onderzoek
o Kleinere sigma (σ): meetprocedures, design, homogene groepen
1
, 2.2 Waarschuwingen in verband met schatters
De statistiek is alleen maar bruikbaar indien de steekproef een toevallige steekproef is (elk individu uit de populatie zou
dezelfde kans moeten hebben om geselecteerd te worden om in de steekproef te belanden). Indien patiëntengroep nodig,
ga je waarschijnlijk naar het ziekenhuis (eventueel mensen die niet behandeld worden, zitten thuis, ondanks ze tot dezelfde
populatie behoren).
Formules voor schatters gelden enkel onder de voorwaarde dat de gegevens bekomen zijn uit een enkelvoudige aselecte
steekproef (de mate waarin hieraan is voldaan moet geëvalueerd worden). Voor specifieke, meer complexe
steekproefmodellen bestaan er aangepaste formules (onder andere wegingen).
o Voor ‘gemakkelijkheid halve’ of ad hoc steekproeven met een vertekening (bias) van onbekende omvang is er
geen methode voor correcte inferentie
o Het gemiddelde is niet robuust voor uitschieters
o Bij kleine steekproeven worden betrouwbaarheidsintervallen wellicht te klein geschat
o Ơ moet gekend zijn
2.3 Significantietoets in 4 stappen
De vier stappen voor een significantietoets:
1) Formuleer de nul – en de alternatieve hypothesen
2) Bepaal de waarde van de toetsingsgrootheid (het steekproefgemiddelde berekenen maar het
steekproefgemiddelde omzetten naar een z-score)
3) Bepaal de overschrijdingskans p voor de data (theoretisch versus resampling)
4) Formuleer de conclusie in APA-style
2.4 Klassieke aanpak
Een experiment met 40 patiënten. Er worden aan 20 patiënten een nieuw medicijn gegeven (minstens 15 genezen), aan de
andere 20 patiënten wordt er een placebo gegeven (10 genezen). Is er een kans van 50% op populatieniveau (kans van ½)?
Kansrekenen: schatter van fractie successen in de placebo-groep
Benadering met normaalverdeling
2.5 Cruciale vragen bij significantietoetsen
Twee belangrijke vragen:
1) Hoe groot is de kans dat het resultaat van mijn onderzoek tot stand zou zijn gekomen indien de nulhypothsee
waar zou zijn? (= hypothesetoets)
2) Hoe groot is de kans dat het resultaat van mijn onderzoek tot stand zou zijn gekomen indien de nulhypothese
NIET waar zou zijn? Wat indien het verschil met de nulhypothese xxx zou bedragen, levert dat dan een
significante toets op? (= onderscheidingsvermogen)
2
, 3. Onderscheidingsvermogen (Power)
Conclusies gebaseerd op een
significantietoets kunnen ook foutief zijn.
Er zijn twee situaties:
1) Waarheid over de populatie
2) De conclusie op basis v/d
steekproef (besluiten op basis van
een statistische toets)
Er zijn 4 opties:
o Indien de nulhypothese juist is,
gaan we de nulhypothese niet
verwerpen (Correcte conclusie)
o Indien de alternatieve hypothese
waar is (HA correct), de
nulhypothese niet juist maar de
nulhypothese wordt niet verwerpt
(type II fout). Een werkend
medicament maar de statistische
toets ziet het niet (onterechte fout
nulhypothese wordt niet verworpen)
o Indien de nulhypothese correct is, maar de nulhypothese wordt verwerpt (Type I fout). De nulhypothese wordt
onterecht verwerpt
o Indien de alternatieve hypothese correct is en de nulhypothese verworpen wordt (correcte conclusie)
De figuur: De µ = 0 (mu is 0) ligt onder de
blauwe grafiek, de verdeling onder de
nulhypothese. De rode verdeling geeft de
werking van het medicament weer (de
populatie van mensen die we behandeld
hebben met het nieuwe medicament).
o De steekproevenverdeling indien de
nulhypothese klopt (blauwe figuur),
het placebo
De verticale lijn is de positie onder de
nulhypothese, de populatieverdeling, de
steekproevenverdeling indien de
nulhypothese waar is. Alles onder de rode
maar boven de verticale lijn, is de
steekproevenverdeling indien de alternatieve hypothese geldig is. Indien we een werkend medicijn hebben. De kans dat de
nulhypothese verworpen wordt, indien er een toets gedaan wordt.
o Indien het verschil tussen de rode – en de blauwe figuur niet groot is, dan gaan die na verloop van tijd meer
overlappen met elkaar
3
, 3.1 Onderscheidingsvermogen 1-β
Stel dat een verhouding 15 genezen tegen 5 ziek belangrijk zou zijn om een epidemie te stoppen
met een nieuw medicijn. Hoe groot is de kans dat dergelijk medicijn met de toets H0: p = ½
gedetecteerd zou worden?
7885/10000 = 79%
De placebopopulatie (links), de populatie met medicatie (rechts).
De rode lijn is de redenering onder de nulhypothese (de placebo). Er is 5% nodig van de 10000
(komt ongeveer overeen met 14).
De alternatieve hypothese is de blauwe
verdeling. Op basis v/d rode lijn wordt het
verschil gemaakt dat het medicament werkt
(rechts: werkt), hoe groot is de oppervlakte (de
som van het rechthoekje ten opzichte van het
geheel = 79%).
Indien op populatieniveau er effectief een
verschil is van 15 tegenover 5 mensen die
genezen, dan is de kans dat dat opgemerkt wordt
als een significant toetsresultaat, 79%. Indien er
een medicament is dat doet wat er effectief
verwacht wordt dat het zal doen, zal het in 79%
v/d gevallen gedetecteerd worden.
3.2 Onderscheidingsvermogen (power)
De kans op een Type I fout is de kans om de nulhypothese (H0) te verwerpen terwijl die correct is (= significantieniveau van
de test. Het significantieniveau α van een toets met vooraf bepaald significantie niveau is de kans op een Type-1 fout, de
kans om de nulhypothese (H0) te verwerpen terwijl die wel correct is. Evalueer de consequenties van deze soort fouten bij
het kiezen van α.
Een Type 2 fout wordt gemaakt als men de nulhypothese niet kan verwerpen, terwijl die wel vals is. Vele waarden van de
parameter voldoen aan de alternatieve hypothese. Men kan 1 waarde kiezen voor de welke de kans kan worden berekend
dat een toets de nulhypothese (H0) kan verwerpen, wanneer de alternatieve hypothese correct is. Deze kans is het
onderscheidingsvermogen (power) van de test. Het onderscheidingsniveau van een toets voor een specifieke waarde v/d
parameter is de kans dat de toets de nulhypothese zal verwerpen voor een bepaald α-niveau wanneer de alternatieve
waarde (HA) correct zou zijn.
3.3 Onderscheidingsvermogen bij een z-test
In een aandacht proef wordt telkens gedurende 2 seconden een klein gekleurd vlekje getoond op een computerscherm (4
pixels). De deelnemer moet, enkel kijkend met het linker oog, zo snel en nauwkeurig mogelijk met het pijltje van de muis
klikken op een horizontaal getoonde responsregel (een soort meetlat), perfect recht onder de positie van het gekleurde
vlekje.
Als data wordt de afstand tussen de echte horizontale positie van het vlekje en de aangeklikte positie in centimeter
opgeslagen in een datafile (telkens voor de 7de poging dus 1 cijfers per deelnemer). In de populatie is de gemeten afstand
(afwijking) normaal verdeeld N(0 cm, 0.5 cm). Een onderzoeker beweert dat wanneer brildragers deze proef afleggen, zij
een systematische fout zouden maken van +2 mm (ze schatten de positie 2mm te ver naar rechts in). Wanneer brildragers
een gemiddelde afwijking van 3mm (of meer) zouden vertonen zijn hun data onbruikbaar en in dat geval zouden brildragers
uitgesloten moeten worden. We doen een onderzoek met 35
brildragers.
Onderzoekers bij 22 brildragers
4