Hoorcollege 1: schatting + toetsing.
Schatten: op basis van een steekproef een geïnformeerde gok doen over de waarde van de
populatieparameter. Deze waarde kan een gemiddelde mediaan of modus zijn. Deze waarde is
gebaseerd op een steekproef op een kleine waarde van de populatie.
Toetsen: kansberekening waarin je vaststelt of de populatieparameter (waarschijnlijk) afwijkt van
een verwachte waarde. Je toets of de schatting afwijkt van de algemene populatieparameter volgens
de nullhypothese.
Inferentie: dit is de steekproefwaarde generaliseren op de populatiewaarde.
Steekproeffout: Fout in verschil van de steekproef met de daadwerkelijk populatiewaarde. Stel je
vindt een gemiddelde in een steekproef voor lengte van 1,80 mensen in Nederland, maar het
daadwerkelijke populatiegemiddelde is 1,77, dan zit je er dus 0,03 meter naast.
Dus de Populatieparameters schat je op basis van de sample die je hebt afgenomen. 3 voorwaarden:
1. ALS de sample representatief is voor de populatie, DAN kunnen we een “geïnformeerde gok”
doen over populatieparameters
2. Als een sample random is, dan is het meestal representatief (iedereen even grote kans om
getrokken te worden)
3. Samples zijn in de praktijk zelden willekeurig, dus denk na over manieren waarop jouw
sample verschilt van de populatie, en daarom wellicht een misleidend beeld geeft. Dit kan je
in je conclusie zetten bij beperkingen.
Dus de M is je steekproefgemiddelde die je door inferentie generaliseert op het
populatiegemiddelde (µ). Dit is dus een schatting die onzekerheid met zich meebrengt wat leidt tot
een steekproeffout.
Deze onzekerheid brengt de standard error /standaardfout met zich mee: het gemiddelde
standaardafwijking van de steekproeffout, oftwel, het gemiddelde van de afwijking van de
steekproef ten opzichte van de daadwerkelijke populatiewaarde zit. Stel de populatie waarde (u) =
1,80 en jij hebt 5 steekproeven met afwijkingen, dan is het gemiddelde van die afwijkingen je
standard error/fout. Belangrijke noot is dat iedere steekproeffout verschilt van elkaar. De vraag met
de standaardfout is hoe ver je er gemiddeld naast zit ten opzichte van de populatiewaarde. Dit geeft
de mate van onzekerheid aan.
Normale verdeling: Hier valt de sample distribution/steekproefverdeling onder. Dit is de spreiding
van de waarde van de respondenten. Het middelste getal is het gemiddelde. Hoe verder cijfers
afwijken, hoe minder mensen deze waarde hebben.
Standaardeviatie/afwijking: gemiddelde afwijking van het steekproefgemiddelde vanuit de
gegenereerde data
Echter heeft de standaardfout een probleem, je neemt namelijk 1 steekproef af (ipv van bijvoorbeeld
100), waardoor je op basis daarvan niet een standaardfout kan berekenen. Je kan geen gemiddelde
steekproeven berekenen als je maar dus 1 steekproef hebt.
Oplossing: we schatten de standaardfout op basis van de ene steekproef deze bereken je als volgt:
,S/wortel n = SE.
S = standaardafwijking van de steekproef
Wortel N: de wortel afnemen van de steekproefgroote, oftewel het aantal deelnemers.
SE: de uitkomst: de standaardfout.
Een hoger aantal spreidingswaarde
zorgt voor een hogere SE
Een hogere steekproefgrootte zorgt
voor een lager SE.
Betrouwbaarheidsinterval (CI): een venster om de puntschatting heen, gebaseerd op de SE.
Puntschatting: je waargenomen waarde van de steekproef om te voorspellen als populatiewaarde.
Ondergrens: de minimale waarde van het venster waar andere steekproeven ook in zouden moeten
vallen.
Bovengrens: de maximale waarde van het venster waar andere steekproeven ook in zouden moeten
vallen.
Deze betrouwbaarheidsinterval zorgt voor een indicatie in hoeverre jouw steekproef overeenkomt
met andere steekproeven. De bedoeling is dat als je een CI neemt van 95%, dat 95% van andere
steekproeven puntschattingen binnen jouw venster moeten vallen.
Stel je hebt een puntschatting van 10 met een bovengrens van 12 en ondergrens van 8 (venster is
dus 8-12). Dan zouden 95% van alle andere steekproeven puntschattingen tussen de 8 en de 12
moeten komen om een betrouwbaar onderzoek te doen.
De onder en bovengrens kan je uitrekenen.
Je moet bij een CI van 95% de puntschatting + 1,96*SE doen en zo bereken je voor beide kanten de
waarden. Voor Ci 99% is de waarde 2,58 bij 90% is hij 1,645. KIJK GOED NAAR DE TABEL OP
VOLGENDE BLADZIJDE.
De formule = Puntschatting + 1,96*SE en Puntschatting -1,96*SE
Het probleem is echter wel dat je bijvoorbeeld 5% kans hebt dat jijzelf binnen de onjuistheid bevat
dat je niet betrouwbaar bent.
,Belangrijk is deze tabel met waarde:
Er zijn 4 soorten meetniveaus:
1. Nominaal: is een categorische variabele waarin alleen het naam verschilt in betekenis. Het is
niet dat het 1 beter is dan het anderen, bijvoorbeeld soorten kleuren of geslacht.
2. Ordinaal: categorisch, maar nu zit er wel een verschil in betekenis van de verschillende
categorien. De categorieën zijn oplopend van bijvoorbeeld het minst naar beste of van klein
naar groot etc. Bijvoorbeeld brons-zilver-goud of small, medium, large kleidingmaat.
3. Interval; Continue waarden (minimaal 7) met betekenisvollenafstand, zoals rapportcijfers.
Een stap van 1 naar 2 is even groot in betekenis als van 2 naar 3 etc.
4. Ratio: Lijkt op interval, maar heeft wel een absoluut 0punt zoals gewicht en lengte. Je kan
hier verhoudingen mee uitrekenen.
Toetsen: is een uitspraak doen over de populatiewaarde door middel van je steekproefdata. Dit doe
je door 4 stappen te ondernemen.
1. Hypothesen formuleren
2. Test statistiek
3. P-waarde uitrekenen
4. Concluderen.
, 1 hypothesen formuleren:
Je stelt per onderzoek 2 hypothesen op. Dit zijn de:
1. Nullhypothese H0: deze hypothese beweert dat er geen effect is of verschil in de populatie.
Deze hypothese toets je altijd!! Deze toetst spss ook.
2. Alternatieve hypothese Ha: Beweert dat er wel een effect is in de populatie, dit beweer je
vaak aan de hand van een theorie en dit is ook echt de verwachting van de onderzoeker,
maar deze test je niet!
Je alternatieve hypothese kan 2 vormen aannemen:
1. Ongerichte (tweezijdige) hypothese: deze hypothese beweert dat er een verschil is, maar
onduidelijk wat deze nou precies is in richting.
Een voorbeeld van een opmaak van een ongerichte hypothese is: lengte vrouwen ≠ lengte vrouwen.
Het is onduidelijk of vrouwen dan korter of langer zijn dan mannen, maar verwachting is dat er een
verschil is.
De nullhypothese is in deze opmaak dat er geen verschil, zoals: lengte vrouwen = lengte mannen.
2. Gerichte (eenzijdige) hypothese: dit houdt in dat de onderzoekers door een theorie wel een
verwachting hebben welke groep een verschil is, bijvoorbeeld in lengte dat mannen langer
zijn.
Een voorbeeld van een opmaak van een gerichte hypothese is: lengte vrouwen < lengte mannen
De nullhypothese in deze opmaak is dan: lengte Vrouwen ≥ lengte mannen. De nullhypothese zegt
nu dat vrouwen gelijk of groter zijn in lengte dan mannen en deze zal dan getoetst worden!
2: test statistiek:
Test statistiek: een waarde die aangeeft hoeveel standaardfouten je geobserveerde waarde afligt
van de verwachting onder de nullhypothese
Hoe verder de SE ligt, hoe hoger de kans dat de nullhypothese niet waar wordt voor de volgende
stap, maar eerst deze stap uitleggen, hoe bereken je dit?