Statistiek hoorcollege 1 31-10-2022
Kansrekening vs. Statistiek: deductie en inductie
- Kansrekening gaat veelal uit van deductie, d.w.z. gegeven dat we alle details weten van
een bepaalde populatie, hoe waarschijnlijk is dan een bepaalde (steekproef-)uitkomst?
Dus, algemeen specifiek
- Statistiek gaat veelal uit van inductie, d.w.z. gegeven een bepaalde (steekproef-)
uitkomst, wat kunnen we met welke waarschijnlijkheid zeggen over populatie?
Dus, specifiek algemeen
Voorbeeld: Stel je een lade voor met 100 sokken
- Kansrekening: populatie van 30 rode, 20 blauwe en 50 sokken
Wat is de kans als je 4 sokken pakt, zonder teruglegging, op 2 blauwe en 2 rode?
Wat is de kans als je 5 sokken pakt, met teruglegging, op 5 zwarte sokken?
- Statistiek: pak een willekeurige steekproef van 10 sokken (kunnen we op basis van
steekproef iets zeggen over de verdeling in de populatie van sokken?)
Als we 1 rode, 4 blauwe en 5 zwarte pakken, wat is de verdeling van sokken in lade?
We doen dit 5x, met teruglegging, en het gemiddelde aantal zwarte sokken is 7
hoeveel zwarte sokken zitten er in de lade?
Overeenkomsten:
- Kansrekening en statistiek houden beiden rekening met toeval
- Zelfde technieken (bijv. gemiddelde) voor zowel steekproef als populatie
- Statistiek maakt aannames over populatie (bijv. nulhypothese) om deze op basis van een
steekproef te kunnen weerleggen (falsificeren)
Definitie statistiek
‘’Statistiek is de wetenschap van het verzamelen, organiseren en interpreteren van
numerieke feiten, die gegevens of data worden genoemd’’
A&F (boek): statiscs consists of a body of methods for obtaining and analyzing data
- Beschrijvende statistiek = wat zijn de samenvattende kenmerken van mijn steekproef
(beschrijft steekproef op basis van wat je ziet) zit geen onzekerheid in
- Inferentiële statistiek = maken gevolgtrekkingen/inferenties op basis van bevindingen in
de steekproef over de populatie als geheel komt wel met onzekerheid
Statistiek vs. Methodologie
Methodologie:
Systematische wijze van hoe je (empirisch) onderzoek zou moeten uitvoeren
Methodologie is het plan, dat je vervolgens gaat uitvoeren
Statistiek:
Het instrumentarium om empirisch onderzoek uit te kunnen voeren
Gereedschap om het plan goed uit te kunnen voeren
Oftewel: zijn verschillen, maar kunnen in goed empirisch onderzoek niet zonder elkaar
Onderzoeksvraag en data
, - Vraag: Hoe hoog is de werkdruk van Statistiek 1?
Onderzoeken met behulp van data: observaties van karakteristieken
Gaat bij statistiek steeds om twee werelden de wereld die je ziet (steekproef) en de
wereld waar je iets over wil zeggen (populatie)
Populatie: de totale set van deelnemers, relevant voor de onderzoeksvraag
v.b. populatiegrootheid (parameter): gemiddeld aantal uren zelfstudie per week
Steekproef: een deel van de populatie waarover data verzameld is
v.b. steekproefgrootheid (statistiek): gemiddeld aantal uren zelfstudie per week
- Voor goede statistiek is goede data nodig om deze onderzoeksvraag te beantwoorden:
Betrouwbaarheid (verkrijgen van consistente antwoorden)
Validiteit (wordt het juiste beeld gegeven? Steekproef kan bijv. te kleine zijn)
Variabelen, meetniveaus en waardenbereik
Variabele = gemeten karakteristiek die kan verschillen tussen subjecten
- Soorten: gedrags-, stimulus-, subject-, fysiologische variabelen
- Meetniveaus (NOIR):
Categorisch/kwalitatief
Nominaal: ongeordende categorieën (kleur ogen)
Ordinaal: geordende categorieën (opleiding niveau)
Kwantitatief /numeriek
Interval: gelijke afstand tussen opeenvolgende waarden (Celsius)
Ratio: gelijke afstand én absoluut nulpunt (K)
- Waardenbereik:
Discreet: vast aantal waardes (aantal broers of zussen, bijv. 2 of 3 en niet 2,7)
Continu: niet vaste waardes (lichaamslengte)
Statistiek hoorcollege 2 02-11-2022
, Inferentiële statistiek
= op basis van een steekproef uitspraken doen over de gehele (doel-)populatie
Beste door aselecte toewijzing
- Verschil tussen gemeten steekproefgrootheid en populatiegrootheid kan door:
Natuurlijke variatie (toeval) tussen steekproeven
Problemen/fouten met of binnen de steekproef
- Steekproefproblemen bij inferentiële statistiek
Doel: betrouwbare en valide uitspraken over populatie op basis van een steekproef
Steekproefgrootheden moeten dan niet verschillen van de populatiegrootheden
Problemen:
Steekproefvertekening (sampling bias) - ‘’selectieve werving’’
Voorbeeld: Landon vs. Roosevelt – 1963
The Literary Digest verzamelde 2,4 miljoen
antwoorden onder eigen lezers, car club members en
huishoudens geregistreerd in het telefoonboek
Mate van welvaart zorgt hier voor vertekend beeld
(dus steekproef niet representatief voor populatie)
Meetfout (response bias) - ‘’incorrect antwoord’’
Voorbeeld: sociale wenselijkheid, neutraal
antwoord op Likertschaal, onduidelijke of
sturende vraagstelling
Selectieve response (non-response bias) - ‘’selectieve deelname’’
Voorbeeld: bereidheid tot participatie (bijv. mensen die ontevreden zijn vullen
minder snel vragenlijst in), gevoelige informatie
Steekproeffout (sampling error) - ‘’toevallige steekproefverschillen’’
vooral over hebben bij statistiek
Voorbeeld: kleine steekproef uit grote populatie
Oplossing:
‘’Een aselecte steekproef van voldoende omvang die informatie (data) oplevert over
iedereen die benaderd is, met correcte responses voor alle subjecten op alle items’’
- Steekproefmethoden:
, Enkelvoudige aselecte steekproef
Kenmerken:
Elke combinatie van deelnemers heeft evenveel kans om steekproef te vormen
Haalbaar als participanten vanuit gehele doelpopulatie benaderbaar zijn
Vereist groot aantal willekeurige getallen om steekproef te bepalen
Stap 1: stel steekproefkader (operationalisatie van je populatie) vast
Bijv. een lijst met alle studentnamen uit de studentadministratie
(operationalisatie) als je iets wil zeggen over alle studenten in NL
Stap 2: trek willekeurig/aselect steekproef van n deelnemers
Bijv. nummer toewijzen aan iedere student en dan met n willekeurige
getallen studenten kiezen voor steekproef
Stap 3: kies eerste deelnemer aselect en bepaal vervolgens deelnemers met
deze stapgrootte k (hier 5)
Bijv. voor eerste student willekeurig nummer bepalen (bv. 3) en dan elke
ke student includeren
Gestratificeerde steekproef
Kenmerken:
Op voorhand expliciete groepen die met elkaar vergeleken worden
Binnen iedere groep (stratum) wordt steekproef getrokken
Kan proportioneel of disproportioneel zijn
Met name handig bij vergelijken van groepen die verschillen in omvang
Stap 1: stel steekproefkader op
Stap 2: verdeel populatie in strata
Bijv. jongens en meiden
Stap 3: trek aselect uit ieder stratum
Bijv. 2 jongens en 2 meiden
Clusterstreekproef
Kenmerken:
Niet elke combinatie van deelnemers evenveel kans om steekproef te vormen
Een steekproef van (natuurlijk voorkomende) bestaande clusters
Handig als het niet haalbaar is om deelnemers uit alle clusters te benaderen
Stap 1: stel steekproefkader op
Stap 2: verdeel populatie in clusters
Bijv. scholen
Stap 3: trek aselect aantal clusters
Bijv. 2 scholen
Stap 4: kies alle deelnemers in getrokken clusters
Getrapte steekproef
Kenmerken: