HOORCOLLEGES STATISTIEK 1
HOORCOLLEGE 1.1
“Statistiek is de wetenschap van het verzamelen, organiseren en interpreteren van
numerieke feiten, die gegevens of data worden genoemd.”
Statistiek
Verzamelen van numerieke feiten (data).
Rationalisme
Logisch redeneren om te komen tot nieuwe kennis
Empirisme
Zintuigelijk waarnemen en observeren om data met elkaar te vergelijken (in statistiek).
Verschil tussen kansrekening en statistiek
- Kansrekening: deductie, we weten details van een populatie, hoe waarschijnlijk
is een bepaalde uitkomst (algemeen → specifiek).
- Statistiek: inductie, we weten een bepaalde uitkomst, wat kunnen we zeggen
over de populatie (specifiek → algemeen).
Statistiek:
Specifiek → algemeen
Steekproef → populatie
Data → model
Kansberekening is omgekeerd
Overeenkomsten statistiek en kansberekening
- Rekenen met toeval (willekeurig).
- Statistische technieken worden gebruikt om hele populatie te beschrijven.
- Sommige statistische technieken maken eerstr bepaalde aannames over de
populatie om vervolgens op basis van een steekproef te bepalen hoe
onwaarschijnlijk het is d at de aannames opgaan.
Trekken van conclusies aangaande een populatie op basis van een steekproef is
gebaseerd op weerleggen → falsificatie.
Definities statistiek
Beschrijvende statistiek
Gebruik maken van statistieken om een dataset samenvattend weer te geven (op basis
van een steekproef/populatie). Bijvoorbeeld het gemiddelde, staafdiagram, scatterplot,
modus, mediaan, etc (deductie).
Inferentiële statistiek
Van de steekproef kan je statistieken bepalen, uitspraak doen over de hele populatie.
Belangrijk om op een verstandige manier aan die uitspraak te komen. Kijken hoe
representatief een steekproef is voor generalisering voor de populatie (inductie).
,Verschil methodologie en statistiek
- Methodologie is de wijze waarop je onderzoek moet uitvoeren, je plan.
- Statistiek is je gereedschapskist om onderzoek uit te kunnen voeren.
ONDERZOEKSVRAAG EN DATA
Q: Hoe hoog is de werkdruk van Statistiek 1?
Onderzoeken met behulp van data: observaties van karakteristieken.
- Populatie: Totale set van deelnemers, relevant voor onderzoeksvraag.
Bijvoorbeeld populatiegrootheid (parameter): gemiddeld aantal uren online
zelfstudie per week.
- Steekproef: een deel van de populatie waarover data verzameld is. Bijvoorbeeld
steekproefgrootheid (statistics): gemiddeld aantal uren online zelfstudie per
week. Het getal dat hieruit komt is jouw statistiek en jouw beste informatie over
jouw parameter.
Goede data om deze onderzoeksvraag te beantwoorden.
- Betrouwbaarheid: continu hetzelfde meten (hoe groter je steekproef, hoe
minder je resultaten zullen verschillen).
- Valide: in welke mate de steekproef representatief is voor de
populatie/construct dat je wil meten (willekeurig).
Dus op basis van je steekproef kun je een betrouwbare en valide uitspraak doen over je
steekproef.
VARIABELEN, MEETNIVEAUS EN WAARDENBEREIK
Variabele: gemeten karakteristiek die kan verschillen tussen subjecten.
- Verschillende soorten: gedrags-, stimulus, subject-, fysiologische-variabelen.
- Meetniveaus (NOIR):
o Categorisch/kwalitatief
▪ Nominaal: ongeordende categorieën (oogkleur)
▪ Ordinaal: geordende categorieën (opleidingsniveaus)
o Kwantitatief/numeriek:
▪ Interval: gelijke afstanden tussen opeenvolgende waarden, geen 0
(graden Celsius)
▪ Ratio: gelijke afstanden én absolute 0 (graden Kelvin)
- Waardenbereik
o Discreet: meeteenheid die ondeelbaar is (broers/zussen). Hele getallen.
o Continu: oneindig deelbare meeteenheid (lichaamslengte). Dit zijn
getallen met decimalen.
Eigenschappen van variabelen: samengevat
,Inferentiële statistiek
Op basis van eens teekproef uitspraken doen over gehele (doel)populatie.
- Verschil tussen gemeten steekproefgrootheid en populatiegrootheid.
o Door natuurlijke variatie (toeval) tussen steekproeven.
o Door problemen/fouten met/binnen de steekproef.
Steekproefproblemen bij inferentiële statistiek
Doel: betrouwbare en valide uitspraken doen over populatie op basis van een
steekproef.
- Steekproefgrootheden dienen dan niet te verschillen van populatiegrootheden.
- Problemen:
o Steekproeffout (sampling error) → “toevallige steekproefverschillen”
o Steekproefvertekening (sampling bias) → “selectieve werving”
o Meetfout (response bias) → “incorrect antwoord”
o Selectieve respons (non-respons bias) → “selectieve deelname”
Oplossing:
Een aselecte (of andere probabilistische) steekproef van voldoende omvang die
informatie (data) oplevert over iedereen die benaderd is, met correcte responses voor
alle subjecten op alle items.
HOORCOLLEGE 1.2
Specifiek bevat de statistische wetenschap methoden voor
- Design (bijvoorbeeld steekproefmethoden)
- Description (omschrijving)
- Inference
STEEKPROEFMETHODEN
1. Enkelvoudige aselecte steekproef → simple random sampling
2. Systematische aselecte steekproef → systematic random sampling
3. Gestratificeerde steekproef → stratified random sampling
4. Cluster steekproef → cluster sampling
5. Getrapte steekproef → multi-stage sampling
Kiezen tussen de steekproefmethoden hangt af van samenstelling van de doelpopulatie,
onderzoeksvraag en haalbaarheid van de te vormen steekproef.
Enkelvoudige aselecte steekproef
Elke combinatie van deelnemers heeft evenveel kans om de steekproef te vormen.
- Stap 1: stel steekproefkader vast. Bijvoorbeeld lijst met alle studentennamen uit
de studentenadministratie.
- Stap 2: trek willekeurig een steekproef van personen. Bijvoorbeeld nummer
toewijzen aan iedere student en dan met willekeurige getallen studenten kiezen
voor steekproef,
Systematische aselecte steekproef
Niet elke combinatie van deelnemers maakt evenveel kans om de steekproef te vormen
→ eenvoudiger en vaak geode representativiteit.
- Stap 1: stel steekproefkader vast (sampling frame)
, - Stap 2: bepaal stapgrootte k=N/n “skip number”. Bijvoorbeeld steekproef n=4,
populatie N=20, k=20/4=5.
- Stap 3: kies eerste deelnemer aselect en kies vervolgens uit iedere groep
deelnemer met dit nummer. Bijvoorbeeld voor één student willekeurig nummer
bepalen en dan elke ke includeren.
Gestratificeerde steekproef
Binnen ieder stratum wordt steekproef getrokken → kan proportioneel zijn of
disproportioneel.
- Stap 1: stel steekproefkader op
- Stap 2: verdeel populatie in strata. Bijvoorbeeld in jongens en meiden
- Stap 3: trek aselect uit ieder stratum. Bijvoorbeeld 2 jongens en 2 meiden.
Handig wanneer er duidelijke categorieën zijn en wanneer deze verschillen in omvang.
Cluster steekproef
Kies een steekproef van clusters
- Stap 1: stel steekproefkader op.
- Stap 2: verdeel populatie in clusters. Bijvoorbeeld scholen.
- Stap 3: trek aselect een aantal clusters.
- Stap 4: kies alle subjecten van getrokken clusters.
Handig wanneer het moeilijk is om alle clusters te bereiken voor eens steekproef.
Getrapte steekproef
Kies een steekproef van clusters
- Stap 1: stel een steekproefkader op.
- Stap 2: verdeel populatie in clusters. Bijvoorbeeld scholen.
- Stap 3: trek aselect een aantal clusters.
- Stap 4: trek aselect binnen gekozen clusters. Bijvoorbeeld PISA onderzoek naar
prestaties van 15-jarigen.
Handig wanneer het moeilijk is om alle clusters te bereiken voor een steekproef en duur
is om heel veel subjecten te ondervragen.
Centrum- en spreidingsmaten
In het beschrijven van data zijn 3 dimensies van belang:
1. Centrummaten (gemiddelde, modus, mediaan): deze zeggen iets over de typische
observatie.
2. Spreidingsmaten (range, IQR, standaarddeviatie): deze zeggen iets over de mate
van spreiding in je verdeling van je observaties.
3. Positiematen (mediaan, 90e percentielscore): deze zeggen iets over de relatieve
positie van observaties.
Welke figuur en maat kiezen?
Van belang:
- Meetschaal van de variabele
- Scheefheid van de verdeling
- Uitbijters in data
Beschrijvende statistiek – bivariaat
- Bivariate statistieken geven de mate van samenhang (association) tussen twee