Week 1 Onderwerpen
Soorten statistiek,
Soorten statistiek betrouwbaarheid,
meetniveaus, centrale
Statistiek = De methodiek en techniek van het verzamelen,
tendentie, spreiding en vorm
bewerken, interpreteren en presenteren van gegevens
- Beschrijvende statistiek = Een kenmerk (variabele) van een groep (steekproef) van
onderzoekseenheden beschrijven
- Verklarende statistiek = Verbanden (samenhang) tussen twee of meer kenmerken van
onderzoekseenheden verklaren
- Inferentiële statistiek = Gegeneraliseerde uitspraken doen over populaties op basis van een
steekproef
Betrouwbaarheid
De betrouwbaarheid van statistiek ligt aan twee aspecten:
Hoe is de informatie verzameld?
- De keuzes en definities die ten grondslag liggen aan een meting
- De groep onderzoekseenheden waarop een bevinding gebaseerd is
- Of vooroordelen (bias) of een meetfout (measurement error) de resultaten vertekenen
Hoe is de informatie geanalyseerd, geïnterpreteerd en/of gepresenteerd?
- De statistische maat die is gekozen
- De conclusie die wordt verbonden aan een getal
- De visualisatie van de resultaten
Meetniveaus
Meetniveau Relaties tussen waarden Voorbeeld
Nominaal Ongeordende waarden Landen (1= Nederland, 2= Duitsland,
(verschillende waarden 3= België, 4= Denemarken)
hebben niets met elkaar te
maken)
Ordinaal Geordende waarden (er Opleidingsniveau (1= VMBO, 2= HAVO,
bestaat een rangorde in 3= VWO)
verschillende
antwoordmogelijkheden)
Interval-ratio Gelijke afstand tussen Cito-score (500-550)
waarden (zonder of met Temperatuur (-273,14 en hoger)
natuurlijk nulpunt) Leeftijd (0 en hoger)
Temperatuur K (0 en hoger)
Centrale tendentie [KC1]
Centrale vraag: Hoe ziet een typische observatie eruit?
3 opties om centrale tendentie te beschrijven
1. Modus = Meest voorkomende score van een bepaald kenmerk in de steekproef
2. Mediaan = De middelste score van een bepaald kenmerk in de steekproef (na het ordenen
1
,van de resultaten)
- Indien er twee middelste scores zijn neemt men het gemiddelde van de twee scores
3. Gemiddelde = De som van alle individuele waarden, gedeeld door het aantal waarden
Wanneer gebruiken?
Meetniveau Optie(s)
Interval-ratio Modus
Mediaan
Gemiddelde
Ordinaal Modus
Mediaan
Nominaal Modus
Spreiding [KC2]
Centrale vraag: In hoeverre bestaan er verschillen tussen de verschillende observaties?
Belang van spreiding
- Centrale tendentie kan onderlinge verschillen tussen de antwoorden teniet doen
4 opties om spreiding te rapporteren
1. Frequentie = Hoe vaak verschillende scores voorkomen in de steekproef
- Alle scores op een rijtje zetten -> Tellen hoe vaak de scores voorkomen
- Kan ook door het clusteren van de scores d.m.v. categorieën (bijv. 10 t/m 18 jaar)
2. Bereik = Hoogste score – Laagste score
3. Variantie = In hoeverre verschillen tussen de scores voorkomen
- Xi = Individuele observaties
- Σ = De som van
- X^_ = Gemiddelde
- N = Aantal observaties
- Hoe groter de waarde, hoe meer variabiliteit tussen de observaties
4. Standaarddeviatie = Drukt de variantie weer uit in dezelfde eenheid als
waarop de observaties in eerste instantie zijn gemeten (bijv. centimeters)
Wanneer gebruiken?
Meetniveau Optie(s)
Interval-ratio Frequentie
Bereik
Variantie en standaarddeviatie
Ordinaal Frequentie
Bereik
Nominaal Frequentie
Vorm (normaalverdeling) [KC3]
In hoeverre voldoet de steekproef aan de kenmerken
van de normaalverdeling?
2
, Histogram = Visualisering van een frequentietabel
- X-as -> Alle mogelijke waarden
- Y-as -> Hoe vaak de waarden voorkomen
De normaalverdeling is min of meer een ‘perfecte’ histogram
Kenmerken van de normaalverdeling
- Gemiddelde = Mediaan = Modus
- Klokvorm of bell-shape (perfecte vorm)
- Uni-modaal (1 piek)
- Symmetrisch (niet scheef, unskewed)
- Antwoorden die van het gemiddelde/de
mediaan/de modus afwijken komen minder
vaak voor
- Oneindigheid
Een empirische verdeling voldoet hier vrijwel nooit aan:
Scheefheid
- Positieve scheefheid = Extreem
hoge waarden trekken het
gemiddelde omhoog (naar rechts)
- Negatieve scheefheid = Extreem
lage waarden trekken het
gemiddelde omlaag (naar links)
Belang normaalverdeling
Een verdeling voldoet niet altijd aan de normaalverdeling, maar benadert deze wel
-> Op basis van het gemiddelde en de standaarddeviatie kan men van alles te weten komen
over een verdeling
Aan de hand van het figuur links kan men beslissen welke
waarden er horen bij bijv. 68% van de responsies (zie het
voorbeeld hieronder)
Voorbeeld
Men weet hetvolgende over een verdeling van tentamencijfers:
- N = 182
- X^_ = 6,5
- s = 1,3
Men kan dit uitrekenen:
6,5 + 1,3 = 7,8
6,5 – 1,3 = 5,2
Dit is één standaardafwijking -> Men kan concluderen dat 68% tussen een 7,8 en 5,2 heeft
gehaald
- Hetzeflde kan men uitrekenen voor de rest van de standaardafwijkingen
3