Meetschalen
Kwalitatieve variabelen (categorisch)
Nominaal = gegevens zijn ingedeeld in elkaar uitsluitende categorieën,
zonder dat er sprake is van rangorde (geslacht).
Dichotome variabele = een nominale variabele die slechts twee
waarden kan aannemen, als ‘ja’ en ‘nee’.
Ordinaal = gegevens zijn ingedeeld in elkaar uitsluitende categorieën,
waarbij er sprake is van rangorde (opleidingsniveau).
Geclassificeerde variabele = als je interval/ratio variabelen indeelt
in klassen, levert dat een ordinale variabele op, als
‘leeftijdsklasse’ of ‘inkomensgroep’.
Kwantitatieve variabelen (continue)
Intervalschaal/ratioschaal = gegevens zijn gemeten in vaste
meeteenheden.
Interval = heeft een arbitrair nulpunt, het is niet mogelijk om
verhoudingen tussen de schaalposities te berekenen, als
‘graden’ of ‘decibel’.
Ratio = heeft een absoluut nulpunt (je kan niet onder de nul), het
is mogelijk om rekenkundige berekeningen te doen, als ‘leeftijd’,
‘inkomen’ of ‘temperatuur in Kelvin’.
Cases = elke gegevenseenheid is een case (respondent).
Variabelen = de kenmerken die voor alle cases zijn bepaald (en
waarvoor de gegevens zijn verzameld).
Waarden = elke waarde staat in een aparte cel. Als er geen score is,
dan heb je een missing value.
Statistische termen
Modus = de waarde die het vaakst voorkomt.
Mediaan = letterlijk de middelste waarde (bij even aantal doe je het gem. van de twee
middelste)
Gemiddelde (Mean) = de som van alle waarden, gedeeld door het totale aantal waarden.
Spreidingsbreedte = breedte van een histogram.
Kwartielafstand = je kunt een histogram verdelen in meerdere kwartielen (even grote stukken,
bijv. 4 x 25%).
Outliers = de bolletjes in de boxplot. Dit zijn waarden die veel hoger liggen t.o.v. de rest van de
groep.
Klassebreedte = verschil tussen hoogste en laagste score. Wanneer dit verschil groot is, heb je
een hoge klassebreedte.
,Univariaat = een variabele samenvatten (één variabele staat in de
vraag).
Bivariaat = relatie tussen twee variabelen (twee variabelen staan in de
vraag).
Multivariaat = relatie tussen >2 variabelen (meer dan twee variabelen staan in de vraag).
Beschrijvende statistiek = steekproef analyse (meest gebruikt)
Toetsende statistiek = populatie analyse (hoger niveau)
Bij tentamens schrijf je geen symbolen maar letters! Je zit achter een desktop!
,Univeriate analyse (één variabele) = beschrijvende statistiek
Grafische
Meetniveau beschrijving Numerieke beschrijving
Centrum Spreiding
Nominaal Staafdiagram Modus Frequentietabel
Taartdiagram (als #categ.
Klein)
Ordinaal Staafdiagram Modus* Frequentietabel
Doosdiagram Mediaan *
(vaak allebei) Bereik*
IQR
Interval/ratio Doosdiagram Modus* Frequentietabel
Histogram Mediaan* *
(vaak allebei) Gemiddelde Bereik*
IQR*
Variantie &
st.dev
*heeft niet de voorkeur
*wanneer je toetsende statistiek hebt – gebruik je betrouwbaarheidsinterval!
Grafisch beschrijven
Staafdiagram (barchart)
- Inzicht in onderlinge verhoudingen
- Frequentie uitgedrukt in hoogte staaf
- Enkel gegevens op één as
Taartdiagram (piechart)
- Inzicht in delen t.o.v. het geheel
- Frequentie uitgedrukt in oppervlakte
Histogram
- Inzicht in de vorm van de verdeling van de variabele
- Gegevens op beide assen
- Waarden ingedeeld in klassen/intervallen
- Frequentie uitgedrukt in hoogte staaf
Vorm van een verdeling
- Aantal heuvels: unimodaal (één heuvel) of bimodaal (twee heuvels)
- Symmetrie: symmetrisch (links en rechts zelfde) of rechts-/linksscheef
, Numeriek beschrijven
Frequentietabel
- Opsomming van alle categorieën met hun frequenties
- Veel informatie; minder overzichtelijk bij veel categorieën.
Absolute frequentie – frequency = aantal (n of f)
Relatieve frequentie = percentage (p)
> Percent = alle cases meegenomen
> Valid percent = missing value weggenomen, meest valide
> Cumulative percent = in totaal, wie de betreffende waarde heeft gehaald of lager.
Beschrijving van een verdeling
- Centrum (locatie) – waar is het midden op de horizontale as?
- Spreiding (variatie) – hoe breed is de verdeling?
- Vorm – symmetrisch of rechts-/linksscheef?
Spreidingsmaten
Bereik
- Verschil tussen maximale en minimale score
- Gevoelig voor extreme scores
- Zegt niets over vorm
Interkwartielafstand (IQR)
- Verdeling opsplitsen ik kwartielen (4 x 25%)
De grenzen noem je de kwartielscore (Q1/2/3 of P25/50/75)
- Bereik van middelste 50% van alle waarnemingen
IQR = Q3 – Q1
- Ongevoelig voor extreme scores
Standaarddeviatie (s) en variantie ( s2)
- Hoeverre wijkt iemands score af van het groepsgemiddelde? = deviatiescore
- Sums of Squared Errors (SS) = deviatiescores-kwadraat optellen
> Variantie ( s2) = de gemiddelde gekwadrateerde afstand tot het gemiddelde
> Standaarddeviatie (SD/s/√ s 2) = de gemiddelde afstand tot het gemiddelde
Gebruik met empirische regel of regel Chebyshev
Analyze > Descriptive Statics > Frequencies > Statistics
Analyze > Descriptive Statics > Explore
Kwalitatieve variabelen (categorisch)
Nominaal = gegevens zijn ingedeeld in elkaar uitsluitende categorieën,
zonder dat er sprake is van rangorde (geslacht).
Dichotome variabele = een nominale variabele die slechts twee
waarden kan aannemen, als ‘ja’ en ‘nee’.
Ordinaal = gegevens zijn ingedeeld in elkaar uitsluitende categorieën,
waarbij er sprake is van rangorde (opleidingsniveau).
Geclassificeerde variabele = als je interval/ratio variabelen indeelt
in klassen, levert dat een ordinale variabele op, als
‘leeftijdsklasse’ of ‘inkomensgroep’.
Kwantitatieve variabelen (continue)
Intervalschaal/ratioschaal = gegevens zijn gemeten in vaste
meeteenheden.
Interval = heeft een arbitrair nulpunt, het is niet mogelijk om
verhoudingen tussen de schaalposities te berekenen, als
‘graden’ of ‘decibel’.
Ratio = heeft een absoluut nulpunt (je kan niet onder de nul), het
is mogelijk om rekenkundige berekeningen te doen, als ‘leeftijd’,
‘inkomen’ of ‘temperatuur in Kelvin’.
Cases = elke gegevenseenheid is een case (respondent).
Variabelen = de kenmerken die voor alle cases zijn bepaald (en
waarvoor de gegevens zijn verzameld).
Waarden = elke waarde staat in een aparte cel. Als er geen score is,
dan heb je een missing value.
Statistische termen
Modus = de waarde die het vaakst voorkomt.
Mediaan = letterlijk de middelste waarde (bij even aantal doe je het gem. van de twee
middelste)
Gemiddelde (Mean) = de som van alle waarden, gedeeld door het totale aantal waarden.
Spreidingsbreedte = breedte van een histogram.
Kwartielafstand = je kunt een histogram verdelen in meerdere kwartielen (even grote stukken,
bijv. 4 x 25%).
Outliers = de bolletjes in de boxplot. Dit zijn waarden die veel hoger liggen t.o.v. de rest van de
groep.
Klassebreedte = verschil tussen hoogste en laagste score. Wanneer dit verschil groot is, heb je
een hoge klassebreedte.
,Univariaat = een variabele samenvatten (één variabele staat in de
vraag).
Bivariaat = relatie tussen twee variabelen (twee variabelen staan in de
vraag).
Multivariaat = relatie tussen >2 variabelen (meer dan twee variabelen staan in de vraag).
Beschrijvende statistiek = steekproef analyse (meest gebruikt)
Toetsende statistiek = populatie analyse (hoger niveau)
Bij tentamens schrijf je geen symbolen maar letters! Je zit achter een desktop!
,Univeriate analyse (één variabele) = beschrijvende statistiek
Grafische
Meetniveau beschrijving Numerieke beschrijving
Centrum Spreiding
Nominaal Staafdiagram Modus Frequentietabel
Taartdiagram (als #categ.
Klein)
Ordinaal Staafdiagram Modus* Frequentietabel
Doosdiagram Mediaan *
(vaak allebei) Bereik*
IQR
Interval/ratio Doosdiagram Modus* Frequentietabel
Histogram Mediaan* *
(vaak allebei) Gemiddelde Bereik*
IQR*
Variantie &
st.dev
*heeft niet de voorkeur
*wanneer je toetsende statistiek hebt – gebruik je betrouwbaarheidsinterval!
Grafisch beschrijven
Staafdiagram (barchart)
- Inzicht in onderlinge verhoudingen
- Frequentie uitgedrukt in hoogte staaf
- Enkel gegevens op één as
Taartdiagram (piechart)
- Inzicht in delen t.o.v. het geheel
- Frequentie uitgedrukt in oppervlakte
Histogram
- Inzicht in de vorm van de verdeling van de variabele
- Gegevens op beide assen
- Waarden ingedeeld in klassen/intervallen
- Frequentie uitgedrukt in hoogte staaf
Vorm van een verdeling
- Aantal heuvels: unimodaal (één heuvel) of bimodaal (twee heuvels)
- Symmetrie: symmetrisch (links en rechts zelfde) of rechts-/linksscheef
, Numeriek beschrijven
Frequentietabel
- Opsomming van alle categorieën met hun frequenties
- Veel informatie; minder overzichtelijk bij veel categorieën.
Absolute frequentie – frequency = aantal (n of f)
Relatieve frequentie = percentage (p)
> Percent = alle cases meegenomen
> Valid percent = missing value weggenomen, meest valide
> Cumulative percent = in totaal, wie de betreffende waarde heeft gehaald of lager.
Beschrijving van een verdeling
- Centrum (locatie) – waar is het midden op de horizontale as?
- Spreiding (variatie) – hoe breed is de verdeling?
- Vorm – symmetrisch of rechts-/linksscheef?
Spreidingsmaten
Bereik
- Verschil tussen maximale en minimale score
- Gevoelig voor extreme scores
- Zegt niets over vorm
Interkwartielafstand (IQR)
- Verdeling opsplitsen ik kwartielen (4 x 25%)
De grenzen noem je de kwartielscore (Q1/2/3 of P25/50/75)
- Bereik van middelste 50% van alle waarnemingen
IQR = Q3 – Q1
- Ongevoelig voor extreme scores
Standaarddeviatie (s) en variantie ( s2)
- Hoeverre wijkt iemands score af van het groepsgemiddelde? = deviatiescore
- Sums of Squared Errors (SS) = deviatiescores-kwadraat optellen
> Variantie ( s2) = de gemiddelde gekwadrateerde afstand tot het gemiddelde
> Standaarddeviatie (SD/s/√ s 2) = de gemiddelde afstand tot het gemiddelde
Gebruik met empirische regel of regel Chebyshev
Analyze > Descriptive Statics > Frequencies > Statistics
Analyze > Descriptive Statics > Explore