Aantekeningen Beschrijvende Statistiek
HC1 Univariate statistiek – Grafisch
Statistiek: verzamelen, classificeren, samenvatten, organiseren, analyseren & interpreteren van numerieke gegevens.
Manieren verzamelen van statistische gegevens:
Grootschalig veldonderzoek/survey, experiment, observatie & secundaire databronnen.
Onderzoekseenheden: over wie wil je uitspraken doen? - Individuen, huishoudens, dorpen, etc.
Variabelen: eigenschappen van de onderzoekseenheden - Sekse, leeftijd, bruto inkomen, etc.
Waarden: scores die de onderzoekseenheid kan halen op de variabelen - Leeftijd 0-100
4 meetniveaus variabelen NOIR (van laag hoog):
- Kwalitatieve variabelen (categorische variabelen)
Nominaal: categorieën. - Etniciteit, religie, sekse
Ordinaal: categorieën + rangorde - Opleidingsniveau, Lickert schaal is ook ordinaal. 1 = oneens, 3 = neutraal, 5 = eens
- Kwantitatieve variabelen (continue variabelen)
Interval: categorieën + ordening + betekenisvolle verschillen -Celsius, verschil tussen 10 - 20 is evenveel als verschil 20 – 30
Ratio: categorieën + ordening + betekenisvolle verschillen + absoluut nulpunt. - Graden Kelvin, leeftijd, kan niet < 0 zijn
Meetniveaus hangen heel erg samen met operationalisering van vraag
BV: kunt u aangeven wat uw netto maandloon is (RATIO) VS kunt u aangeven in welke categorie u valt? (ORDINAAL)
Ontbrekende waarde (missing) wordt vaak aangeduid met 99 of 999. Dit moet je dus NIET meenemen bij tabellen of bij
grafische resultaten, want dit verpest het gemiddelde en de mediaan.
Statistische analyse: soorten relaties tussen variabelen
Univariate analyse: Enkele variabele (geen relaties)
Bivariate analyse: Samenhang/relatie van twee variabelen
Multivariate analyse: Samenhang/relatie meer dan twee variabelen = (Trivariate analyse: 3 variabelen)
HC2 Univariate statistiek – Numeriek
Als er een Lickert schaal is: 1 – komt makkelijk rond, 3 – moet zuinig zijn, 5 – steeds achterstand, 6 – anders,
dan verstoort 6 de ordinale. Hierdoor is het dan nominaal, want er is dan geen ordening. Als je het buiten beschouwing
mag laten i.v.m. ‘missing’, dan is het wel weer ordinaal.
Frequentietabel = opsomming van alle categorieën met hun frequenties, er is veel info dus het wordt dan minder
overzichtelijk.
Om aan te geven hoeveel iets verschilt gebruik je een centrummaat.
= Mediaan, Modus & Mean
Om te bekijken hoever dingen van elkaar liggen gebruik je een spreidingsmaat
= Range, IQR, STDEV & Variance
Modus=Waarde die het meeste voorkomt. Dit mag je altijd opvragen, bij NOIR. =MODE
Mediaan= Middelste waarde/Punt waarop de helft v.d. waarnemingen is bereikt. Bij oneven aantal waarnemingen is het
de middelste. Bij 7 waarnemingen is het dus #4. Bij even aantal waarnemingen is het de gemiddelde van de middelste 2
, waarnemingen. Dit mag je opvragen bij OIR. =MEDIAN
Mean/gemiddelde= Alle scores optellen en delen door aantal waarnemingen.
Dit is gevoelig voor uitschieters (extreme scores). Dit mag je opvragen bij IR. =AVERAGE
Bereik: Verschil tussen maximale en minimale score. Max - Min.
Dit is gevoelig voor extreme scores. Dit mag je gebruiken bij OIR. =MIN =MAX
Interkwartielafstand/IQR= Hierbij worden de verdelingen opgesplitst in 4 kwartielen (25%). Afstand van Q1 tot Q3, dus
van 25% tot 75%. Dit is ongevoelig voor extremes. Dit mag je gebruiken bij OIR.
Standaarddeviatie/STDEV= In hoeverre iemand afwijkt van het gemiddelde. Dit mag je gebruiken bij IR. =STDEV
Empirische regels: -1s naar +1s is 68%, -2s naar +2s is ongeveer 95%, -3s naar +3s is ongeveer 99,7%. Frequentieverdeling
moet heuvelvorming en symmetrisch zijn.
Chebyshev regels: -2s naar +2s is minimaal 75%. -3s naar +3s is minimaal 88,9%. Vorm maakt niet uit.
Variantie= Dit is standaard deviatie in het kwadraat. Dit mag je gebruiken bij IR.
Centrum en spreidingsmaten aanvragen
In SPSS: Descriptive Statistics Frequency tabel Statistics.
HC3 A – Univariate statistiek (vorm & uitschieters)
Boxplot = bruikbaar om uitschieters mee te spotten, geeft Min en Max Range weer
In een boxplot:
Is Q2 de Mediaan.
Q3 – Q1 = IQR.
Min & Max = range.
In SPSS: Analyze -> Descriptive Statistics -> Explore of via Graphs.
Linksscheef: Modus > Mediaan > Gemiddelde
Symmetrisch: gemiddelde = modus = mediaan. Dat alles gelijk is.
Rechtsscheef: Gemiddelde > Mediaan > Modus
Percentielscore mag je opvragen bij OIR.
Z-Score mag je opvragen bij IR.
Percentielen: groep wordt ingedeeld in 10 subgroepen van gelijke
grootte.
Percentielscore: % respondenten datzelfde of een lagere waarde scoort. De cumulatieve % (naar beneden afronden)
In SPSS: Descriptive Statistics -> Frequencies -> Statistics -> Percentiles
Z-Score:
Hoe slim is een student met IQ 123 als gemiddelde IQ= 100 en S= 15?
Antwoord: (123 – 100) / 15 = 1,53. Dus 1.53 St.Dev boven gemiddelde.
Dus dan Z-score bekijken, en dan zie je dat hij hoger scoort dan
93,699% van studenten.
In SPSS: Analyze -> Descriptive Statistics -> Descriptives -> Save
standardized values as variables
Inner range:= Q3 + 1,5 IQR
Outer range= Q3 + 3 IQR
Als Q3=40 en IQR=16, dan is inner range 40 + 24 = 64.
Getallen tussen Inner en outer fence zijn outliers. Die worden aangeduid met rondje.
Outer range is dan 40 + 48 = 88. Alle getallen boven de outer range zijn extreme cases. Die worden aangeduid met een
sterretje*.
HC3 B - Bivariate statistiek (grafisch)
Bivariate statistiek= relatie tussen twee variabelen (X Y)