Statistiek
Hoofdstuk 1: meten en meetschalen
Terminologie en kernbegrippen
Onderzoekspopulatie
o Alle leden van een welomschreven groep die je wil onderzoeken
Statistische eenheid
o Cases: element uit de bestudeerde bevolking
Variabele
o Kenmerken van onderzoekseenheden waarin we als onderzoeker
geïnteresseerd zijn?
o Bij sommige kenmerken zijn de waarden al een getal (leeftijd)
o Bij sommige kenmerken is dit niet het geval (geslacht)
Datamatrix
o Cases (waarnemingseenheden): in rijen = records
o Variabelen (waarde varieert): in kolommen
o Waarden: in cellen
p V1 V2 V3
1 19 1 2
2 20 1 0
3 19 2 0
Parameters
o Kengetallen die de verdeling weergeven van een kenmerk van een
populatie
m = gemiddelde van populatie
s = de standaardafwijking
p = proportie
, Steekproeven
o onderzoek met betrekking een specifieke bevolkingsgroep (population)
o vaak onmogelijk om steekproef volledig te onderzoeken -> steekproef
(sample)
o specifieke statistische technieken om conclusies te trekken over de
populatie op basis van steekproefonderzoek (inferentiële statistiek)
Steekproefstatistieken
o omvatten de statistische kengetallen van een steekproef of schatters
o statistische maat is een numerieke samenvatting v/d steekproef uit de
populatie
Opmerkingen:
Beschrijvende statistiek = zowel van toepassing op de populatie als op een
steekproef
Inferentiële statistiek = op basis van steekproefgegevens uitspraken den over
de gehele bevolking
Statistische reeks
o Reeks waarnemingen
Tijdreeks
o Reeks waarnemingen in de tijd
o Ogenblik van waarneming is belangrijk voor de interpretatie van de
gegevens
Dimensie van een reeks
o Aantal variabelen dat simultaan wordt waargenomen of bestudeerd
o Eendimensionale reeks: 1 variabele
o Tweedimensionale reeks: 2 variabelen
o Multidimensionale reeks: meer dan 2 variabelen
Meten?
Waarom is meten?
Numerieke waarden toekennen aan objecten
Laat toe om vergelijkingen te maken
Moderne standaarden en internationale overeenkomsten: lengtematen,
tijdsmaten, gewicht …
Statistiek heeft nood aan standaarden
o Voor sommige eenheden evident
o Voor andere complex tot zeer complex
o Gestandaardiseerde meetschalen en gestandaardiseerde indicatoren.
, Verdeling van de populatie P in equivalentieklassen Ek
o Deelverzameling van de populatie P die alle elementen groepeert die
voor het bestudeerde kenmerk als equivalent (gelijkwaardig) worden
beschouwd.
Kenmerken of ‘schalen’ van equivalentieklassen
o Toekennen van een eigen waarde (kwalitatief of kwantitatief) aan elke
equivalentieklasse van het ongeschaalde kenmerk.
De verzameling X der waarden wordt de meetschaal van de variabele
genoemd.
Een variabele is een afbeelding van een bevolking P in een verzameling
waarden -> het gemeten eigenschap of kenmerk.
Wat is meten?
Meten & meetschalen
o Toekennen van getallen aan equivalentieklassen
o Hoe?
Aan elke waarde van het ongeschaalde kenmerk wordt een
eigen, specifieke ‘code’ of getal toegekend.
De waarden die aan equivalentieklassen worden toegekend,
weerspiegelen in realiteit bestaan tussen de
equivalentieklassen, en énkel die relaties
Kwantitatieve versus kwalitatieve waarden
o Voordelen van kwantitatieve waarden
Eenduidiger dan kwalitatieve waarden
Vaak wordt bij beschrijving gebruik gemaakt van
synoniemen of half-synoniemen: moeilijker af te leiden in
hoeverre het om equivalente getallen gaan.
Verwerking gaat vlotter
Meer mogelijkheden tot analyse
Operationalisatie
o Meetbaar maken van variabelen in één of meerdere vragen.
o Bepalend voor de rest van je onderzoek
o Meestal op basis van voorafgaand onderzoek of op basis van een theorie
Afhankelijke en onafhankelijke variabalen
o In onderzoek wens je een variabele te verklaren of relaties met andere
variabelen in kaart te brengen
Eigenschappen van variabelen
Meetniveau
o De manier waarop je een variabele meet, bepaalt het meetniveau of de
meetschaal van de variabele.
o Bepaalt welke statistische analyses mogelijk zijn en welke niet.
o 4 criteria die bepalen welk meetniveau het is
, Classificatie: de numerieke waarde is slechts een naamgeving.
Ordenbaarheid:
De variabele of meetschaal X is ordenbaar wanneer,
voor elk paar elementen x1 en x2 van element
Het bestaan van een meeteenheid
Zelfde verschillen tussen de waarden van X
weerspiegelen dezelfde intensiteit van het bestuurde
kenmerk.
Slechts van toepassing op kwantitatieve waarden.
Merk op!
o De aanwezigheid van 0 heeft GEEN bijzondere
betekenis en duidt dus NIET op de afwezigheid
van het kenmerk.
o Verschillen kunnen worden berekend, maar
ratio’s (verhoudingen) zijn betekenisloos.
Het bestaan van een absoluut nulpunt
Een absoluut nulpunt is een waarde (0) die de
afwezigheid van het bestudeerde kenmerk weergeeft.
Merk op!
o Negatieve waarden komen NIET voor wanneer
een absoluut nulpunt bestaat.
o Ratio’s of verhoudingen zijn bepalend.
o 4 meetschalen
Nominaal
Niet rekenen met waarden die je aan variabelen hebt
gegeven.
Numerieke waarde is slechts een naamgeving
(classificatie)
Voorbeeld: geslacht, beroep, woonplaats …
Ordinaal
Sprake van rangorde
Intervallen tussen waarden van de klassen hebben geen
betekenis.
Interval
Rangordening + meeteenheid
Intervallen tussen de waarden van klassen hebben wel
betekenis.
Optellen en aftrekken is mogelijk.
Voorbeeld: temperatuur, IQ
Ratio
Rangorde + meeteenheid + absoluut nulpunt
Intervallen tussen waarden van klassen hebben wel
betekenis.
Er is sprake van een absoluut nulpunt
Optellen, aftrekken, delen en vermenigvuldigen is
mogelijk.
Voorbeeld: lengte, leeftijd, aantal vrienden op Facebook.
Soorten variabelen
o Dichotome variabelen
Variabelen die slechts twee waarden kunnen aannemen
, Specifieke, restrictieve vorm van een categorische variabele
Voorbeeld: geslacht, dood/leven
o Discrete en continue variabelen
Discrete variabelen: variabelen die alleen gehele waarden
kunnen aannemen
Continue variabelen: kunnen elke waarde (binnen bepaalde
grenzen) aannemen.
1
1
keuzemogelijkheid 8
,Hoofdstuk 2: frequentieverdelingen en grafische voorstellingen
Inleiding
Om onderzoeksvragen te beantwoorden, wordt er vaak gebruik gemaakt van kwantitatief
onderzoek omdat men zo gemakkelijk gegevens kan verzamelen om ze dan vervolgens
kort en samenvattend voor te stellen. Er bestaan elementaire technieken om deze
gegevens voor te stellen: (1) weergeven van frequenties in tabellen, (2) grafische
methodes gebruiken zoals, staafjesdiagrammen, histogrammen of (3) samenvattende
numerieke getallen.
Frequentieverdelingen en -tabellen
Bij een frequentieverdeling wordt voor elke waarde of categorie van de variabele
aangegeven hoeveel waarnemingen die tellen, in absolute of relatieve aantallen. In een
frequentietabel worden gegevens dikwijls in tabellen weergeven. Een frequentietabel
heeft een aantal functies: (1) kwaliteit van de inbreng controleren, (2) later bewerkingen
kunnen uitvoeren en (3) het vormt een basis voor grafische voorstellingen.
Grafieken; waarom?
Een grafiek is een visuele weergave van de frequentieverdeling. Dit is belangrijk om data
te verkennen naast de frequentietabel; het geeft een visuele analyse van de distributie of
de verdeling van de gegevens, ook vallen uitschieters en anomalieën op. Verder is een
grafiek nog belangrijk om bevattelijk resultaten te rapporteren. Het is leesbaar en geeft
duidelijkheid door een informatieve titel, benoeming van de assen, …
Definities en notaties
N is de steekproefgrootte of het effectief van de steekproef of de populatie.
o Voorbeeld: Veiligheidsmonitor 2004 N = 12.000
Er worden n verschillende waarden genomen
o x1, x2, …, …, xn
absolute en relatieve frequentie
o Absolute frequentie (Fi) is het aantal keer dat een bepaalde waarde x i werd
waargenomen. De som van de absolute frequenties ie gelijk aan de
steekproefomvang, het effectief;
n
∑ Fi=N
i=1
o Relatieve frequentie (fi) wordt bekomen door de absolute frequentie te
delen door steekproefomvang of het effectief:
fi= Fi
N
Merk op:
n
∑ fi= FN1 + FN2 +…+ Fn
N N
N
= =1
i=1
De grafische voorstelling van frequentieverdelingen
Wanneer we de waargenomen frequenties van een populatie of van een steekproef
samen beschouwen, spreken we van een frequentieverdeling. Grafisch kunnen we de
frequentieverdeling weergeven aan de hand van verschillende grafieken
(taartdiagrammen, pictogrammen, staafdiagrammen, histogrammen, lijngrafieken).
Een verdeling (distribution)
Een grafiek beschrijft een verdeling van gegevens visueel. Het is een verwarrende term
omdat deze veelvuldig gebruikt wordt in diverse contexten met een andere betekenis.
Hier is de verdeling of distributie gekoppeld aan de frequentie van de waarnemingen: de
frequentieverdeling. De grafiek is afhankelijk van de meetschaal.
,Frequentieverdeling en grafische voorstelling: nominale schalen
De gegevens op een nominale schaal worden als volgt geschikt: (1) de waarden van de
nominale schaal zijn niet geordend, (2) de volgorde waarin de waarden worden
opgenomen is willekeurig, (3) om het leesbaar te maken, moeten gegevens geordend
worden – alfabetisch … en (4) het is van belang om duidelijke titels en labels te
gebruiken.
De gegevens kunnen voorgesteld worden in een staafjesdiagram,
cirkeldiagram/taartdiagram of een pictogram.
Bij een staafjesdiagram wordt elke waarde xi voorgesteld door een balk, waarvan
de lengte recht evenredig is met de frequentie. Om grafische redenen kunnen
assen worden getransponeerd (horizontale staafdiagram).
Bij taartdiagrammen/cirkeldiagrammen wordt elke waarde x i door de cirkelsector
voorgesteld, waarvan de oppervlakte recht evenredig is met de frequentie.
Taartdiagrammen vereisen dat alle categorieën van de populatie zijn opgenomen
en benadrukt de verhouding van elke groep tot het geheel.
Bij een pictogram is de grootte van het figuur of het aantal maal dat een figuur
herhaald is recht evenredig met de frequentie van elke waarde x i. een pictogram
wordt vaak gebruikt om statistieken in tijdschriften op te leuken, maar bevordert
de leesbaarheid niet.
Frequentieverdeling en grafische voorstelling; ordinale schalen
De frequentietabel op ordinale schaal wordt opgesteld zoals bij nominale variabelen,
maar de volgorde van de frequenties in de frequentietabel is bij ordinale variabelen
gebaseerd op de ordening van de waarden xi:
X1 < X2 < … < X n
Als de ordening van de waarde x i gegeven is, dan kunnen de cumulatieve frequenties
worden berekend.
n
Absolute cumulatieve frequentie -> K ( xi)= ∑ Fj
xj ≤ xi
n
Relatieve cumulatieve frequentie -> k ( xi)= ∑ fj
xj ≤ xi
, K ( xi )
Merk op dat -> k ( xi )=
N
De gegevens kunnen worden voorgesteld in een histogram of cumulatieve
frequentiefunctie.
Bij een histogram wordt elke waarde xi voorgesteld door een rechthoek, waarvan
de hoogte recht evenredig is met de frequentie. De abscis (X-as) is gericht, maar
is geen meeteenheid. De rechthoeken hebben dezelfde basis en worden
gescheiden voorgesteld.
Bij de cumulatieve frequentiefunctie wordt een grafische voorstelling gegeven van
de absolute of relatieve cumulatieve frequentie. Deze functie is voor iedere
waarde xi gedefinieerd. De cumulatieve frequentiefunctie is voor een ordinale
variabele een trapfunctie, hoge trappen wijzen op hoge frequenties.
Opmerkingen: bij nominale en ordinale variabelen kunnen getallen gebruikt worden om
nominale of ordinale waarden te representeren. Het gebruik van getallen verandert het
nominale of ordinale kenmerk niet. Bij ordinale variabelen kan het getal een betekenis
krijgen van ordening. Dezelfde gegevens kunnen op een verschillend meetniveau
worden weergegeven.
,Hoofdstuk 3: statistische maten
Waarom statistische maten?
Frequentietabellen en grafieken zijn vaak onvoldoende om de informatie vervat in de
brutowaarnemingen te vatten. Om gegevens te synthetiseren wordt gebruik gemaakt van
kenmerkende waarden of kenwaarden. Statistische maten beschrijven de geobserveerde
frequentieverdeling mathematisch. Het bevat parameters voor een populatie en die voor
een steekproef
Soorten statistische maten
Er zijn 3 soorten statistische maten: (1) liggingsmaten waaronder centrummaten, (2)
spreidingsmaten en (3) maten van vorm.
Statistische maten van ligging
Statistische maten van ligging of van positie laten het toe om een verdeling op de abscis
te situeren. Deze maten moeten steeds tussen de kleinste en de grootste waargenomen
liggen (met één van de waarden overeenkomen in het geval van normale veranderlijken).
De keuze voor een maat om een verdeling te beschrijven is afhankelijk van het
meetniveau van de beschouwde verdeling, maar kan ook gebaseerd zijn op inhoudelijke
criteria. Ook laten deze maten het toe om efficiënt groepen te vergelijken.
Er zijn 3 soorten: (1) centrummaten zoals modus, mediaan en gemiddelde, (2) kwantielen
zoals kwartielen, decielen en percentielen, en (3) momenten.
MODUS X0 (nominale schaal):
De brutowaarneming is de waargenomen waarde van de variabele met de
hoogste frequentie.
x 0=xk ∨Fk=Max Fi
Bij in klasse gegroepeerde gegevens hebben we een modale klasse. Dat is
een klasse met de hoogste frequentie, of, modus is het klassenmidden van
de klasse met de hoogste frequentie.
De voordelen aan modus zijn dat het gemakkelijk te bepalen is op basis van
een frequentietabel. Het kan gebruikt worden bij elke meetschaal van
nominaal tot ratio.
De nadelen hiervan zijn dat de modus niet noodzakelijk uniek is, meerdere
waarden of klassen kunnen dezelfde hoogste frequentie hebben. Ook houdt
het geen rekening met de andere waargenomen waarden. Enkel de
hoogste frequentie bepaalt de modus: erg verschillende verdelingen
kunnen dus dezelfde modus hebben. Ten laatste is er moeilijk
mathematisch mee om te gaan.
, MEDIAAN (ordinale schaal)
De mediaan is de waarde van de variabele die het toelaat de
waarnemingen in twee gelijke delen op te delen zodat er evenveel
waarnemingen kleiner dan of gelijk aan de mediaan als groter dan of gelijk
aan zijn. Het wordt uitgedrukt aan de hand van cumulatieve frequenties.
~
x=¿
Als het aantal waarnemingen even is, kan de mediaan tussen 2 waarden
vallen, we nemen in dat geval het gemiddelde van beide waarden. Ook wel
lineaire interpolatie genoemd. De mediaan is beter geschikt als
beschrijvende maat dan gemiddelde bij asymmetrische (scheve)
verdelingen, die niet wordt beïnvloed door outliners. De mediaan kan niet
berekend worden voor nominale verdelingen.
Als we de mediaan moeten zoeken van gegevens die in klassen zijn
gegroepeerd dan wordt de mediaan bepaald door middel van lineaire
interpolatie (homogeneïteitsprincipe). We bereken de mediaan dan als
volgt:
~ N /2−K ( x ' m )
x=x ' m + ×l
Fm
Uitleg bij de formule:
X’m : ondergrens van de klasse waarin K(x)= N/2
K(x’m) : absolute cumulatieve frequentie voor de ondergrens van deze
klasse
Fm : absolute frequentie van deze klasse
L = lengte van deze klasse
De voordelen aan het gebruik van de mediaan zijn dat de mediaan enkel
afhankelijk is van de orde van de waarnemingen en is uniek. Het is minder
gevoelig voor extreme waarden.
De nadelen zijn dat de mediaan enkel afhankelijk is van de orde van de
waarnemingen, wat een nadeel is bij de toepassing op hogere meetschalen.
Ook worden niet alle waargenomen waarden in rekening gebracht en het is
moeilijk om mathematisch mee om te springen.