Beschrijvende en Inferentiële Statistiek (BIS)
Hoorcollege 1: H2 Beschrijvende univariate statistiek
Kwantitatief onderzoek ligt aan de basis van beschrijvende en inferentiële statistiek,
maar wat is statistiek precies? Statistiek gaat over de methoden om gegevens te
verzamelen, bewerken, interpreteren en presenteren. Die gegevens noemen we
data die je hebt verkregen door het uitvoeren van je onderzoek (Dit kunnen
bijvoorbeeld enquêtes/surveys geweest zijn). Het ultieme doel van statistiek is door
middel van data kennis vergaren over de wereld om ons heen.
Bij statistiek horen verschillende termen. De term die het vaakst terugkomt en erg
belangrijk is, is significantie. Hiermee wordt vaak de significante afwijking bedoeld.
Als iets significant afwijkt wil het zeggen dat het niet een toevallige afwijking is, maar
daadwerkelijk anders dan de rest van de data. Een goed beeld kun je hierbij krijgen
kijkend naar de zetels in het politieke systeem. Daarbij bestaat er een foutmarge, dit
is waartussen de uitkomst(en) van de data kunnen (mogen) zitten.
Wanneer een partij in zetels zakt, kan dit toevallig zijn wanneer het binnen deze
foutmarge of ook wel onzekerheidsmarge genoemd zit. Wanneer dit niet het geval
is, is er sprake van een significante afwijking.
Voorbeeld van een foutmarge: Bij een peiling met 2000 respondenten is de
foutmarge ongeveer 5 zetels (voor een partij met ongeveer 29 zetels). Die partij kan
dus in werkelijkheid een steun hebben van tussen 27 en 31 zetels. Valt een
waarneming buiten deze foutmarge, dan is de kans groot dat er sprake is van een
significante afwijking.
Statistiek wordt onderscheiden in twee soorten. Dit zijn de:
Beschrijvende statistiek: Samenvatting van de verkregen data. “De gemiddelde
Nederlander vindt dit”. Of je rekent een gemiddelde uit en meer niet.
En de Inferentiële statistiek: Uitspraken en voorspellingen doen over hele populatie
op basis van de verkregen data (steekproef). Hierbij wil een onderzoeker verder
gaan dan alleen een samenvatting en wil hij ook voorspellen hoe de uitkomst voor
een grotere groep zou zijn. Vandaar ook dat inferentiele statistiek is gebaseerd op
het werkwoord to infer, wat iets concluderen uit of opmaken uit betekent.
De Terminologie is de studie naar termen die ook terugkomen in het boek. “sample
statistic” betekent wat je feitelijk hebt ondervraagt (Je hebt bijvoorbeeld 100
,mensen ondervraagt). En “population parameter” is de waarde van de populatie
waarover je uitspraak wil doen.
Bij inferentiële statistiek wordt er constant gekeken naar de sample. Je kunt nu
natuurlijk niet elke Nederlander een vragenlijst opsturen, daarvoor worden er tactisch
mensen uit regio’s gevraagd om mee te doen (sampling frame). Hieruit wordt er
constant een sprong gemaakt van de sample naar de statistiek om uitspraken te
kunnen doen over de hele bevolking (voorspellen).
Literatuur
- Agresti & Franklin: The Art and Science of Learning from Data. (3e editie,
2013). Je kunt ook de 4e editie gebruiken (2018).
- Van de Bunt: Reliability Analysis (college 3). Dit hoofdstuk is beschikbaar op
Canvas, zie literatuur.
Beschrijvende univariate statistiek
Hierbij wordt er maar van 1 variabele gebruikt gemaakt en dus niet van allerlei
combinaties (= univariaat). Hierbij wordt er gekeken naar:
- Meetniveau van variabelen
- Centrale tendentie (gemiddelde, mediaan, modus)
- Verdeling (histogram, barchart)
- Spreidingsmaten (standaarddeviatie, variantie)
Het boek maakt de volgende twee contrasten:
- Categorisch: Is een variabele een categorie/kenmerk waar we niet zoveel
mee kunnen, zoals lievelingskleur?. Je kunt dit een getal geven maar dit
betekent niet zo veel en heeft geen relatie tot elkaar qua berekening. De
statistiek is daarin dus beperkt. Kwantitatief: Of is het een getal waar we
mee kunnen rekenen of wiskundige verbanden mee kunnen leggen?
- Discreet: Vaste waarden die niet achter de komma kunnen voorkomen, zoals
aantal auto’s, mensen of dakramen. Continu: Waarden die wel achter de
komma kunnen, zoals kilo’s, lengte, tijd en leeftijd.
Hier volgt een betere definitie van categorische variabelen: Deze hebben als
waarden geen getallen, maar alleen kenmerken of categorieën. Bijv: geslacht,
nationaliteit, religie, opleidingsniveau. Deze Categorische variabelen kunnen we
weer onderverdelen in 2 soorten: Nominaal (geen rangordening mogelijk) en
Ordinaal (wel rangordening mogelijk).
Nominaal is eigenlijk hetzelfde als categorisch. De variabele heeft
meerdere groepen, maar er is geen rangordening. Bijv: nationaliteit, religie,
studierichting. Je kunt de verschillende groepen aanduiden met een kleur, letter of
,symbool. Maar ook met een getal. Een “speciaal geval” van een nominale variabele
is dichotoom (dummy variabele): 0/1 kenmerk. Bijv: geslacht, aangezien er maar 2
uitkomsten mogelijk zijn, man of vrouw. Je kunt dan de variabelen altijd
terugbrengen tot een 0/1 dichotomie.
Ordinaal: De groepen hebben een rangordening, maar geen vaste afstand. Bijv:
rangen in het leger, opleidingsniveau (vmbo, havo, vwo). Hier wordt mee bedoeld
dat het niet betekent dat de stap van vmbo naar havo even groot is als de stap van
havo naar vwo. Daarom worden ordinale variabelen worden soms voor het gemak
als kwantitatief behandeld, dus dat er wel vanuit wordt gegaan dat het gelijke
afstanden zijn.
Kwantitatief (interval/ratio): Dit zijn variabelen die als waarde getallen aannemen.
Bijv: leeftijd, gewicht, inkomen. Hierbij worden de twee soorten discreet en continu
onderscheiden.
Het onderscheid tussen meetniveaus is belangrijk, omdat ze verschillende
rekenkundige/statistische operaties toestaan.
,Is de variabele (1) nominaal, (2) ordinaal of (3) interval/ratio?
- Hoeveelheid groente (in gram) dat je per dag eet: Interval/ratio
- Kledingmaat (S, M, L, XL): Ordinaal
- Aantal keer dat je per jaar naar de kapper gaat: Interval/ratio
- De studierichting die je volgt (CW, SOC, POL, B&O, CAO): Nominaal
Hierboven is een SPSS dataset weergeven. Je ziet dat er 5 personen werden
onderzocht, dit zijn dus de analyse-eenheden ofwel cases.
Centrummaten
- Gemiddelde (M)
- Mediaan (Md) is het middelste getal van de waarneming (dataset)
- Modus is het vaakst voorkomende getal in de dataset
Bij een gemiddelde hoort een verwachting wanneer je geen data hebt en dus moet
gokken wat het gemiddelde zou kunnen zijn. De formule hiervan (net zoals alle
formules) staat op het formuleblad.
Bij de mediaan kijk je dus naar het middelste getal, wanneer dit een oneven rij
getallen is, is de middelste er direct uit te halen, bij een even aantal pak je het
gemiddelde van de middelste 2 waarnemingen. Je hebt bijvoorbeeld 10
waarnemingen, de 5e en de 6e waarneming zijn respectievelijk 100 en 110 wat
betekent dat de mediaan 105 is.
Bij ordinale metingen kunnen we gaan tot de mediaan, aangezien dat het enige
ietwat nuttige is bij deze meting.
,De verdeling (distribution) van de data is ook belangrijk. Als het gemiddelde op een
6,5 zit, kan de verdeling tussen de 6 en de 7 zitten, maar ook tussen 4 of 9… Dit is
belangrijk en waardevol om te weten om bijvoorbeeld ook een inschatting te maken.
Bij een 6-7 verdeling is deze inschatting veel nauwkeuriger.
In het voorbeeld op slide 39 zijn de 559 shark attacks de cases of analyse-eenheden
en zijn de verschillende regio’s de variabelen. Je ziet hierbij het absolute en het
relatieve aantal. Absoluut is de werkelijke frequentie, en relatief is het absolute getal
delen door het totaal aantal (proportie x 100 geeft het percentage). Deze proportie
ligt altijd tussen de 0 en 1 en is bij elkaar opgeteld altijd 1 (oftewel 100%).
Een staafdiagram of bar chart bevat witte ruimte tussen de staafjes, zo kun je zien
dat het een staafdiagram is. Dit is zo gedaan omdat een stap van de ene naar de
andere variabelen niet een inhoudelijke stap is, ze hebben geen invloed op elkaar en
zijn dus losstaand. Een histogram daarentegen heeft geen ruimte tussen de
balkjes, omdat de variabelen kwantitatief (interval/ratio) zijn waardoor de stap wel
inhoudelijk met elkaar te maken hebben, de stap is namelijk steeds even groot en
dus hetzelfde. Een regio bijvoorbeeld is categorisch en moet als staafdiagram, en
een aantal doden is kwantitatief en dus moet het in een histogram gevormd worden.
, Het unimodale model biedt meer zekerheid aangezien het gemiddelde veel
duidelijker en precies is aangegeven, terwijl er bij een bimodale model sprake is van
een minder nuttige verdeling wat dus een vertekend beeld kan geven.
Bij een unimodale verdeling bestaat er skewed to right (skied to the right, rechts is
het steiler) en skewed to left (skied to the left, links is het steiler). Dit laat zien waar
de meerderheid van de waarnemingen of data zitten. De steile kant gaat het snelst
omlaag wat betekent dat de frequentie daar lager is, en er dus aan de andere kant
meer waarnemingen of data zijn. Skewed to the right is meestal zo iets als
inkomensverdeling huishoudens, en skewed to the left is meestal zo iets als
levensverwachting (in welvarende landen natuurlijk).
Bij deze verdelingen is er mogelijk sprake van een outlier. Dit is wanneer 1 of
enkele van de waarnemingen extreem afwijkt van de rest van de waarnemingen.
Hiervoor moet je opletten tijdens je onderzoek omdat dit de uitkomsten zoals het
gemiddelde (deze is het gevoeligst voor outliers) sterk kan beïnvloeden.