Kwantitatieve onderzoeksmethoden
1. Beschrijvende statistiek
1.1. Concepten en jargon
1.1.1. Soorten data
Categorische data = kwalitatief Numerieke data of kardinale data
Nominaal (ongeordend) Interval (afstand tussen waarden)
Ordinaal (geordend) Ratio (verhouding tussen waarden)
a. Nominale data
• Bv. plaatsnamen, religies, instituties, bezittingen, terugkerende woorden in een tekst…
• Kenmerken:
o Altijd uniek en afgescheiden
o Soms dichotoom (vb. man/vrouw, open/gesloten)
o Vaak gecodeerd (numerieke codes om statistische bewerkingen toe te staan)
§ Zie SPSS
o Feitelijke namen niet relevant
o Geen rangorde tussen verschillende waarden
o Discreet en categorisch: kunnen eindig aantal elkaar uitsluitende
waarden/categorieën aannemen
• Voorbeeld tabel: naam en gestolen goed
b. Ordinale data
• Kenmerken:
o Ordinaal = geordend
o Hiërarchie of ordening is belangrijk
o Afstand tussen categorieën moet niet altijd even groot zijn
• Voorbeeld bovenstaande tabel: professionele status en omschrijving misdaad
o Matroos staat onder kapitein, en piraterij zal minder streng worden bestraft dan
piraterij met fysiek geweld
• Voorbeeld tabel sociale klassen: klassen geordend volgens sociale hiërarchie, dus
ordinale data
1
, c. Interval data
• Kenmerken
o Interval of afstand is altijd betekenisvol (bv. afstand tss 1° & 2° = tss 2° & 3°)
o Continue schaal (kunnen in principe oneindig doorlopen)
o Onderscheid: discrete en continue data
§ Discrete data: unieke getallen, dus 1, 2, 3… bv. hoeveel kinderen in gezin
§ Continue data: cijfers na de komma mogelijk, bv. 1,5
d. Ratio data
• Kenmerken
o Nooit onder nul: je hebt altijd een nulpunt
o Niet de exacte afstand maar de ratio of verhouding tussen de data is belangrijk
o Opnieuw discreet of continu mogelijk (eigenlijk # kinderen hier, want niet -1 kind)
o Bv. afstanden, opbrengsten of lonen
• Voorbeeld Engelse wolprijzen = numerieke ratiodata want niet onder 0
1.1.2. Datamatrix: algemeen
• Tabel
o Steeds een titel en een bronvermelding (anders niet juist gelezen & geïnterpreteerd)
o Waarnemingseenheid = rij die alle informatie bevat over 1 individuele categorie
o Variabelen = eigenschappen binnen waarnemingseenheden, bv. naam, leeftijd…
o Individuele cel wordt steeds gevuld door 1 waarde
1.2. Vuistregels
• Hoe te bepalen wat variabelen en wat waarnemingseenheid moet zijn?
o Steeds relatief
o Bepaald door onderzoeksvraag en soort data
o Dezelfde data kunnen anders georganiseerd worden
• Tabel lees je doorgaans van links naar rechts en van boven naar onder
• Minimumeisen voor tabellen
o Titel: beschrijving van inhoud, periode en munteenheid
o Voetnoot: bron en mogelijk extra uitleg
o Rij- en kolomtitels: kort en duidelijk
o Gegevens die met elkaar vergeleken worden, moeten dicht bij elkaar staan
2
,1.3. Gegevens ordenen: frequentietabellen
• Tabellen vooral gebuikt voor ordinale en nominale data
• Bijna alle tabellen zijn variatie van de frequentietabel, verschillende elementen:
o Distributie = reeks waarden per variabele
o Frequentie = hoeveelheid of aantal keer een waarde van deze variabele voorkomt
è Frequentietabel = tabel van frequentie waarmee een specifieke variabele
voorkomt, bv. tabel rond transportvoorkeuren
o 3 soorten frequentietabellen: simpel, gegroepeerd of cumulatief
o Al deze tabellen kunnen absolute of relatieve frequenties weergeven
• Casus: rol van handelaars uit de Zuidelijke Nederlanden in de Noordelijke Nederlanden
o Gelderblom onderwierp de gevluchte handelaars aan een prosopografische studie:
keek naar hun herkomst, beroep, leeftijd en welstand immigranten
§ Vraag 1: wat was de origine van de Zuid-Nederlandse kooplui die zich na 1578
in Amsterdam vestigde?
¨ Gebruikte hiervoor poortersboeken: hierin worden alle burgers van de stad
ingeschreven, nieuwe immigranten genoteerd met vermelding origine
¨ Koos voor simpele frequentietabel
- Links de variabele: plaats van oorsprong, rechts de frequenties
3
, ¨ Wat leert deze grafiek ons?
- Veruit de meeste immigranten komen uit Antwerpen
- Absolute waarden interessant, maar moeilijk om verhoudingen in te
schatten, dus relatief aandeel
¨ Ongegroepeerde frequentietabellen zijn nuttig wanneer er weinig
verschillende waarden weergegeven moeten worden
¨ Vaak echter veel meer verschillende waarden per variabele, dan is het beter
te kiezen voor een gegroepeerde frequentietabel
§ Vraag 2: wat is de welstand van de migranten?
¨ Gebruikte hiervoor vermogensbelastingslijsten, nl. de Maandelyckse
Quotatie uit 1584-1585: maandelijkse heffing op het vermogen van
gegoede Antwerpenaren
- Lange lijst van inwoners van verschillende steden, waarbij de geïnde
bedragen variëren van enkele stuivers tot honderden gulden
¨ Koos voor gegroepeerde frequentietabel
- Belastingen gegroepeerd in 7 klassen
- Wisselende klassenbreedte
- Wetenschappelijke quotatie
- Absolute frequentie in kolom 1
- Relatieve frequentie in kolom 2
- Cumulatieve frequentie in kolom 3
- Duidelijkheid (niet alle individuele belastingaanslagen), maar verlies
van detail (onmogelijk exacte aanslag te achterhalen)
- Keuze van klassenbreedte essentieel en afhankelijk van vraag &
boodschap: wat wil je meegeven en wat zijn relevante categorieën?
l Bv. voor vroegmoderne periode is verschil 2-3 gulden groter dan
10-20 gulden
§ Vraag 3: hoeveel percent van de handelaarsgezinnen betaalt minder dan 5
gulden? Hoe verhoudt zich dit tot de totale populatie?
¨ Wordt meteen duidelijk in een cumulatieve frequentietabel
- Geen absolute frequenties
- N = aantal observaties
- Ideaal om aandeel van totaal in hiërarchische variant weer te geven
- Onderste rij moet steeds op 100% uitkomen!
4