Statistiek in de criminologie
Hoofdstuk 2 inleidende begrippen
1. Inleiding
Onderzoekseenheden of objecten zijn de personen of zaken waar je iets over zegt. Het hoeven niet
altijd personen te zijn. Door statistiek kun je precieze uitspraken doen over de kenmerken ban
onderzoekseenheden. Kenmerken zijn de variabelen in het onderzoek.
- Variabelen of kenmerken (onderzoekseenheden hebben bepaalde kenmerken → Variabelen)
o Enkel kenmerken met spreiding (verschillen, variabiliteit) in overweging nemen
o Verschillen tussen onderzoekseenheden voorspellen (onzekerheid modelleren en verklaren)
▪ Verschillen/onzekerheid modelleren/beperken en verklaren
o Afhankelijke (te verklaren) en onafhankelijke (verklarende) variabelen
▪ Afhankelijke verklaring → wensen we te verklaren
▪ Onafhankelijke variabelen gaan wij gebruiken om de afhankelijken te verklaren
De gegevens verzamelen die statistisch bruikbaar zijn is niet makkelijk. Daarom moeten ze op
voorhand duidelijk gedefinieerd zijn, anders is er risico op overgeneralisatie.
De onderzoekspopulatie is de verzameling van individuen waar men een uitspraak over wil doen.
De steekproef is een staal uit de populatie. De respondenten zijn de mensen die uiteindelijk echt zijn
bevraagd. Belangrijk is dat de steekproef aselect en representatief (een kenmerk id steekproef komt
even vaak voor in de onderzoekspopulatie) moet zijn.
2. Beschrijven, schatten en veralgemenen als statische bedrijvigheid.
Statistiek is het geheel van regels en procedures om gemeten kenmerken te verwerken. Er zijn 2
soorten statistiek: de beschrijvende statistiek en de inductieve/inferentiële statistiek.
Beschrijvende statistiek Inductieve/inferentiële statistiek
= op een overzichtelijke, samenvattende of = veralgemenen van gegevens verzameld voor
synthetische wijze kenmerken weergeven die een steekproef naar de populatie.
voorkomen in een populatie of steekproef. - STEEKPROEF → (naar) Populatie
- Beschrijven van de variabiliteit van de
onderzochte kenmerken in een Veronderstellingen kunnen we formuleren
populatie aan de hand van een onder de toetsbare stellingen.
steekproef - Hypothesen zijn specifieke stellingen
- Kwantitatieve (cijfermatige) beschrijving betreffende de (causale) relatie tussen
van de kenmerken van de steekproef minstens 2 concepten die afgeleid zijn
Voorbeeld: (1) mate van centraliteit, (2) maten uit de theorie.
van spreiding
Soorten hypothesen:
Kenmerkend is de datareductie techniek. Ze Onderzoekshypothese: betrokken stelling in
stellen zich de vraag hoe grote hoeveelheden positieve zin, dit houdt de richting in van de
gegevens overzichtelijk gepresenteerd kunnen verwachting van de onderzoeker
worden zonder dat er veel info verloren gaat.
1
, 2 beperkingen: Nulhypothese: omkering vd
Resultaten kunnen niet veralgemeend worden onderzoekshypothese. Er is geen verband tussen
naar andere personen/eenheden. variabelen.
Het laat niet toe causaliteit vast te stellen. - Afwezigheid van wat je verwacht te
observeren
Alternatieve hypothese: wanneer we onze
nulhypothese kunnen verwerpen (statistisch
significant) dan wordt onze
onderzoekshypothese, de “alternatieve
hypothese”
3. Statistiek en de beantwoording van beschrijvende en verklarende
onderzoeksvragen
Problemen roepen vragen op, daarom moeten we een probleemstelling (centrale onderzoeksvraag)
te formuleren. Deze moet zo nauwkeurig worden geformuleerd. Het is de basis van het onderzoek.
Soorten onderzoeksvragen
Beschrijvende onderzoeksvraag Verkennende onderzoeksvraag Verklarende onderzoeksvraag
Kwantitatieve beschrijving van Aftasten van (nieuwe) Verklarend onderzoek wil een
een fenomeen veronderstellingen, is er een statistische verklaring bieden
Meerdere cijfers verkrijgen die een miss een verband tussen…? voor de geobserveerde
totaal beeld brengen van een bepaald verschillen tussen eenheden
fenomeen
Bv. Wat is de genderratio
Het ligt tussen de (individuen) op basis van één of
(m/v-verhouding) bij bescrhijvende en verklarende meerdere kenmerken van die
seksueel-slachtofferschap? onderzoeksvraag. eenheden. (oorzakelijk
verband, dat is te verklaren
door)
Voorbeeld: Bv. Kan de
woongeschiedenis van een inbreker
zijn doelwitkeuze verklaren?
De eerste stap in een onderzoek is info verzamelen en dus gebruik maken van de beschrijvende en
verkennende. Daarna kunnen we over gaan naar de verklarende.
4. Statische eenheden
= onderzoekseenheden (individuen) waar men een uitspraak over wilt doen. De eenheden beschijven
we aan de hand van een aantal kenmerken (variabelen).
Variabelen zijn kenmerken van statische eenheden die variëren en die verschillende scores hebben op
een bepaald kenmerk.
- Opm: eenheden waarover men uitspraken willen doen, moeten variabiliteit/spreiding
vertonen. Als een kenmerk niet variëert of alle eenheden van een kenmerk dezelfde waarde
hebben, spreken we van een constante (kan niet gebruikt worden in statistisch onderzoek).
2
,VARIABILITEIT!!!
- Statistiek draait om het begrijpen (modelleren, verklaren) van verschillen (variabiliteit, onzekerheid)
o Bv. Waarom verschillen eerstejaarsstudenten in de mate waarin ze seksueel slachtoffer worden?
o Bv. Waarom verschillen straten in de mate waarin er criminaliteit voorkomt?
- Onderzoekseenheden waarover men uitspraken wil doen, moeten dus onderling verschillen (variabiliteit) op de
bestudeerde kenmerken (variabelen) → er moet sprake zijn van spreiding
o Bv. Mate waarin eerstejaarsstudenten seksueel slachtoffer worden verschilt tussen eerstejaarsstudenten
(veel geen, sommige een beetje, weinig zeer veel)
o Bv. Niet alle straten in een stad kennen evenveel delicten (veel geen, sommige een beetje, weinig zeer veel)
- Verschil impliceert ‘onzekerheid’
o Uiteindelijk is het doel om die ‘onzekerheid’ te modeleren of voorspellen, Ultiem valt er dan niets te
begrijpen of te verklaren. Er is geen onzekerheidsprobleem meer om op te lossen
▪ Indien géén verschil, dan vervalt een variabele (kenmerk) tot een constante (er zit totaal geen
verschil, overal hetzelfde) en is er zekerheid (want steeds dezelfde waarde)
- We trachten bij statistiek om verschillen op bepaalde (onderzochte) kenmerken tussen onderzoekseenheden
(individuen) te verklaren.
o Wanneer is er voldoende spreiding?
▪ (1) Elk kenmerk (variabele) dient min. 2 verschillende waarden te hebben (bv. man, vrouw; bv. café,
geen café)
▪ én
▪ (2) Per waarde min. 1 onderzoekseenheid
5. Univariate, bivariate en multivariate beschrijvende analyse
- Univariate analyse: analyse van 1 kenmerk die varieert.
o Maten van centraliteit en spreiding
▪ Voorbeeld: gemiddelden, standaardafwijking,…
- Bivariate analyse: als 2 variabelen (x en y) met elkaar in verband worden gebracht.
o Samenhang of correlatie
▪ Voorbeeld: Pearson correlatie
- Multivariate analyse: als er meer dan 2 kenmerken in verband worden gebracht.
o Regressie
▪ Voorbeeld: OLS regressie
6. Meetniveaus van variabelen
Vier meetniveaus:
- Nominaal Categorische meetniveaus (GEEN GETALLEN)
- Ordinaal
- Interval Metrische meetniveaus (GETALLEN OF AANTALLEN)
- Ratio
Nominaal meetniveau (laagste meetniveau)
Het Nominale meetniveau brengt de kenmerken van onderzoekseenheden onder in categorieën (groepering), en
HIER IS GEEN SPRAKE VAN ORDENING van de categorieën (= GEEN ordening)
- Voorbeeld:
o Kenmerk/variabele = geslacht (=Nominaal)
▪ Man – Vrouw
o Variabele = Geboorteland
o Variabele = ja/nee antwoord (Ja/Nee)
Dit zijn categorische gegevens. Er is ook geen ordening mogelijk.
Het zijn exclusieve (ze mogen elkaar niet overlappen) en exhaustieve (het classificatiesysteem moet alle
onderzoekseenheden kunnen classificeren) categoriën.
3
,Ordinaal meetniveau
Kenmerkend hieraan is dat je de categoriën wel kan ordenen (!!!) Hier speelt rangschikken, onderscheidbaarheid
en ordening een rol. Hierdoor kun je ze op een continuüm plaatsen. We spreken van geordene catgegoriserend
maten.
- Bv. Opinievragen (helemaal niet akkoord—helemaal wel akkoord), opleidingsniveau (basisonderwijs,
middelbaar, hoger, etc.)
Interval meetniveau
Dit zijn variabelen/kenmerken (getallen, want metrisch niveau) waarbij NUL/0 niet echt nul is, men kan
onder nul gaan
- Temperatuur (- 7°) , geboortejaar (500 V.C),…
Ratio meetniveau (hoogste meetniveau)
Dit meetniveau heeft een rangordening, intverallen met een betekenis en een abslouut nulpunt (nul is
geen arbitrait punt).
Dit zijn variabelen/kenmerken (getallen), waarbij 0 echt 0 is
- Gewicht, afstand,…
Schematisch:
meetiniveau Classificatie Totale ordening Meeteenheid Absoluut nulpunt
Nominaal Ja Nee Nee Nee
Ordinaal Ja Ja Nee Nee
Intveral Ja Ja Ja Nee
Ratio Ja Ja Ja Ja
Opm: Deze zijn Cruciaal in de statistiek, ze bepalen de wijze waarop we de gegevens grafisch kunnen
voorstellen, WELKE PARAMETERS we mogen hanteren en de analysetechnieken die we mogen
gebruiken
Opm: hercoderen kan enkel van een hoog naar een laag, niet van een laag naar een hoog (dus bv van
ratio naar interval en van Ratio naar Nominaal, MAAR NOOIT VAN LAAG NAAR HOOG)).
7. Discrete en continue variabelen
Discrete variabelen zijn beperkt tot een telbaar aantal waarden. We gebruiken enkel gehele getallen.
- Verzameling van de Natuurlijke getallen ℕ (0,1,2,3,…) (GEEN KOMMAGETALLEN)
o Voorbeelden: Aantal kinderen, aantal delicten,…
Continue variabelen kunnen alle mogelijke waarden van de meetprocedure zijn.
- Verzameling van reële getallen ℝ (0;0,1;0,2;0,3;….) (OOK MET KOMMAGETALLEN)
o Voorbeeld:
▪ Tijd (jaren of maanden of weken of dagen)
• Welke jaren/maanden komt criminaliteit het meest voor (kan steeds specifieker)
▪ Afstand (kilometers, meters, centimeters,..)
8. De datamatrix als input voor statische analyses
Data/gegevens matrix
- Wat? Als we een statische analyse gaan doen verzamelen we
gegeven. Deze gegevens plaatsen we in een data/gegevensmatrix.
Het bevat de info van elke statische eenheid.
- Vorm? R*K tabel. Het bestaat uit rijen (statische eenheden,
mannekes over wat je iets wilt zeggen) en kolommen (kenmerken)
4
, 9. Afrondingsregel voor statische gegevens
We ronden af met 2 cijfers na de komma.
1-4: naar beneden afronden
5-9: naar boven afronden
10. Sommatieteken
11. Afspraken bij het presenteren van tabellen
In de loop van deze cursus komen we verschillende wijze tegen om een datamatrix samen te vatten in tabellen,
het doel hiervan is om gegevens overzichtelijk te presenteren. We onderscheiden
- Frequentietabellen: telling van hoe vaak iedere
waarde van een variabel voorkomt.
o Onderzocht kenmerk/variabele
▪ = behaalde cijfers
o Waarde = zijn de resultaten dat elke
onderzoekseenheid kan behaald
hebben, van (0-10)
▪ Of ander voorbeeld
• Ras van een hond = variabele
o Waarde:
▪ Labrador
▪ Chihuahua
▪ Tackel
▪ Duitse herder
o Frequentie = het aantal keer dat
bijvoorbeeld een Labrador voorkomt in een dierverblijf
o Frequentie = is het aantal mannekes die een bepaalde waarde hebben behaald
- Kruistabellen: telling van hoe vaak waarden van 2 variabelen in combinatie met elkaar voorkomen.
5
,Hoofdstuk 3: de univariate beschrijvende statistiek
1. Inleiding
De beschrijvende statistiek is het samenvatten, organiseren en beschrijven van de gegevens voor een steekproef
of de populatie.
- (1) VISUALISEREN VAN DE GEGEVENS aan de hand van
o Frequentieverdelingen (hoeveel keer een bepaalde waarde van een kenmerk voorkomt in de
steekproef)
▪ Absoluut, relatief, cumulatief
o Grafieken kunnen we verschillende waarden gaan bestuderen.
▪ Staafdiagrammen & histogrammen
▪ Box plot (!!!)
- (2) BESCHRIJVEN VAN DE GEGEVENS aan de hand van
o Parameters:
▪ Parameters van Centraliteit: centrale tendensen weergeven.
▪ Parameters van Spreiding: waargenomen verschillen samenvatten.
o KEUZE VAN STATISTISCHE PARAMETERS
▪ Welke statistische parameters je kan gebruiken is afhankelijk van het meetniveau van
de variabele
• Vuistregel
o Statistische parameters (modus, mediaan, variatie,…) die op een
lager meetniveau kunnen worden gebruikt, kunnen ook op een
hoger meetniveau worden gebruikt
▪ ALLEEN Stijgen, NOOIT dalen
• Maar in principe nooit omgekeerd
2. Over absolute en realtieve frequenties en hun grafische voorstelling.
Absolute frequentie (𝑓𝑖): het aantal elementen met een bepaalde
waarde van een variabele. We kunnen deze bepalen door een
frequentietabel op te stellen.
- Voorbeeld
o Variabele: seksueel slachtofferschap
o Waarden:
▪ Geen seksueel slachtoffer
▪ Wel seksueel slachtoffer
o Elementen = aantal individuen binnen de
steekproef, die bij deze waarden horen of deze
waarden van de variabele hebben
▪ WEL → 666
▪ GEEN → 534
▪ TOTAAL = 1200
• Som van alle absolute frequentie is uw totaal aantal respondenten
o n = Steekproef
o N = Populatie
- Opm: SPSS maakt een onderscheid tussen geldige waarden (valide) en ontbrekende waarden (misisng).
- CUMULATIEVE ABSOLUTE FREQUENTIE (K) = optellen van de opeenvolgende absolute frequenties en
dan de volgende daarop weer er bij tellen (tot het einde, einde = TOTAAL aantal respondenten))
Relatieve frequentie/proportie: we delen elke absolute frequentie door het aantal
waarnemeningen.
- Percentage: proportie vermenigvuldigd met 100
o Geldige percentages: percentages berekent op diegenen die een geldig antwoord hebben
gegeven.
- CUMULATIEVE RELATIEVE FREQUENTIE = optellen van de opeenvolgende relatieve frequentie tot het
einde ( einde = 1,00)
6
, Grafische voorstellingen
Door grafische voorstellingen weten we welke steekproef we hebben. Het is belangrijk dat het beeld
in overeenstemming is met de info van de gegevens. We moeten hierbij rekening houden met het
meetniveau. (hieronder voorbeeld, er zijn er nog veel meer)
Taartdiagram (pie chart):
Een taartdiagram wordt verdeeld in verschillende sectoren (één sector = één waarde van
het onderzochte kenmerk) op basis van de verschillende frequentie of percentages (hoe
groter de frequentie, hoe groter de sector)
- Meet niveau: nominaal en ordinaal (metrisch kan opzich ook)
Staafdiagram (bar chart):
Op de x-as worden de categoriën van de variabele X weergeven.
Op de y-as de aantallen. De oppervlakte van de staven drukt de
absoulte aantallen uit. Er kunnen meerdere categoriën gebruikt
worden. Bij het tekenen moeten de staafjes los van elkaar
getekent worden.
- Meetniveau?
o Nominaal en ordinaal.
Histogram: (= visuele voorstelling van metrische variabelen)
De breedte van elk balkje komt overeen met de klassenlengte en de hoogte met
het aantal gegevens dat binnen die klasse valt. De balkjes worden tegen elkaar
getekent (de categoriën volgen elkaar op en liggen op een continuüm). De totale
oppervlakte van de histogram is 100%.
- Meetniveau? Metrisch
Opgelet:
Grafische voorstellingen kunnen bedrieglijk zijn. Hoe we de x en y-as ijken is
bepalend voor da mate van detaillering.
3. Parameters van centraliteit
= ze geven een antwoord op beschrijvende onderzoeksvragen (= ontdekken centrale tendensen/trends). De
centrummaten zijn: modus, mediaan, kwartielen en gemiddelde.
De modus (Mo):
De waarde van een variabele die het vaakst voorkomt.
Hij is meestal heel stabiel.
Meetniveau: nominaal, ordinaal en metrisch.
De mediaan (Md):
Het is het midden van de verdeling (50% eronder en 50% erboven).
Het is het MIDDEKPUNT van de verdeling.
(!!!!) Resistente centrummaat, ongevoelig voor extreme
waarden of uitschieters
BELANGRIJK
- n = oneven → mediaan is de waarde die hoort
bij de middelste respondenten of observatie (n+1)/2
- n = even → mediaan is het gemiddelde van de twee middelste observaties
o Je berekent ook (n+1)/2
▪ Je krijgt bijvoorbeeld: n = 12
▪ 13/2 = 6,5 dus de twee middelste waarden zijn dan 6 en 7, en dan ga je kijken naar de
waarde die hoort bij deze 2 respondenten en neem je het gemiddelde
Meetniveau: ordinaal en metrisch.
7