Hoorcolleges – Statistiek I
Kennisclip 1.1: Waar zijn we mee bezig?
Criminologische vragen als:
- Waarom wordt de ene persoon crimineel en de andere niet?
- Wanneer stopt een persoon met criminaliteit?
- Waar kunnen de politie het beste gaan patrouilleren?
- Wie loopt risico op slachtofferschap van cybercriminaliteit?
- Hoe worden straffen bepaald?
- Wat is het effect van verschillende soorten straffen?
Veel stellingen: welke zijn waar?
Als we deze willen beantwoorden hebben we data nodig (over gestrafte personen bijv., zodat we iets
over effect kunnen zeggen). Data verzamelen, beschrijven en analyseren, dan antwoord op vraag =
empirisch onderzoek →
1. Stellen van een vraag.
2. O.b.v. theorieën en eerder onderzoek: opstellen van een hypothese.
3. Bepalen hoe je gaat onderzoeken of dat klopt
4. Gegevens verzamelen en analyses doen.
5. Resultaten verklaren en conclusie trekken
(3&4 vooral dit vak)
2 mogelijke manieren om data te analyseren:
1. Beschrijvende (descriptieve) statistiek: puur beschrijven van de data. Bijv. trends ontdekt. Vragen
beantwoorden als: “Hoeveel criminaliteit was er in 2019?”
2. Inductieve (beslissende, inferentiële) statistiek: als we conclusies uit data willen trekken over
grotere populatie. “Worden ex-gevangenen minder vaak aangenomen?” Kunnen niet alle ex-
gevangenen vragen, dus deel vragen mee te doen uit onderzoek: steekproef.
→ Door inferentiële statistiek kunnen we o.b.v. data uit steekproef iets zeggen over ex-gevangenen
in het algemeen en daardoor onderzoeksvraag beantwoorden.
Empirisch onderzoek vaak over personen, maar ook bedrijven, landen, wijken, etc. = elementen.
Populatie = alle onderzoekselementen (alle bedrijven, alle ex-gevangenen). Vaak onmogelijk/
onwenselijk onderzoek naar gehele populatie, daarom steekproeven: representatief deel van
populatie die onderzocht wordt. Representatief: ieder deel van populatie gelijke kans om in
steekproef te komen (dus aselect/random steekproef).
Data over elementen wordt georganiseerd in variabelen. Variabele kan verschillende waardes
aannemen voor de verschillende elementen. Door variabelen te beschrijven en analyseren kun je
zien of er verschillen zijn tussen elementen en mogelijk waar die aan liggen.
Bijv.: ‘Kenmerken van wijk die samenhangen met veel overlast’ →Elk kenmerk een ander variabele
aanmaken en dan elke wijk daarop een score geven. Ook data over hoeveelheid overlast: met
statistische technieken kijken welke kenmerken samenhangen met overlast.
- Variabelen:
- Kwalitatief: Elementen in twee of meer categorieën plaatsen.
- Nominaal: geen volgorde tussen waarden
- Ordinaal: natuurlijke ordening.
- Kwantitatief: Numerieke waarden.
, - Interval: continu: heeft geen nulpunt
- Ratio: discreet: natuurlijk nulpunt aanwezig
- Hoe ziet ‘data’ eruit?:
Elementen/subjects kun je scoren op variabelen.
Kwalitatieve variabelen, dan hebben kun je de data coderen. Bijv. data over sekse van elementen,
dan kun je vrouwen als 0 coderen en mannen als 1. Als van een element geen data hebt: ‘missing
waardes’, LET OP!: Deze moet je ook coderen, bijv. met cijfer: 999.
→ Ook voor kwantitatieve waarden moet je missing waardes coderen
Om data op een makkelijke manier te kunnen beschrijven/analyseren moet het in een programma
staan waarmee dit mogelijk is: zoals SPSS, of excel.
SPSS wordt met een data matrix gewerkt (scores in cellen)
- Rijen = elementen/subjects (geval)
- Kolommen = variabelen
Personen identificeren we met een nummer,
niet naam, zodat zij anoniem blijven.
Kolommen zijn de variabelen.
- Nominaal: sekse & type delict.
- Ordinaal: leeftijd
- Ratiovariabele: duur van vrijheidsstraf
- Intervalvariabele: jaar van eerste delict.
Statistiek I → We verzamelen, beschrijven en
analyseren data, om criminologische vragen
te kunnen beantwoorden.
Kennisclip 1.2: Variabelen in beeld
Variabelen:
- Kwalitatief: Elementen in twee of meer categorieën plaatsen.
- Nominaal: geen volgorde tussen waarden (zoals sekse/geslacht).
- Ordinaal: natuurlijke ordening/gerangschikt (zoals tevredenheidsschaal).
- Kwantitatief: Numerieke waarden.
- Interval: continu: heeft geen nulpunt. Score 0 betekent niet dat het er niet is (zoals
temperatuur).
- Ratio: discreet: natuurlijk nulpunt aanwezig. Score van 0 = dat er niks is (zoals aantal
daders).
Variabelen en experimenten:
Vaak onderzoek met experimenten →
- Twee of meer groepen met verschillende ‘behandeling’.
- Meet en vergelijk uitkomsten van de groepen.
Bijv.: 1 groep daders krijgt o.b.v. toeval een vrijheidsstraf opgelegd en 1 groep o.b.v. toeval een
werkstraf. Na afloop van straf gevolgd voor bijv. 2 jaar en dan gekeken of ze recidiveren of niet.
,Type straf = onafhankelijke variabele (bijv. behandeling).
Meten van recidive = afhankelijke variabele. Want we gaan onderzoeken of recidive afhankelijk is
van type straf.
➔ In inferentiële statistiek heb je altijd 1 en vaak meerdere onafhankelijke variabelen. In
technieken die wij leren heb je maar 1 afhankelijke variabele = uitkomst waarin je
geïnteresseerd bent.
Grafieken: exploratieve analyse:
Als je data hebt verkregen, vóór analyses moet je naar data kijken: beschrijvende data-analyse. 1
manier om dit te doen is met een grafiek: ziet iets visueel dat je niet uit cijfers ziet. Moet juiste
grafiek kiezen.
Belangrijke eerste stap:
- Breng variabelen in beeld.
- Snelle manier om bijzonderhed01en te zien.
- MAAR kies de juiste grafiek.
Kwalitatieve variabelen:
- Taartdiagram: met percentages. Alleen als je verhouding van
elke categorie tot het geheel wil benadrukken. Hier zie je bijv.
dat grootste deel van huiselijk geweldsdelicten uit fysiek
geweld bestaat.
- Staafdiagram: snel idee van hoe verschillende
typen delicten zich tot elkaar verhouden
(frequenties op y-as).
Kwantitatieve variabelen:
- Histogram: vorm van verdeling in beeld gebracht.
Zoals lengte van volwassene mannen (normale
verdeling: symmetrisch en unimodaal (1 piek).
Bimodaal: 2 pieken: histogram met mannen
EN vrouwen.
, Rechtsscheef/positieve verdeling: lange start aan
rechter kant van histogram. Is 1 uitschieter.
Linksscheef/negatieve verdeling: lange staart aan
linker kant van histogram.
→ Scores straatroof daders op variabele: leeftijd eerste delict, uitgeschreven. In statistisch
programma als SPSS → kun je data beschrijven.
In frequentietabel: uit 50 personen, 3 eerste delict op 13. Als we hiervan een histogram maken, dan
kunnen we kijken hoe leeftijd eerste
delict binnen deze groep verdeeld is.
Is unimodaal en bij benadering
symmetrisch: Maar 1 balk aan
rechterkant, ligt ver van de rest: is
mogelijk een uitschieter.
Uitschieter: score op variabele die
niet bij andere scores lijkt te passen.
Hier 1 iemand eerste delict met 26
jaar. Kan fout zijn bij
invoeren/verzamelen data, of andere type persoon dan ‘gewone straatrover’ → kan data uit bestand
halen.
Om variabele over leeftijd eerste
delict te vereenvoudigen kunnen
we het in leeftijdscategorieën
opsplitsen. Kan categorieën:
minderjarigen + meerderjarigen
tijdens eerste delict. In
taartdiagram zie je dat meeste
daders minderjarig waren → snel
en handig overzicht, maar
verliezen hier wel data door:
mogelijke uitschieter niet meer in
beeld.