STATISTIEK I
Ella Van Dyck
VERKORTE BACHELOR CRIMINOLOGISCHE WETENSCHAPPEN VUB
,Inhoud
H1: Inleiding........................................................................................................... 2
1.1 Wat is statistiek?........................................................................................... 2
1.2 Soorten statistiek.......................................................................................... 3
1.3 Boring?.......................................................................................................... 4
1.4 Misleidende statistiek.................................................................................... 4
1.5 Oorsprong van statistiek (ZIE dia 75 e.v.).....................................................5
1.6 Onderzoek en statistiek: voorbeelden...........................................................5
H2: Variabalen verkennen en visualiseren: Meten, frequentieverdelingen en
grafieken................................................................................................................ 6
2.1 Inleiding......................................................................................................... 6
2.2 Terminologie en kernbegrippen....................................................................6
2.3 Variabelen en meetniveaus...........................................................................9
2.4 Frequentieverdelingen en grafische voorstellingen.....................................13
2.5 Let’s try ZIE DIA 118-119............................................................................ 19
2.6 Datavisualisatie........................................................................................... 20
H3: Univariate statistische maten........................................................................21
Inleiding............................................................................................................. 21
3.1 Soorten statistische maten..........................................................................21
3.1.2 Statistische maten van spreiding.............................................................27
H4: Verbanden tussen categorische variabelen...................................................43
4.1 Inleiding....................................................................................................... 43
4.2 Samenhang tussen twee categorische variabelen......................................46
H5: Verbanden tussen metrische variabelen........................................................61
5.1 Samenhang tussen twee metrische variabelen...........................................61
5.2 Regressieanalyse........................................................................................ 69
H6: Tijdsreeksen................................................................................................... 76
6.2. Groei en groeivoeten.................................................................................. 77
6.3. Lineaire trend............................................................................................. 78
1
,H1: INLEIDING
1.1 WAT IS STATISTIEK?
De oorsprong van statistiek was heel beperkt, werd oorspronkelijk
gebruikt om staatsgegevens te bestuderen
Nu is de statistiek een breder begrip, statistiek is een vorm van
gegevensverzameling en de analyse en interpretatie hiervan
Statistics is the art and science of learning from data
Statistiek zorgt ervoor dat we gegevens kunnen vertalen in kennis
en inzicht
DUS statistiek = analyseren, interpreteren en visualiseren van
gegevens
Statistiek als wetenschappelijke discipline
Kennismethode om de wereld beter te kennen en begrijpen
Empirisch onderzoek:
verdelingen van variabelen opstellen, onderzoeken en vergelijken
kijken naar gegevens en deze weergeven om beter te begrijpen
hoe kunnen we dit samenvatten in zo weinig mogelijk getallen?
Hoe kunnen we dit weergeven in een grafiek
1.1.1 Waarom statistiek?
Statistieken zijn nodig om beweringen te kunnen staven
Beweringen op zich zijn niet voldoende
Er is een nood aan empirie: nood aan data en gegevens
Check!
VB: presidential debate Trump vs Biden
The claim komt niet overeen met de statistieken (de feiten)
Dataverzameling volgens de regels van de kunst =
onderzoeksmethoden
Data analyseren volgens de regels van de kunst = statistiek
Quantitatieve analyse
Als we dus een empirisch onderzoek willen doen om een antwoord te
bieden op een vraagstelling zullen we data moeten verzamelen en
analyseren
Fasen in sociaalwetenschappelijk onderzoek: KENNEN!
Onderzoekscyclus van Swanborn:
1. Probleemstelling
Je moet de problemen kunnen vaststellen en
analyseren, probleemanalyse maken
Vergt substantiële en inhoudelijke kennis van het
vakgebied
2
, 2. Je moet een onderzoeksontwerp kiezen
Afhankelijk van welk probleem je hebt, ga je een
onderzoeksontwerp moeten kiezen
Welk soort onderzoek ga je uitvoeren?
Onderzoek in functie van de probleem- en vraagstelling
Sterkte en zwakte van verschillende manieren van data
verzamelen
Secundaire data, kwantitatieve of kwalitatieve data
VB: X, X, bevraging ahv interview
3. Dataverzameling: enquêtes, kandidaten gaan analyseren, interview
4. Data-analyse
Beschrijvende, indicatieve, verklarende statistiek
5. Rapportage
Literatuur opzoeken, refereren, wetenschappelijk taalgebruik
Terugkoppeling
1.2 SOORTEN STATISTIEK
Beschrijvende statistiek
Beschrijvende statistiek = de wereld in cijfers beschrijven, cijfers die
hoeveelheden precies weergeven
Een samenvatting in kengetallen
Basis: frequentievragen
Gebruik van grafische technieken
Indicatieve statistiek
= Inferentiële statistiek
Middel om met een beperkt aantal gegevens uitspraken te doen
over een breder geheel, over een volledige populatie
Voorspellingen op basis van steekproeven (25% zekerheid maar ook
75% onzekerheid)
Veralgemeenbaarheid van steekproefresultaten
Extrapopulatie: uitspraken over de volledige bevolking op basis van
een toevalssteekproef uit die bevolking
VB: veiligheidsmonitor, verkiezingsonderzoek, gezondheidsenquêtes
Verklarende statistiek
Echte statistische analyse
Gericht op de verklaringen van verschillen en samenhang
VB: Wat is de relatie tussen opleidingsniveau & inkomen?
3
, Wat is de relatie tussen opleiding en gezondheid?
Wat is de samenhang tussen leeftijd en consumptie van
digitale media?
Je gaat op zoek naar verklaringen achter bepaalde fenomenen
Regressietechnieken
VB: bivariate regressie, multivariate regressie, logistische regressie,
survival analyse
1.3 BORING?
Hans Rosling = Zweedse dokter, statisticus, professor internationale
gezondheid
Ontwikkelaar van gapminder
Legt de nadruk op visualisatie
1.4 MISLEIDENDE STATISTIEK
Vaak geciteerd en oorsprong niet echt bekend
Er wordt vaak gezegd dat statistiek misleidend is
Cijfers zijn vaak wel overtuigend MAAR worden vaak ook misbruikt
om zwakke of foute argumenten te ondersteunen
Als onderzoeker heb je de verplichting om met statistiek alles te
bewijzen
Hoe kan je misleiden door statistiek?
Uitkomsten van een onderzoek kunnen gemanipuleerd worden bij:
Het verzamelen van gegevens
Het presenteren van de uitkomsten
Het omschrijven van conclusies
1. Misleiding bij verzameling gegevens
Slechte selectie van onderzoekspersonen
Het onderzoekspubliek is niet representatief voor de bevolking die je
wil onderzoeken
Te klein aantal onderzochte personen
Slechte vraagstelling, geen goede onderzoeksmethode gekozen
Slechte operationalisatie
= hoe ga je de datageletterdheid bevragen
2. Misleiding bij presenteren van de uitkomsten
Een deel van de grafiek is verwijdert
De schaal is gemanipuleerd
Grafische aanpassingen
4
, 3. Misleiding bij het omschrijven van conclusies
Zelf kritisch lezen!
Is het cijfer wel correct, geloofwaardig?
Hoe is het cijfer tot stand gekomen?
Hoe moet je dat cijfer interpreteren?
1.5 OORSPRONG VAN STATISTIEK (ZIE DIA 75 E.V.)
SDV
Adolphe Quetelet = persoon die een groot deel heeft bijgedragen
aan de statistiek
1.6 ONDERZOEK EN STATISTIEK: VOORBEELDEN
1. Slachtofferschap
Probleemstelling:
Hoe schat de bevolking het risico in om slachtoffer te zijn van een
diefstal?
Wordt het risico anders ingeschat naar achtergrondkenmerken?
Hoeveel procent van de bevolking wordt effectief het slachtoffer
van een diefstal?
Probleemanalyse : onderzoeksvraag
Onderzoeksvraag duidelijk omschrijven
Hoeveel procent van de bevolking wordt effectief slachtoffer van
een diefstal zonder dreiging met geweld?
Verschillende definities kunnen aanleiding geven tot verschillende
resultaten
Onderzoeksontwerp
Dark-number probleem!!
Niet alle slachtoffers gaan aangifte doen bij de politie
Niet alle aangiften leiden tot een proces-verbaal
Gevolg?
- Politionele en gerechtelijke statistiek weerspiegelen evenzeer de
werking van politie en justitie als de frequente bepaalde feittypes
- We hebben te maken met productiestatistieken die niet
noodzakelijk een goed beeld geven van wat we willen meten
Onderzoek naar slachtofferschap moet via een rechtsreekse
bevraging
VB: werken met een enquête
2. Dataverzameling: veiligheidsmonitor
5
, Federale Enquête (driejaarlijks) bij personenvan 15 jaar en ouder
Onderwerpen
kwaliteit van politiediensten
slachtofferschap
Preventie
Buurtproblemen
Onveiligheidsgevoel
achtergrondkenmerken (geslacht, leeftijd, opleiding, beroep,..)
Data-analyse
Federale Veiligheidsmonitor 2018:
Verdeling van de steekproef naar leeftijd en geslacht,
weergegeven d.m.v. een kruistabel of tweedimensionale
frequentietabel (zie volgende hoofdstukken)
Data-analyse & Rapportering:
Ervaart u volgende zaken als een probleem in uw buurt?
Delicten naar dalend ingeschat risico
= Relatieve frequentieverdeling
Fietsdiefstal naar leeftijd
Fietsdiefstal naar geslacht
= Relatieve frequentieverdeling
3. ZIE LAATSTE VOORBEELD slide 89 ev
H2: VARIABALEN VERKENNEN EN VISUALISEREN: METEN,
FREQUENTIEVERDELINGEN EN GRAFIEKEN
2.1 INLEIDING
Sociale wetenschappen hebben als doel kennis genereren over de
sociale werkelijkheid
Kennis op basis van sociaalwetenschappelijk onderzoek =
dataverzameling
Deze onderzoeksresultaten wil je vaak op korte overzichtelijke
manier weergeven
VB via getallen, tabellen of grafieken
Samenvattend beschrijven van de kenmerken van een groep
onderzoekseenheden = onderzoekspopulatie
2.2 TERMINOLOGIE EN KERNBEGRIPPEN
Statistiek bestudeert de kenmerken van die verzameling van
statistische eenheden of bevolking
1. Onderzoekspopulatie
Alle eenheden, de groep die je wil gaan bestuderen/ onderzoeken
6
, Moet duidelijk omschreven zijn
Omvang en type kan sterk variëren
2. Onderzoekseenheid
De elementen uit de bestudeerde bevolking
Vaak personen, soms ook landen, regio’s, interviews die je afneemt
3. Variabele
De kenmerken die we van die onderzoekseenheden/ respondenten
kan gaan meten
Kenmerken van onderzoekseenheden waarin we geïnteresseerd zijn
Bij sommige kenmerken zijn de waarden = getal
VB: leeftijd
Bij andere kenmerken is dit niet het geval maar een classificatie van
iets
VB: geslacht, haarkleur, …
4. Datamatrix / dataset
Cases in rijen
Variabelen (verschillende waarden) in kolommen
Waarden: in de cellen
5. Steekproef
= subset/ selectie uit volledige groep onderzoekseenheden in de
populatie, onderzoek m.b.t. specifieke populatie
Vaak onmogelijk om de volledige populatie te ondervragen dus dan
gaan ze met een steekproef of sample nemen
Steekproef = deel van de populatie
Moet dezelfde karakteristieken hebben als van de populatie die het
vertegenwoordigt = steekproef moet representatief zijn
Voor veel statistische technieken moet er een eenvoudige selectie
toevalssteekproef genomen worden = EAS zijn
Elke onderzoekseenheid heeft gelijke kans op selectie verschillend
van nul
Kengtallen die we meten in de steekproef = steekproefstatistieken
6. Parameters
Kengtallen die we meten in een onderzoekspopulatie, die de
verdeling weergeven van een kenmerk in de populatie
VB:
7. Steekproefstatistieken
7
, Statistische kengetallen v/e steekproef of schatters
Schatter of statistische maat = numerieke samenvatting v/d
steekproef uit de populatie
VB:
EZELBRUGGETJE = POPULATIE => POPULATIE
= STEEKPROEF => STATISTIEKEN
8. Steekproef en onderzoekspopulatie
Steekproeffouten
= systematische steekproeffouten
Fouten in de selectiebias
= manier van selecteren van respondenten geeft vertekend
beeld
Non-respons bias
VB: bepaalde groepen weigeren deel te nemen
Item non-responsbias
VB: respondenten hebben op bepaalde specifieke items (niet)
geantwoord op andere vragen wel
9. Beschrijvende of deductieve statistiek
= beschrijven van de verzamelde gegevens
Verzameling, organisatie en presentatie van de data
Samenvatten van gegevens (a.d.h.v. statistieken, grafieken,
tabellen, …) om globale patronen en kenmerken te ontdekken
Centrummaten (gemiddelde, modus, mediaan)
Spreidingsmaten (standaardafwijking, variantie,
interkwartielafstand)
Grafieken: histogrammen, taartdiagrammen, boxplots,…
VB: Grafiek opinie rond invoeren doodstraf bij jongeren tussen 15-
30 jaar in Vlaanderen (in %), gebaseerd op een steekproef van
3000 jongeren
10. Inferentiële of inductieve statistiek
o.b.v. steekproefgegevens conclusies trekken m.b.t. de populatie
•
Steekproefresultaten veralgemeenbaar naar de populatie •
20% van alle 15- tot 30-jarigen in de steekproef gaan ‘helemaal
akkoord’ met het herinvoeren doodstraf.
Hoe waarschijnlijk is het dat dit percentage effectief het
percentage ‘helemaal akkoord’ is in de populatie van alle 15-30
jarigen in Vlaanderen (populatieparameter is een onbekende)?
8
, Kunnen we dus de populatieproportie schatten op basis van de
steekproefproportie?
VB: 20% (akkoord) met herinvoeren doodstraf. Hoe
waarschijnlijk is het dat dit percentage effectief het percentage
akkoord is in de populatie van alle 15-30 jarigen in Vlaanderen
(populatieparameter is een onbekende)?
→ We zijn 95% zeker dat het percentage van alle 15-30 jarigen
in Vlaanderen die voorstander zijn van de herinvoering van de
doodstraf voor zware misdaden tussen 18,4% en 21,2% ligt.
2.3 VARIABELEN EN MEETNIVEAUS
2.3.1 Operationalisatie
Hoe ga je de variabelen opmeten bij uw steekproef?
Meetbaar maken van variabelen in één of meerdere vragen
Bepalend voor de rest van je onderzoek
Meestal op basis van voorafgaand onderzoek of op basis van theorie
Sommige variabelen hoeven niet/minder onderbouwd te zijn
(geslacht), andere wel
(armoede, seksisme, racisme…)
2.3.2 Concepten definiëren en operationaliseren
Definiëren: Wat wil je exact meten/uitdrukken met een variabele?
Operationaliseren: Hoe ga je het concept concreet meten? Hoe ga ik
een bepaald concept bevragen?
2.3.3 Verschillen in variabelen
2.3.3.1 KWANTITATIEVE VS KWALITATIEVE VARIABELEN
Kwalitatief of categorisch:
Waarden van de variabelen wijzen op
categorieën, zonder verdere wiskundige betekenis
VB: haarkleur, geslacht, opleidingsniveau, …
Nominale en ordinale variabelen
Voordelen:
Kwantitatieve waarden eenduidiger dan kwalitatieve waarden
vaak wordt bij beschrijving gebruik gemaakt van synoniemen of
half-synoniemen
VB: “A’pen”, “Antwerp” of “Antwerpen”): moeilijker af te leiden in
hoeverre het om equivalente gevallen gaat
Verwerking van kwantitatieve waarden via computer vlotter
9