Hoorcollege 1
Inleiding
- Univariate technieken: hoeveel delicten --> je wil iets weten over 1 variabele
o Beschrijvende statistiek
- Bivariate technieken: verband tussen aantal delicten en verslaving
o Kruistabbellen, correlaties, enkelvoudige regressie
- Multivariate technieken: verband tussen meerdere variabelen (stuk of 7 of 8)
o Regressies
Verband tussen meerdere variabelen
Vb: verband tussen verslaving, stoornis, sekse, leeftijd en opleiding aan de
ene kant en aantal delicten aan de andere kant.
o Overlevingsduuranalyse
De duur voorspellen
Vb: voorspellen van de duur tot recidive uit aantal behandelkenmerekn,
werk, relatie, ect.
o PCA, exploratieve technieken
Typologie
Vb: profiel van verschillende typen daders van zedendelicten, in termen van
modus operandi of in termen van combinatie van persoonlijkheids- en
achtergrond-kenmerken
o En nog veel meer
Meet niveaus: bepalend voor de te gebruiken toets en niveau van informatie besloten in de
variabele (zie afbeelding powerpoint)
- Categorische variabelen
o Dichotoom: Ja/Nee
o Nominaal: categorieën zonder natuurlijke rangschikking (plaatsnamen)
o Ordinaal: categorieën met natuurlijke rangschikking
- Kwantitatieve variabelen:
o Interval: natuurlijke rangschikking en gelijke intervallen tussen getallen. GEEN vast
nulpunt.
o Ratio (continue variabelen): metingen van continue of oneindige waarden. VAST
nulpunt
o Absoluut (discrete variabelen): volledige informatie
- Likerd scale --> interval
- Opleidingniveau --> ordinaal
,Variabelen
- Onafhankelijke variabele (X): variabele die je gebruikt om de afhankelijke te voorspellen
(beïnvloeden)
o Vb: verslaving, stoornis, sekse, leeftijd en opleiding
- Afhankelijke variabele (Y): variabele waar je iets over wil weten (hoe verandert de variabele
onder invloed van de onafhankelijke variabelen)
o Vb: aantal delicten
- Controle variabelen (Z): variabelen die constant moeten blijven, omdat ze selectie kunnen
veroorzaken.
o Vb: tijd in detentie.
Model
- Bouwen van een model om samenhang of invloed te toetsen
o LET OP: terminologie! Geen causaliteit
- We spreken dus van een model, maar daar kan je geen causaliteit meer aantonen
- Bivariaat model = twee variabelen (X ---> Y)
- Multivariate model = meerder variabelen (meerdere X’en)
,Model fit
- Hoe goed beschrijft het model de werkelijkheid (data)?
o Diverse fitmaten --> verklaarde variantie (er zijn ook andere manieren)
- Simpel model heeft de voorkeur (parsimonie)
o Je wil eigenlijk een model dat zoveel mogelijk verklaard, maar dit zorgt juist voor
problemen dus kies daarom voor het makkelijkste model.
o Let op: altijd balans tussen model fit en model complexiteit
- Fitmaten revisited: sommige fitmaten straffen voor complexiteit
o Er zijn fitmaten die je helpen om het juiste model te vinden.
o Zoals de verklaarde variantie
Basisstatistieken
- Univariatie technieken: beschrijvende statisstieken: kenmerken van 1 variabele beschrijven
- Maten voor centrale tendentie
o Modus: meest voorkomend --> vanaf nominaal
o Mediaan: 50% van de observaties --> vanaf ordinaal
o Gemiddelde: som gedeeld door het aantal --> vanaf interval
- Maten voor spreiding
o Range: min en max bereik --> vanaf interval
o Variantie: S^2 gem som van afwijkingen --> vanaf interval
o Standaarddeviatie: hoeveel wijkt met af van het gemiddelde --> vanaf interval
**als je het gemiddelde benoemd in het wetenschappelijk moet de standaarddeviatie erbij.
Steekproef en populatie
- Inferentiële statistiek: steekproef en populatie
o Steekproeftrekking: steekproef trekt je uit een zekere populatie
Bij voorkeur representatief, want dan kun je generaliseren
Hoe kan je dat bereiken? --> random sampling
Steekproef = Latijnse letters
Populatie = Griekse letters
- Lakmoesproef: heeft ieder lid van de populatie een gelijke kans om in de steekproef terecht
te komen?
- Niet representatief? Wat dan? (er is namelijk altijd sprake van een zekere selectie)
o Je moet je hier bewust van zijn, dat je steekproef je data scheef kan trekken
o Wanneer er een verschil is tussen de populatie en jouw steekproef
, - Mx (Steekproefgemiddelde) zuivere schatter van Mu (Ux) (populatiegemiddelde), mits
steekproef random uit populatie getrokken
Toetsen
- H0 --> veronderstelling over de werkelijkheid (niets aan de hand)
- H1 --> alternatieve hypothese, kans op H0 is klein (iets aan de hand)
- Aanname (assumptie) van onderliggende verdeling: onder bepaalde aannames volgt
statistiek (bijv Mx) die verdeling en kun je opzoeken wat de kans op dit resultaat is.
- Onder een bepaalde grenswaarde verwerp ja H0.
o z-toets, t-toets, f-toets, Chi-kwadraat toets, ANOVA ect.
o Dit is de basis voor de multivariate toetsen
- Lees hoofdstuk 3 voor de verschillende toetsen en hoe ze werken
Fouten:
- Alpha en Beta zijn verschillende soort fouten
- Alpha --> type 1 fout (toestand = H0 maar beslissing = H1)
o Brandmelder gaat af, terwijl er geen brand is
o Kleinere alpha --> minder snel een effect, minder snel kans op type 1 fout
- Beta --> type 2 fout (toestand = H1 maar beslissing = H0)
o Brandmelder gaat niet af terwijl er brand is
o Steekproefgrootte heeft invloed (kan je niet zelf bepalen)
- Alpha zelf bepalen, Beta hangt af van andere factoren (o.a. steekproefgrootte en gebruikte
Alpha
Betrouwbaarheidsintervallen: marge om een puntschatting heen, geeft weer hoe zeker je bent van
je schatting
- Hoe wijder het CI, des te slechter het resultaat
- Hoe groter N, des te smaller het CI (CI95, CI99)
Symmetrisch vs asymmetrische techniek
(zie afbeelding powerpoint)
- Symmetrisch: er geen duidelijke afhankelijke en onafhankelijke variabele (bijv correlatie)
o PCA
o Factoranalyse
o Data-reductietechnieken
- Asymmetrische techniek: duidelijke afhankelijke en onafhankelijke variabele (bijv regressie)
o Regressie analyse (basis lineaire regressie)
o Logistische regressie
o Cox regressie