Multivariate analyse HC
HC 1 (H1 tm 5)
H1 inleiding
Univariate technieken (beschrijvende statistieken over 1 variabele, de basis) – hoeveel
delicten
Bivariate technieken (twee variabelen, toetsend) – verband tussen aantal delicten en
verslaving
- Independent T-test
- Anova
- Etc. etc.
Multivariate technieken (3 of meer variabelen, multipele regressie):
Verband tussen verslaving, stoornis, sekse, leeftijd en opleiding aan de ene kant en aantal
delicten aan de andere kant. Welke factor heeft het meeste invloed?
Of:
Voorspellen van duur tot recidive uit aantal behandelkenmerken, werk, relatie etc.
Exploratief beeld ipv louter toetsend (geen vooraf vastgestelde theorie maar kijken hoe
variabelen samenhangen dus):
Profiel van verschillende typen daders van zedendelicten (profiling). Kijken naar inhoud
delict of in termen van combinatie van persoonlijkheids- en achtergrond kenmerken.
H2 Methodologie
2.1.1. Meetniveaus
- Nominaal (dichotoom, twee antwoordniveaus zoals man/vrouw, wel/niet)
o Alleen namen onderscheiden variabelen (type delict, opleiding), zeggen niets
over de ordening tussen variabelen (welke is hoger)
- Ordinaal
o Ordening, rangorde, zoals 1ste, 2de en 3de plaats bij wedstrijd. Je weet echter
nog niet hoeveel afstand er tussen variabelen zit.
- Interval
o Laat ordening en afstand tussen variabelen zien. Verhouding heeft vaste
betekenis zoals temperatuur. Geen absoluut nulpunt, nulpunt is anders bij
Celsius als bij fahrenheit.
- Ratio
o Absoluut nulpunt, leeftijd, geld. Je kan omrekenen naar andere valuta en dan
is 0 euro nog steeds 0.
- Absoluut
o Kan niet veranderd worden, alles ligt vast.
,2.2 afhankelijke en onafhankelijke variabelen
Bivariaat model:
Invloed van verslaving op aantal delicten aantal delicten is afhankelijk (Y) en verslaving is
onafhankelijk (X)
Multivariaat model:
Invloed van verslaving EN opleiding (onafhankelijk = X) op aantal delicten (afhankelijk = Y)
Methodologie
- Model fit: hoe goed beschrijft het model de werkelijkheid (toetsen)?
- Diverse fitmaten (bijv: R2 % verklaarde variantie). Moete zo hoog mogelijk zijn (zo
goed mogelijk overeen met werkelijkheid) dan is het een goede toets.
- Simpel model heeft de voorkeur (parsimonie) (zo min mogelijk complex model, zo
min mogelijk variabelen) ook al wordt model fit dan iets kleiner
- Let op: altijd balans tussen model fit en model complexiteit (meer variabelen
gebruiken, je hebt r square maar ook adjusted r square)
- Fitmaten revisited: sommige fitmaten ‘straffen’ voor complexiteit (als je heel veel
variabelen gebruikt om 1tje te voorspellen, wordt de fitmaat lager. Straf: verklaarde
variantie wordt kleiner gemaakt)
o Sommige steekproeven zijn ook niet zo groot
H3. Statistiek, univariate en bivariate technieken
3.1 beschrijvende statistiek
Kenmerken van 1 variabele beschrijven
Modus: meeste voorkomende (vanaf nominaal meetniveau)
Mediaan: het middelste getal, 50% ligt boven en onder (vanaf ordinaal)
Gemiddelde: rekenkundig gemiddelde (vanaf interval)
Mate van spreiding
Standaarddeviatie: s (vanaf interval)
o Kan wel teruggerekend worden naar oorspronkelijke schaal, je weet hoeveel
men afwijkt van gemiddelde
Variantie; s^2. Gemiddelde som van afwijkingen van gemiddelde (hoeveel wijken personen
af van gemiddelde?) (vanaf interval)
o Nadeel: niet terugrekenen naar oorspronkelijke schaal omdat je in kwadraat
rekent
Range (maximum-minimum)
,3.2 Inferentiële statistiek
- Steekproeftrekking, steekproef uit zekere populatie
- Bij voorkeur representatief want dan kun je generaliseren
- Hoe dat te bereiken? Bijv. random trekken
- Lakmoesproef: heeft ieder lid van de populatie een gelijke kans om in de steekproef
terecht te komen? niet altijd mogelijk: slachtofferenquêtes (alleen slachtoffers)
- Mx (steekproefgemiddelde) is zuivere schatter van x (populatiegemiddelde), mits
steekproef random uit populatie getrokken
- Toetsen – H0, H1 (alternatieve hypthese), a, b
- Betrouwbaarheidsintervallen: marge om een puntschatting heen, hoe ver je ernaast
mag zitten, geeft weer hoe zeker je bent van je schatting
- Hoe wijder het CI (hele brede schatting), des te ‘slechter’ het resultaat omdat je
onzeker bent van je schatting
- Hoe groter N, des te smaller het CI (CI95, CI99)
alpha en beta: verschillend soort fouten!
A (type 1 fout): brandmelder gaat af terwijl er geen brand is, H0 foutief verwerpen terwijl
niet significant is (5% meestal)
B (type 2 fout): brandmelder gaat niet af terwijl er brand is, h0 onterecht niet verwerpen
terwijl wel significant is
a zelf bepalen, b hangt af van andere factoren (o.a. steekproefgrootte en gebruikte a en
parsimonie; gebruikte variabelen)
Toetsen
Aanname (‘assumptie’) van onderliggende verdeling, onder bepaalde aannames volgt
statistiek (bijv Mx) die verdeling en kun je opzoeken wat de kans op dit resultaat is.
Onder een bepaalde grenswaarde (vaak 5% alpha) verwerp je H0.
z-toets, t-toets, F-toets, X2-toets....
1 variabele? -> univariate technieken
2 variabelen? -> bivariate technieken
, >2 variabelen? -> multivariate technieken
- verdelingen, correlatie, kruistabellen, odds ratio’s, regressie-analyse, overlevingsduur-
analyse, variantie-analyse, alles in H3 zelf lezen als je t niet meer weet!!
Symmetrisch: evenveel variabelen voorspellen als dat je gebruikt, 1 variabele voorspellen
vanuit 1 bijv. (correlatie)
Assymetrisch: 1 variabelen voorspellen vanuit 3 variabelen bijv. (1 bepaalde richting
waarop wordt voorspelt, drugs voorspelt gezondheidsproblemen en niet andersom bijv.)
H4
Overweging 1: symmetrisch of asymmetrisch?
Overweging 2: meetniveau variabelen?
Resulteert in het volgende schema: (p. 68):
Soorten multivariate technieken