SAMENVATTING MULTIVARIATE ANALYSE
HOORCOLLEGE 1: HERHALING
Multivariate technieken:
• Verband tussen verslaving, stoornis, sekse, leeftijd en opleiding een de ene kant en aantal technieken aan de andere kant.
• Voorspellen van de duur tot recidive uit aantal behandelkenmerken, werk, relatie etc. (regressieanalyse).
• Exploratief beeld geven van hoe variabelen samenhangen, zonder dat je daar een assumptie mee toetst.
o Profiel van verschillende typen daders van zedendelicten, in termen van mo (bijv. met of zonder verbaal of fysiek
geweld, bepaalde seksuele handelingen, overmeestering, gebruik wapens) of in termen van combinatie van
persoonlijkheids- en achtergrond-kenmerken (bijv. leeftijd, geslacht, etniciteit, IQ, impulsiviteit).
Meetniveaus:
• Nominaal: de data wordt gecategoriseerd, zonder duidelijke rangorde.
• Ordinaal: de data wordt gecategoriseerd, met duidelijke rangorde.
• Interval: de data wordt gecategoriseerd, met rangorde, het getal 0 staat niet voor afwezigheid > temperatuur.
• Ratio: de data wordt gecategoriseerd, met rangorde, absoluut nulpunt > percentages.
• Absoluut: alle informatie ligt vast > frequentietelling. Respondent heeft 7 delicten gepleegd.
Onafhankelijke variabele > oorzaak (X)
Afhankelijke variabele > gevolg (Y)
Bivariaat model: Multivariaat model:
Model fit: hoe goed beschrijft het model de werkelijkheid?
• Diverse fitmaten (bijv. R2 = % verklaarde variantie)
• Simpel model heeft de voorkeur (=parsimonie, wanneer twee modellen even goed voorspellen, de simpelste kiezen).
• De fitmaten moeten zo hoog mogelijk zijn.
• Let op: altijd balans tussen model fit en model complexiteit vinden. Als je meer variabelen toevoegt, zal je beter in staat
zijn te voorspellen. Maar je wilt geen ingewikkeld model met veel variabelen. Aan de ene kant wil je dus zo goed mogelijk
voorspellen, maar aan de andere kant wil je het model eenvoudig houden.
• Fitmaten revisited: sommige fitmaten ‘straffen’ voor complexiteit.
Beschrijvende statistiek: beschrijven hoe de variabelen eruitzien.
• Modus = waarneming die het meest voorkomt in de data. Minimaal ordinaal meetniveau.
• Mediaan = waarde waar 50% van de waarnemingen boven/onder ligt. Minimaal ordinaal meetniveau.
• Gemiddelde = minimaal interval meetniveau.
Maten van spreiding
• Standaarddeviatie = in hoeverre de antwoorden verspreid liggen over de range. Minimaal interval niveau
• Variantie = hoeveel wijken personen af van het gemiddelde? Minimaal interval niveau.
o Nadeel: niet terugrekenen naar de originele schaal. Wel naar standaarddeviatie.
• Range = minimum en maximum.
Inferentiële statistiek (= steekproeftrekking, steekproef uit zekere populatie)
• Bij voorkeur representatief, want dan kun je wel generaliseren.
• Hoe dat te bereiken? Bijvoorbeeld random trekken.
• Lakmoesproef: heeft ieder lid van de populatie een gelijke kans om in de steekproef terecht te komen? Bij deze wel.
,MX (steekproefgemiddelde) zuivere schatter van µX (populatiegemiddelde), mits steekproef random uit populatie getrokken. Voor
populatie gebruiken wij Griekse letters, omdat de uitspraken hierover een beetje onzeker zijn.
Betrouwbaarheidsintervallen (CI) : marge om een puntschatting heen, geeft weer hoe zeker je bent van je schatting. Hoe wijder
het CI, hoe ‘slechter’ het resultaat en hoe onzekerder je bent. Hoe groter N (steekproefomvang), des te smaller het CI (CI95, CI99),
des te betrouwbaarder je resultaat.
H0 is eigenlijk waar H1 is eigenlijk waar
H0 aannemen Correct (1-α) Type 2 fout (ß)
H0 verwerpen Type 1 fout (α) Correct (1- ß) (power)
Type 1 fout → brandmelder gaat af, terwijl er geen brand is.
Type 2 fout → brandmelder gaat niet af, terwijl er wel brand is.
H0, (niks aan de hand) H1 (iets speciaals aan de hand)
α bepalen wij zelf, β hangt af van andere factoren:
- α
- De grootte van de steekproef (grotere steekproef is minder kans op een type 2 fout).
- Werkelijke verschil tussen grootheden.
Toetsen: aanname van onderliggende verdeling, onder bepaalde aannames volgt statistiek (bijv. MX) die verdeling en kun je
opzoeken wat de kans op dit resultaat is. onder een bepaalde grenswaarde verwerp je H0.
1 variabele → univariate technieken
2 variabelen → bivariate technieken
> 2 variabelen → multivariate technieken
X2 toets
H0 = geen verband tussen de twee variabelen (= onafhankelijk)
H1 = wel een verband tussen de twee variabelen (= afhankelijk)
43 en 69 zijn bewijzen van intergenerationele overdracht, het kind is hetzelfde als de ouders.
Odds ratio
o Hoogste getal bovenin de breuk.
o Odds ratio van 2 betekent dat de therapie 2x zo effectief is als niks doen, dit betekent dat het substantieel is.
, Relatief risico
Wat is de verhoogde kans op recidive als je geen therapie krijgt?
o Hoogste getal bovenin de breuk.
o 80 en 40 bewijzen dat de therapie werkt.
Soorten multivariate technieken, overwegingen:
1. Symmetrisch of asymmetrisch?
o Symmetrisch = geen duidelijke afhankelijke variabelen, meer geïnteresseerd in het verband.
o Asymmetrisch = in hoeverre hangen veiligheidsgevoelens af van buurtkenmerken? Duidelijk onderscheid tussen
afhankelijke en onafhankelijke variabelen.
2. Wat is het meetniveau van de variabelen?
Asymmetrisch Symmetrisch
Interval - Multipele regressie-analyse - Principale componenten analyse
- Factoranalyse
Niet-interval - Regressie met dummy-variabelen - Niet-lineaire PCA
- Logistische regressie (Y dichotoom) - Multipele correspondentie-analyse (alle
- Cox regressie (Y duurvariabele) variabelen nominaal)
Data cleaning. Twee methoden:
1. Gegevens controleren op onmogelijke antwoorden.
• Typo’s: iemand is 337 jaar oud.
• Univariate uitbijter (een respondent heeft op één variabele een zeer extreme score): een zedendelinquent met
150 slachtoffers.
• Multivariate uitbijters (een respondent heeft op zich per variabele geen extreme scores, maar zijn combinatie van
scores is extreem): een jongere van 16 jaar oud die 30.000 euro verdient (uitbijter die op twee variabelen opvalt).
2. Gegevens controleren op onmogelijke combinaties van antwoorden.
• Onmogelijke combinaties (zwangere opa’s): iemand van 4 jaar oud die is veroordeeld.
Missende waarden
Twee strategieën om hiermee om te gaan.
1. Onderzoeker doet niets. SPSS zal de respondenten met missende waarden op de variabelen listwise deleten. De
respondent met de missende waarden wordt integraal uit de dataset verwijderd. Als er maar een paar missende waarden
zijn, levert dat geen groot verlies op. Maar wel twee mogelijke problemen:
o Wanneer deze missende waarden verspreid zijn over verschillende variabelen (Piet mist variabele 1, Jan
variabele 2, Maud variabele 3) kan dit ook met weinig missende waarden tot respondentenverlies leiden en
daarmee tot verlies van power.
o Verwijdering van personen met missende waarden leidt vaak tot vertekening (bias) in de dataset.
→ vanwege deze problemen kiezen onderzoekers er vaak voor om de missende waarden op te vullen.