Multivariate analyse 2021/2022 Hoorcolleges en Responsiecolleges
HC 1 – Multivariate Analyse
Binnen de statistiek aantal niveaus waarop we analyses kunnen doen
- Univariate technieken
Beschrijvende statistieken waarbij we dus naar één variabele kijken.
Bijvoorbeeld hoeveel vragen. Beschrijven variabelen waar je onderzoek naar doet.
Ook bijvoorbeeld beschrijven wie de respondenten zijn, hoe oud zijn ze, wat voor werk doen
ze. Die heb je nodig om de informatie voor je verdere analyses te begrijpen.
- Bivariate technieken
Verband tussen aantal delicten en verslaving
Twee variabelen centraal. Niet meer beschrijvend, maar toetsen.
Multivariate technieken
Drie of meer variabelen die gebruikt worden om te toetsen.
Denk bijvoorbeeld aan verband tussen verslaving stoornis, sekse, leeftijd en opleiding aan de
ene kant en aantal delicten aan de andere kant of voorspellen van de duur van recidive uit
aantal behandelkenmerken, werk, relaties.
Voorspellen belangrijk in de criminologie. Zo willen we met regressieanalyses gedrag
proberen te voorspellen.
- Exploratief
Naast alle toetsende statistieken die voorspellen of verbanden aantonen, zijn er ook
exploratieve multivariate technieken.
Exploratief beeld geven van hoe variabelen samenhangen zonder daarmee een assumptie te
toetsen.
Bij toetsende statistieken is er hypothese die je toetst, bij exploratieve technieken is er geen
van te voren vastgestelde assumptie/theorie om te toetsen. Maar je gaat wel kijken of
bepaalde variabelen samenhangen.
,Methodologie
Meetniveaus
Dit zijn de twee laagste meetniveaus want geven de minste informatie. Veel multivariate
technieken zijn niet toe te passen op deze meetniveaus.
Geen of minder informatie over ordening of afstand tussen de antwoorden.
1. Nominaal (dichotoom)
Alleen namen geven de betekenis van de scores op de variabelen. Geen ordening tussen de
waardes.
Bijvoorbeeld haarkleur: zwart, blond, bruin
Type delict: zedendelict, geweldsdelict,
Dichotome: Maar twee antwoord categorieën (man/vrouw, getrouwd/single, wel/geen
recidive)
2. Ordinaal
Wel een rangorde. Ene waarneming kan hogere waarneming krijgen dan de andere. Je weet
alleen niet hoeveel afstand er is tussen de waarde.
Verschil tussen de eerste en tweede plek bij race anders dan verschil tweede en derde plek.
Meetniveaus hieronder: Wel multivariate technieken op toepasbaar
3. Interval
Weten niet alleen dat de metingen laten zien hoe de waarnemingen geordend zijn, weten nu
ook verhouding tussen verschillende metingen.
Temperatuur, je kan zeggen ene temperatuur twee keer zo hoog als andere temperatuur, maar
er is geen absoluut nulpunt.
Veranderend nulpunt als je omrekent naar Fahrenheit.
4. Ratio
Niet alleen ordening, maar ook de verhouding heeft een vaste waarde. Er is ook een
daadwerkelijk nulpunt.
Geld, 2 euro twee keer zoveel als 1 euro. Je kan het doorrekenen naar andere valuta’s. Bij
dollar is het nulpunt hetzelfde en als je van 1 euro naar dollar gaat zal dat nog steeds 2 keer
zo weinig zijn als 2 euro in dollars.
5. Absoluut
Alles ligt vast.
Hoeveel delicten gepleegd. Twee delicten twee keer zoveel als één delict.
Nul delicten is geen delicten. Daarnaast is het ook niet mogelijk om een half delict te plegen
of omrekenen naar iets anders. Je kan het niet omrekenen.
,Afhankelijke en onafhankelijke variabelen
Naast meetniveaus heeft dit onderscheid ook invloed op welke toets je moet uitvoeren.
➔ Afhankelijke variabele
Wil je iets van weten, wil je voorspellen
➔ Onafhankelijke variabele
Variabele je gebruikt om te voorspellen
- Bivariaat model
Gaan ervan uit dat aantal delicten
afhankelijk is van verslaving.
◼ Afhankelijke variabele:
Aantal delicten
◼ Onafhankelijke variabele
Verslaving
- Multivariaat model
◼ Afhankelijke variabele = Y
◼ Onafhankelijke variabelen = X1 en X2
Dit samen (X1,X2,Y) vormt een model.
Methodologie
Doel van een model is het zo goed mogelijk nabootsen van de werkelijkheid.
- Model fit: hoe goed beschrijft het model de werkelijkheid?
Uitrekenen hoe goed het model de werkelijkheid kan beschrijven.
- Diverse fitmaten hiervoor (bijvoorbeeld R2 = % verklaarde variantie)
R2 berekent in hoeverre verklaren de variabelen tezamen de uitkomst op de afhankelijke
variabele. Hoe goed past het dus bij de werkelijkheid?
Willen de fitmaten zo hoog mogelijk!
Interpretatie van de fitmaten belangrijk om conclusies te gaan trekken op basis van jouw data
en of deze fitmaten een goed model van de werkelijkheid zijn.
- Simpel model heeft de voorkeur (parsimonie)
Daartegenover willen we een model met zo min mogelijk variabelen. Zo efficiënt mogelijk
voorspellen. Als je twee variabelen hebt die samen 20% van de uitkomst voorspellen, voeg je
niet een derde variabele toe die het 21,5% maakt.
Parsimonie: Met zo min mogelijk variabelen de uitkomst op de andere variabele voorspellen.
, - Let op:
Altijd balans tussen model fit en model complexiteit
Model fit maten (fitmaten voor modellen) altijd baseren op hoe complex je model is. Model
fit aanpassen als je meer variabelen gebruikt.
Verklaarde variantie, is er ook de adjusted r square. Een penalty voor het gebruik van veel
meer variabelen. Als je veel variabelen hebt zal je R-square hoog zijn, maar vanwege de vele
variabelen gaat adjusted r-square een penalty geven.
➔ Gebruik zo min mogelijk variabelen om zo efficiënt mogelijk te voorspellen
- Fitmaten revisited:
Sommige fitmaten ‘straffen’ voor complexiteit
Beschrijvende statistiek
Kenmerken van één variabele beschrijven
- Modus (vanaf nominaal)
Waarneming die het meest voorkomt in de data.
- Mediaan (vanaf ordinaal)
Waarde waar 50% van de waarnemingen boven ligt, en
50% onder. De centrale tendentie.
- Gemiddelde (vanaf interval)
Wat komt er gemiddeld het meest voor in de data?
Maten van spreiding: Mate van spreiding van de antwoorden
- Range
Minimum en maximum dat voorkomt
- Standaarddeviatie (vanaf interval)
Hoeveel personen gemiddeld van het gemiddelde afwijken.
- Variantie (vanaf interval)
Gemiddelde som van gekwadrateerde afwijkingen van individuele scores van het
gemiddelde.
Hoeveel wijken personen nu af van het gemiddelde. Rekenen met gekwadrateerde som.
Is een nadeel, want kunnen niet terugrekenen naar oorspronkelijke schaal. Standaarddeviatie
wel.
Inferentiële statistiek
Onmogelijk de gehele populatie te onderzoeken, vanwege het is te veel of dark number.
- Steekproeftrekking, steekproef uit zekere populatie
- Bij voorkeur representatief → want dan kan je generaliseren
- Hoe bereik je dat? Bijvoorbeeld random steekproef
- Lakmoesproef:
=Heeft ieder lid van de populatie een gelijke kans om in de steekproef terecht te komen?
Iedereen dus evenveel kans om in die steekproef terecht te komen. Niet altijd mogelijk.
Denk bijvoorbeeld aan slachtofferenquêtes. Niet iedereen gelijke kans opgenomen te worden
in enquête.
- Notities
Om duidelijk te hebben wanneer er gesproken wordt over steekproef en wanneer over populatie
gebruiken we verschillende notities.
Voordelen van het kopen van samenvattingen bij Stuvia op een rij:
Verzekerd van kwaliteit door reviews
Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!
Snel en makkelijk kopen
Je betaalt supersnel en eenmalig met iDeal, creditcard of Stuvia-tegoed voor de samenvatting. Zonder lidmaatschap.
Focus op de essentie
Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!
Veelgestelde vragen
Wat krijg ik als ik dit document koop?
Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.
Tevredenheidsgarantie: hoe werkt dat?
Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.
Van wie koop ik deze samenvatting?
Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper krentenkakker3000. Stuvia faciliteert de betaling aan de verkoper.
Zit ik meteen vast aan een abonnement?
Nee, je koopt alleen deze samenvatting voor €3,49. Je zit daarna nergens aan vast.