Multivariate analyse 2021/2022 Hoorcolleges en Responsiecolleges
HC 1 – Multivariate Analyse
Binnen de statistiek aantal niveaus waarop we analyses kunnen doen
- Univariate technieken
Beschrijvende statistieken waarbij we dus naar één variabele kijken.
Bijvoorbeeld hoeveel vragen. Beschrijven variabelen waar je onderzoek naar doet.
Ook bijvoorbeeld beschrijven wie de respondenten zijn, hoe oud zijn ze, wat voor werk doen
ze. Die heb je nodig om de informatie voor je verdere analyses te begrijpen.
- Bivariate technieken
Verband tussen aantal delicten en verslaving
Twee variabelen centraal. Niet meer beschrijvend, maar toetsen.
Multivariate technieken
Drie of meer variabelen die gebruikt worden om te toetsen.
Denk bijvoorbeeld aan verband tussen verslaving stoornis, sekse, leeftijd en opleiding aan de
ene kant en aantal delicten aan de andere kant of voorspellen van de duur van recidive uit
aantal behandelkenmerken, werk, relaties.
Voorspellen belangrijk in de criminologie. Zo willen we met regressieanalyses gedrag
proberen te voorspellen.
- Exploratief
Naast alle toetsende statistieken die voorspellen of verbanden aantonen, zijn er ook
exploratieve multivariate technieken.
Exploratief beeld geven van hoe variabelen samenhangen zonder daarmee een assumptie te
toetsen.
Bij toetsende statistieken is er hypothese die je toetst, bij exploratieve technieken is er geen
van te voren vastgestelde assumptie/theorie om te toetsen. Maar je gaat wel kijken of
bepaalde variabelen samenhangen.
,Methodologie
Meetniveaus
Dit zijn de twee laagste meetniveaus want geven de minste informatie. Veel multivariate
technieken zijn niet toe te passen op deze meetniveaus.
Geen of minder informatie over ordening of afstand tussen de antwoorden.
1. Nominaal (dichotoom)
Alleen namen geven de betekenis van de scores op de variabelen. Geen ordening tussen de
waardes.
Bijvoorbeeld haarkleur: zwart, blond, bruin
Type delict: zedendelict, geweldsdelict,
Dichotome: Maar twee antwoord categorieën (man/vrouw, getrouwd/single, wel/geen
recidive)
2. Ordinaal
Wel een rangorde. Ene waarneming kan hogere waarneming krijgen dan de andere. Je weet
alleen niet hoeveel afstand er is tussen de waarde.
Verschil tussen de eerste en tweede plek bij race anders dan verschil tweede en derde plek.
Meetniveaus hieronder: Wel multivariate technieken op toepasbaar
3. Interval
Weten niet alleen dat de metingen laten zien hoe de waarnemingen geordend zijn, weten nu
ook verhouding tussen verschillende metingen.
Temperatuur, je kan zeggen ene temperatuur twee keer zo hoog als andere temperatuur, maar
er is geen absoluut nulpunt.
Veranderend nulpunt als je omrekent naar Fahrenheit.
4. Ratio
Niet alleen ordening, maar ook de verhouding heeft een vaste waarde. Er is ook een
daadwerkelijk nulpunt.
Geld, 2 euro twee keer zoveel als 1 euro. Je kan het doorrekenen naar andere valuta’s. Bij
dollar is het nulpunt hetzelfde en als je van 1 euro naar dollar gaat zal dat nog steeds 2 keer
zo weinig zijn als 2 euro in dollars.
5. Absoluut
Alles ligt vast.
Hoeveel delicten gepleegd. Twee delicten twee keer zoveel als één delict.
Nul delicten is geen delicten. Daarnaast is het ook niet mogelijk om een half delict te plegen
of omrekenen naar iets anders. Je kan het niet omrekenen.
,Afhankelijke en onafhankelijke variabelen
Naast meetniveaus heeft dit onderscheid ook invloed op welke toets je moet uitvoeren.
➔ Afhankelijke variabele
Wil je iets van weten, wil je voorspellen
➔ Onafhankelijke variabele
Variabele je gebruikt om te voorspellen
- Bivariaat model
Gaan ervan uit dat aantal delicten
afhankelijk is van verslaving.
◼ Afhankelijke variabele:
Aantal delicten
◼ Onafhankelijke variabele
Verslaving
- Multivariaat model
◼ Afhankelijke variabele = Y
◼ Onafhankelijke variabelen = X1 en X2
Dit samen (X1,X2,Y) vormt een model.
Methodologie
Doel van een model is het zo goed mogelijk nabootsen van de werkelijkheid.
- Model fit: hoe goed beschrijft het model de werkelijkheid?
Uitrekenen hoe goed het model de werkelijkheid kan beschrijven.
- Diverse fitmaten hiervoor (bijvoorbeeld R2 = % verklaarde variantie)
R2 berekent in hoeverre verklaren de variabelen tezamen de uitkomst op de afhankelijke
variabele. Hoe goed past het dus bij de werkelijkheid?
Willen de fitmaten zo hoog mogelijk!
Interpretatie van de fitmaten belangrijk om conclusies te gaan trekken op basis van jouw data
en of deze fitmaten een goed model van de werkelijkheid zijn.
- Simpel model heeft de voorkeur (parsimonie)
Daartegenover willen we een model met zo min mogelijk variabelen. Zo efficiënt mogelijk
voorspellen. Als je twee variabelen hebt die samen 20% van de uitkomst voorspellen, voeg je
niet een derde variabele toe die het 21,5% maakt.
Parsimonie: Met zo min mogelijk variabelen de uitkomst op de andere variabele voorspellen.
, - Let op:
Altijd balans tussen model fit en model complexiteit
Model fit maten (fitmaten voor modellen) altijd baseren op hoe complex je model is. Model
fit aanpassen als je meer variabelen gebruikt.
Verklaarde variantie, is er ook de adjusted r square. Een penalty voor het gebruik van veel
meer variabelen. Als je veel variabelen hebt zal je R-square hoog zijn, maar vanwege de vele
variabelen gaat adjusted r-square een penalty geven.
➔ Gebruik zo min mogelijk variabelen om zo efficiënt mogelijk te voorspellen
- Fitmaten revisited:
Sommige fitmaten ‘straffen’ voor complexiteit
Beschrijvende statistiek
Kenmerken van één variabele beschrijven
- Modus (vanaf nominaal)
Waarneming die het meest voorkomt in de data.
- Mediaan (vanaf ordinaal)
Waarde waar 50% van de waarnemingen boven ligt, en
50% onder. De centrale tendentie.
- Gemiddelde (vanaf interval)
Wat komt er gemiddeld het meest voor in de data?
Maten van spreiding: Mate van spreiding van de antwoorden
- Range
Minimum en maximum dat voorkomt
- Standaarddeviatie (vanaf interval)
Hoeveel personen gemiddeld van het gemiddelde afwijken.
- Variantie (vanaf interval)
Gemiddelde som van gekwadrateerde afwijkingen van individuele scores van het
gemiddelde.
Hoeveel wijken personen nu af van het gemiddelde. Rekenen met gekwadrateerde som.
Is een nadeel, want kunnen niet terugrekenen naar oorspronkelijke schaal. Standaarddeviatie
wel.
Inferentiële statistiek
Onmogelijk de gehele populatie te onderzoeken, vanwege het is te veel of dark number.
- Steekproeftrekking, steekproef uit zekere populatie
- Bij voorkeur representatief → want dan kan je generaliseren
- Hoe bereik je dat? Bijvoorbeeld random steekproef
- Lakmoesproef:
=Heeft ieder lid van de populatie een gelijke kans om in de steekproef terecht te komen?
Iedereen dus evenveel kans om in die steekproef terecht te komen. Niet altijd mogelijk.
Denk bijvoorbeeld aan slachtofferenquêtes. Niet iedereen gelijke kans opgenomen te worden
in enquête.
- Notities
Om duidelijk te hebben wanneer er gesproken wordt over steekproef en wanneer over populatie
gebruiken we verschillende notities.
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller krentenkakker3000. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $3.80. You're not tied to anything after your purchase.