Multivariate analyse
Niveaus waarop we analyses kunnen doen:
1. Univariate technieken = Beschrijvende statistieken, een variabel -> hoeveel delicten
2. Bivariate technieken = toetsend, twee variabelen; of meer, kijken naar verband, correlatie, verschillen tussen
scores tussen twee variabelen (twee onafhankelijke steekproeven) -> verband tussen aantal delicten en
verslaving
3. Multivariate technieken = drie of meer variabelen om te toetsen -> verband tussen verslaving, stoornis,
sekse, leeftijd en opleiding aan de ene kant en aantal delicten aan de andere kant. Of voorspellen van duur
tot recidive uit aantal behandelkenmerken, werk, relatie.
a. Exoloratief = exploratief beeld van hoe variabelen samenhangen zonder dat er een assumptie mee
wordt getoetst; geen theorie of veronderstelling die je gaat toetsen. Wel kijken of variabelen
samenhangen, om theorie mee te creëren.
Meetniveaus:
- Nominaal = dichtoom: type delict, geen volgorde, zegt niks over de afstand die tussen waardes in zit, en geen
ordening
o waarneming een label geven, ter onderscheiding van verschillende delicten. Nominale verschillen
dus geen rangorde; alleen verschil aangeven.
- Ordinaal = is wel een rangorde, maar je weet niet hoeveel verschil er tussen -> binnenkomen hardloop
wedstrijd; wel eerste, 2de ect.. maar niet hoeveel verschil
o ordening, rangorde. Niet alleen onderscheid in naam maar ook in volgorde. Ene waarneming een
grotere waarde dan de andere. Hoeveelheid van het verschil is niet duidelijk (oneens-neutraal-eens)
- Interval = ordening en de verhouding tussen de verschillen, vaste betekenis. Tempratuur. Geen absoluut
nulpunt. Als je omrekent naar andere dan is de 0 punt anders
o Laat zien hoe waarnemingen georganiseerd zijn, maar nu heeft de verhouding van
de verschillen tussen metingen een vaste betekenis. Heeft geen absoluut nulpunt (tempratuur). Maakt dus
ook niet uit in welke eenheid je het meet, verschil blijft gelijk. Als waarde 0 is, dan betekend niet dat het
afwezig is. (verhouding ligt niet vast 30graden is niet 2x zo warm als 15graden)
- Ratio = ordening, verhouding vaste waarde en er is een nulpunt. Geld; 1 euro is 2x als 50cent. Je kan
omrekenen naar andere valuta. 0 blijft dan 0
o ook de verhouding van de meting zelf ligt vast (prijs van een boek; 2x zo duur dus meeteenheid
maakt niet uit; dollar, euro, roepie). Heeft wel een nulpunt. Als het 0 is, is het afwezig. Leeftijd,
gewicht, geld.
- Absoluut = niveau kan niet veranderen in betekenis, alles ligt vast. Hoeveel kinderen; hoeveel delicten. Zitten
geen marges in. 1 kan je niet omrekenen naar iets anders -> ratio kan je wel omrekenen. Komt vaak voor in
de criminologie
,Multivariate analyse
- Kwantitatief
- Toetsend = hypothese; veronderstellingen
- Exploratief =
- Datareductie = groter aantal gegevens tot een kleiner aantal terug brengen -> van de 100 vragen opdelen in
5 groepen en die variabelen met elkaar vergelijken ipv 1 variabel met 99 andere
- Modeltoetsing = expliciet kijken naar de relaties tussen diverse variabelen. Kijken naar bepaalde
uitkomstmaten -> waar we relaties veronderstellen met bepaalde oorzakelijke factoren
- Afhankelijke variabelen = aantal delicten -> variabel waar je iets over wilt weten, die je wilt voorspellen. Y
- Onafhankelijke variabelen = verslaving, oorzaken -> de variabel waarmee je de voorspelling wilt doen. X
Model = 2 onafhankelijke variabelen gebruiken om de afhankelijke variabel te voorspellen.
Doel van model is om zo goed mogelijk de werkelijkheid te beschrijven
Model fit = hoe goed beschrijft het model de werkelijkheid. Model fit uitrekenen; fit maten moeten zo hoog mogelijk
zijn en bepalen hoe en of je conclusies mag trekken over het onderzoek dat je doet. TT fitmaten!!!
Model fit of goodness of fit = laat zien hoe goed het model de werkelijkheid beschrijft -> een getal dat weergeeft hoe
dicht de voorspelde afhankelijke variabele in de buurt van de waargenomen afhankelijke variabel zit.
Complexe modellen beschrijven de werkelijkheid beter -> omdat er meer variabelen inzitten, dan is er altijd wel een
samenhang -> nadeel is dat het model complex wordt
Parsimonie = een simpel model heeft de voorkeur
- Verklaarde variantie
Ook voorkeur voor zo min mogelijk complex model -> zo min mogelijk variabelen. Bv 2 variabelen verklaart 20% en 3
variabelen verklaart 21,5%. Dus die 1,5% weegt niet op tegen het extra toevoegen van een variabel = Parsimonie
- Balans tussen model fit en model complexiteit
- Model fit kan aangepast worden als je meer variabelen gebruikt
- Fitmaten revisited; sommige fitmaten straffen voor complexiteit -> Rsquare en RsquareAdjusted: meer
variabelen gebruiken is je R% hoger -> daarvoor corrigeren: Rsquareadjusted – straf voor het toevoegen van
zoveel variabelen
Adjusted: meet de fit in relatief op het aantal parameters (voorspellers) -> straft voor complexiteit
Gebruik zo min mogelijk variabelen om zo efficiënt mogelijk te voorspellen -> Parsimonie; simpel model heeft de
voorkeur
Bv: als steekproeven niet heel groot zijn, maar gebruikt wel veel variabelen -> krijg je wel hoge fit; maar straf voor
complexiteit wordt je verklaarde variantie (fitmaat) naar beneden gehaald.
Hoofdstuk 3:
1. Beschrijvende statistiek
Gebruik van één variabel = kenmerken van 1 variabel beschrijven
Mate voor centrale tendentie
- Modus = waarneming die het meeste voorkomt -> vanaf nominaal
- Mediaan = middelste waarneming, 50% onder, 50% boven; centrale detentie -> vanaf ordinaal -> niet gevoelig
voor uitbijters
- Gemiddelde = vanaf interval -> gevoelig voor uitbijters
,Mate van spreiding
- Range = minimum en maximum
- Variantie = S2 gemiddelde som van de gekwadrateerde afwijkingen, van individuele scores van het gemiddelde;
nadeel niet terug rekenen naar oorspronkelijke schaal -> vanaf interval
- Standaarddeviatie = de oorspronkelijke schaal van de variantie -> vanaf interval. Hoeveel de onderzochte
personen gemiddeld van het gemiddelde afwijken
2. Inferentiële statistiek
Steekproeftrekking = steekproef uit populatie trekken
Informatie uit de steekproef is pas interessant als het iets zegt over de populatie -> representatief (externe
validiteit); resultaten uit de steekproef generaliseren naar de populatie.
- Representatief -> dan kan je generaliseren: At random en dus geen systematische verschillen
o Criminologie moeilijk: Dark Number
Weten of een steekproef representatief is:
- Lakmoesproef = heeft ieder lid van de populatie een gelijke kans om in de steekproef terecht te komen? Als zo is
dan is het een random steekproef en dus representatief.
-> dat willen we maar niet altijd mogelijk; slachtofferenquête. Gene in huishouden die als eerste jarig is; kansen
zijn per huishouden ongelijk; lijkt random, maar is het niet.
Populatiegemiddelde = is een schatting -> kan het nooit zeker weten
Hypothese zeggen ook iets over de populatie -> Griekse letters
Betrouwbaarheidsinterval = mare om een puntschatting heen, geeft weer hoe zeker je bent van je schatting -> in
hoeverre je er naast mag zetten.
- Hoe breder je schatting, hoe onzekerder je bent. Hoe wijder het CI, hoe slechter het resultaat
- Hoe groter N, hoe smaller het CI (CI95, CI99) -> 5% foutschatting
Hypothese:
- H0 = niks aan de hand
- H1 = wel iets aan de hand
- Alfa = deze fout is belangrijker om te voorkomen -> Type I Fout;
o %risico dat je neemt dat je een foute beslissing neemt
o Te groot: kans op Type I fout: H0 is waar maar verwerpen
deze en nemen H1 aan
o De kans om de juiste beslissing te nemen als H0 waar is: 1-alfa
o Te klein: dan nooit H0 verwerpen
o Zeggen dat er iets aan de hand is, maar dat is niet; moord en brand schreeuwen -> vals alarm
- Beta = Type II Fout -> is afhankelijk van andere factoren; steekproefgrootte en gebruikte alfa en aantal
variabelen (Parsomonie ook van belang)
o Type II fout: H0 aannemen maar deze is onjuist.
o Onderzoeker is niet in staat om een bijzondere situatie te detecteren -> brandmelder gaat niet af
o 1 – beta = power:
Conditionele uitspraken: als H0 waar is, dan is de kans .. -> niets is zeker
Problemen:
- Te kleine steekproef: bijna niet significant -> kans op Type II fout wordt groter en power kleiner
- Te grote steekproef: te snel significant -> samenhang is niet praktisch significant (correlatiecoëfficiënt is te klein)
, Toetsen
Aanname (assumptie) van onderliggende verdeling.
Kans op dat je dit resultaat vindt. Onder bepaalde grenswaarde verwerp je H0
1 variabel -> univariate technieken
2 variabelen -> bivariate technieken
>2 variabelen -> multivariate technieken
ODDS variabel komt veel terug.
3. Symmetrische bivariate technieken = verband en samenhang
Correlatie als maat voor lineaire samenhang = Pearson correlatie: de sterkte van de lineaire samenhang van twee
variabelen. Gaat om die puntenwolk en of die lineair is -> als de wolk breed is de samenhang zwak. En liggen de
puntjes dicht bij elkaar -> dan sterke samenhang.
- Schaalonafhankelijk = som van producten wordt gedeeld door de standaarddeviaties van X en Y
- Steekproefonafhankelijk = de noemer wordt gecorrigeerd voor de steekproefgrootte
- 2 kwantitatieve variabelen X en Y -> interval of hoger
- Hoe dunner de sigaar (puntenwolk) hoe kleiner de range is van Y, gegeven een bepaalde X -> dan dus de range
op die X bekijken; zegt meer dan algemeen gemiddelde of de totale range waar je uit kan kiezen
- Samenhang: variabel voorspellen op basis van een andere variabel -> hoe sterker het verband, hoe kleiner het
foutmarge (perfect verband; rechte lijn)
- Positief verband = correlatiecoëfficiënt groter dan 0 maximaal 1. Hogere score op de ene variabel, hogere scoren
op de andere variabel
- Negatief verband = correlatiecoëfficiënt kleiner dan 0 max -1. Hogere score op de ene variabel, lagere scoren op
de andere variabel.
- Kwadraat van de correlatie is het percentage van de variantie van de ene variabel dat uit de andere variabel kan
worden verklaard. 49% van de variantie op Y wordt verklaard uit X.
Kritiek:
o Maat voor lineaire samenhang: dus als er een niet-lineair verband is tussen twee variabelen
(logaritmisch) dan is de correlatiecoëfficiënt geen goede weergave van de sterkte van het verband -> dus
eerst altijd plotten
o Correlatie is gevoelig voor extreme scores/uitbijters -> verwijderen of omcoderen
Spearman’s rho maat om verband te beschrijven als de variabel(en) lager zijn dan interval (nominaal of ordinaal) of
gemengd.
Chi-Kwadraat toets Kruistabellen verband tussen twee nominale variabelen -> Chi-kwadraat: zegt niks over de
sterkte van het verband; maar of het verband significant van 0 verschilt
(geen verband).