Uitgebreide samenvatting van het boek Multivariate Analyse van Bijleveld en Commandeur. Hoofdstuk 1 t/m 10 zijn samengevat waarbij de indeling met paragrafen is aangehouden uit het boek. Zo kun je gemakkelijk iets terugvinden. In deze samenvatting zijn de SPSS voorbeelden achterwege gelaten.
,Hoofdstuk 1: Inleiding
1.
Multivariate methoden zijn methoden waarmee we naar meerdere variabelen tegelijk willen kijken,
zoals het verband tussen allerlei verschillende morele opvattingen van burgers: over normovertredin-
gen aan de ene kant en over rechtvaardigheid aan de andere kant. Bij het opstellen van een verkla-
ringsmodel komen er al snel meerdere aspecten kijken, die we tegelijk willen bekijken.
1.1. Methoden en technieken, statistiek
Methoden en technieken kunnen worden gezien als de gereedschapskist van de onderzoeker. Daarbij
is overlevingsduur-analyse met name belangrijk voor criminologen en minder voor andere weten-
schappen. Andere methoden zijn meer gemengd.
De statistiek houdt zich bezig met onzekerheid. Hoe kunnen we zonder iedereen te hebben onder-
zocht, toch iets over iedereen zeggen? De redenaties die we aannemen bij toetsen zijn altijd hetzelfde.
We nemen een bepaalde toestand van de wereld aan (meestal: er is niets bijzonders aan de hand) en
kijken hoe waarschijnlijk het is dat we ons resultaat zouden vinden als er niets bijzonders aan de hand
is. Per type situatie is daar een ander soort toets voor nodig.
1.2. Criminaliteit en criminologie
1.2.1. Specifieke statistische problemen, speciale methoden en technieken voor criminolo-
gie
Een probleem in de criminologie is dat we te maken hebben met een populatie die in beginsel niet
bekend is, en niet gekend en onderzocht wil worden. We weten dus nooit zeker of we een represen-
tatieve steekproef kunnen trekken. We werken vaak met geregistreerde gegevens van politie en OM.
Dit soort gegevens geven een onderschatting: deze gegevens zijn incompleet en dus niet representa-
tief voor het totaal.
Gegevens over criminaliteit zijn scheef verdeeld. Veel mensen plegen nooit een delict, een deel
maar eens, een veel kleiner deel recidiveert en heel klein deel is hoogactief (veelpleger). Ook binnen
de levensloop van criminelen is criminaliteit scheef verdeeld, en ook geografisch: in de steden is meer
criminaliteit. De bulk van de criminaliteit is vermogenscriminaliteit.
1.3. Univariate, bivariate en multivariate technieken
Univariate technieken kijken naar één variabele. Er worden vaak eenvoudige descriptieve maten ge-
bruikt. Bivariate technieken kijken naar het verband tussen twee variabelen. Hier worden vaak corre-
lationele maten gebruikt. Multivariate technieken worden gebruikt bij het bekijken van drie of meer
variabelen in samenhang.
1.4. Kenmerken van multivariate technieken
1.4.1. Kwantitatief
Er wordt met de gegevens gerekend. Er bestaan ook technieken om op een kwalitatieve wijze ‘multi-
variate’ analyses te doen, maar die worden doorgaans niet als multivariaat aangeduid.
1.4.2. Toetsend of explorerend
Bij toetsende analyses worden hypotheses getoetst. Daar worden doorgaans (verdelings)eisen aan de
gegevens gesteld. Bij explorerende analyses worden nauwelijks eisen gesteld. Hier gaat het meer om
verkennen van de data. Deze leveren doorgaans minder krachtige uitspraken op, wat meer verhalend.
1.4.3. Datareductie versus modeltoetsing
Soms doen we multivariate analyses, niet omdat we zo geïnteresseerd zijn in de relaties tussen allerlei
variabelen, maar omdat we een groot aantal variabelen willen terugbrengen tot een kleiner, beter
behapbaar aantal variabelen. Dan maak je een soort combivariabele en doe je dus aan datareductie.
Soms zijn we wel expliciet geïnteresseerd in de relaties tussen de variabelen. Dan stellen we een model
,op waarin we naar bepaalde uitkomstmaten kijken en waar we relaties veronderstellen tussen die
uitkomstmaten en verschillende oorzakelijke factoren. Dan onderzoeken we hoe die relaties liggen, of
de verbanden überhaupt aanwezig zijn en of ze dezelfde richting hebben als we theoretisch dachten.
1.4.4. Hoog versus laag meetniveau
Een meetniveau geeft weer hoeveel informatie de waarden van een variabele bevatten. Afhankelijk
van een meetniveau moet voor een methode worden gekozen.
1.4.5. Voorspelling versus samenhang, asymmetrisch versus symmetrisch
Het model is asymmetrisch als variabelen een andere rol spelen in het model. Een symmetrische vraag
is de vraag naar samenhang tussen twee kenmerken. Ze hebben dezelfde rol. Ze kunnen van plaats
wisselen, dan verandert de vraag niet en krijgen we hetzelfde antwoord.
1.5. Wat gaan we doen in dit boek?
In deze paragraaf staat de leeswijzer van het boek besproken.
,Hoofdstuk 2: Methodologie in vogelvlucht
2.
2.1. Inleiding
2.1.1. Meetniveaus
Meten is het toekennen van getallen aan waarnemingen. Er zijn verschillende meetniveaus mogelijk:
1) Nominaal – getallen toegekend aan waarnemingen fungeren alleen als label en hebben verder
geen betekenis. Ze dienen alleen om de verschillende soorten te onderscheiden. De waarde
van de getallen maakt dus ook niet uit, als deze maar anders is.
2) Ordinaal – er zit een ordening in de getallen die aan waarnemingen zijn toegekend (voorbeeld:
preferentieoordelen). Een hogere waarde betekent meer van de gemeten eigenschap. We mo-
gen de getallen transformeren, als deze maar dezelfde rangorde houden. Monotone transfor-
matie houdt dan in dat elke waarde een andere waarde krijgt, waarbij de oorspronkelijke or-
dening gelijk blijft. Bij zwak monotone transformatie wordt toegestaan dat getallen die oor-
spronkelijk verschillen, nu dezelfde waarde krijgen.
3) Interval – hier laten metingen de ordening van de waarnemingen zien, maar krijgt de verhou-
ding ook een vaste betekenis (voorbeeld: temperatuur). Deze metingen hebben geen nulpunt.
Hier is lineaire transformatie toegestaan: f(x) = a+bx
4) Ratio – hier laten metingen de ordening zien, heeft het verschil een betekenis én is er een
nulpunt. Voorbeeld: de prijs van een product. Toegestane transformatie: f(x) = ax
5) Absoluut – alle informatie ligt vast (voorbeeld: frequentietellingen). Transformatie: f(x) = x
Dus: hoe lager het meetniveau, hoe meer vrijheid tot transformeren maar ook hoe minder informatie
er in de metingen besloten ligt. Variabelen kunnen ook dichotoom zijn: dan hebben ze maar twee
categorieën, zoals sekse. Deze kunnen vaak als intervalvariabelen in analyses worden meegenomen.
2.2. Afhankelijke en onafhankelijke variabelen
Bij wetenschappelijk onderzoek willen we vaak proberen uit te vinden wat een bepaald verschijnsel
veroorzaakt, en daarbij spurieuze verbanden (schijnverbanden) uitsluiten. De afhankelijke variabele is
dan de variabele, de centrale maat waarin we geïnteresseerd zijn. Deze willen we voorspellen uit an-
dere variabelen. Deze wordt vaak geschreven als Y. De oorzaken van Y zijn dan de onafhankelijke vari-
abelen, die zelf ook weer uit andere onafhankelijke variabelen voorspeld kunnen worden, of als inter-
mediërende, interveniërende of moderator variabele kunnen optreden. Ze worden ook wel eens pre-
dictoren of covariaten genoemd, vaak aangeduid als X1, X2, X3 etc.
2.3. Modellen
Modellen hebben structuurovereenkomst met de werkelijkheid die zij beschrijven, zij staan echter los
van de werkelijkheid, we kunnen ermee experimenteren. We werken met modellen omdat wij het
model makkelijker kunnen waarnemen, beter kennen dan de werkelijkheid die het model represen-
teert. Modellen geven ons de mogelijkheid om de werkelijkheid te onderzoeken zonder te hoeven
letten op verstorende factoren. Een model moet dus onafhankelijk zijn van de werkelijkheid, bekender
dan de werkelijkheid en in structuur overeenkomen met de werkelijkheid. Modellen kunnen maquet-
tes zijn, robots maar ook schematische weergaves. In zo’n schematische weergave kunnen verbanden
met pijlen en coëfficiënten worden aangegeven.
Als de afhankelijke variabele volgens de voorspelling sterk lijkt op de waargenomen afhankelijke
variabele, dan zeggen we dat de model fit of de goodness of fit hoog is (het model doet het dan goed).
Complexe modellen beschrijven de werkelijkheid beter. Ze kunnen echter ook te gecompliceerd wor-
den. Ze kunnen ook triviaal worden: zij kunnen dan wel de scores op de afhankelijke variabele goed
,beschrijven, maar statistisch kapitaliseren op allerlei toevalligheden en toevallige combinaties van sco-
res die het voor deze dataset toevallig goed doen in de voorspelling van de afhankelijke variabele.
Een model moet nog wel een vereenvoudigde representatie van de werkelijkheid zijn. Simpelheid (par-
simonie of zuinigheid) verdient de voorkeur. Er moet wel gezegd worden dat als een model goed past,
dat dat niet betekent dat we de motor achter de afhankelijke variabele hebben gevonden. Er kan een
tussenliggende variabele zijn. Dan is er sprake van een modelmisspecificatie.
2.4. Operationaliseren en meten
2.4.1. Operationalisatie
Theorieën bevatten allerlei begrippen, abstracte noties. Als we in de praktijk onderzoek willen doen
moeten we precies aangeven wat we daarmee bedoelen. Niet direct afleesbare begrippen worden
constructen genoemd. Hypothetische constructen zijn niet-uitwendig waarneembare kenmerken van
personen, die verondersteld worden aanwezig te zijn. Die moeten afgeleid worden uit andere wel
waarneembare kenmerken.
Voordat we kunnen beginnen met meten moeten we een conceptuele definitie geven van de
constructen. Verschillende auteurs kunnen verschillende betekenissen toekennen aan een begrip.
Daarna moeten we vaststellen hoe we dat gaan meten. Dit is de operationele definitie, we moeten
vastleggen welke handelingen we moeten verrichten, welke vragen we moeten stellen, welk gedrag
wij moeten meten en welke indicatoren we moeten gebruiken om tot een meting van het construct te
komen.
,Hoofdstuk 3: Statistiek, univariate en bivariate technieken in vogelvlucht
3.
Het woord ‘statistiek’ wordt in twee betekenissen gebruikt: als zelfstandig naamwoord in de zin van
een verzameling van methoden om berekeningen uit te voeren op gegevens die doorgaans uit een
steekproef afkomstig zijn, en om de samenvatting van een serie gegevens aan te duiden, zoals het
gemiddelde of de standaarddeviatie. Hier is de eerste betekenis van toepassing.
3.1. Beschrijvende statistiek
Als we verslag willen doen van onze bevindingen heeft het weinig zin de gegevens zo over te dragen.
We moeten ze op een informatieve manier samenvatten. Daarvoor gebruiken we twee soorten maten:
die van centrale tendentie (gemiddelden) en van spreiding (mate van verschil tussen respondenten).
3.1.1. Maten voor centrale tendentie: gemiddelde, mediaan en modus
Het gemiddelde is de som van de waarnemingen gedeeld door het aantal waarnemingen. Het nadeel
hiervan is dat het gevoelig is voor extreme scores, die kunnen het gemiddelde veel naar boven of be-
neden trekken en is dan dus geen goede samenvatting van de scores. In dat geval is het beter om de
mediaan te nemen: de waarde waar 50% van de waarnemingen boven en dus ook onder ligt. Dit is een
belangrijke maat in de criminologie door de scheve verdeling van gegevens en vaak voorkomende ex-
treme waarnemingen. De modus is dan de meest voorkomende waarneming en kan ook bimodaal zijn,
als er twee categorieën het vaakst voorkomen en er dus twee modussen zijn.
!
Ø Gemiddelde: M= " ∑#
$%! 𝑋𝑖
3.1.2. Maten voor spreiding: variantie en standaarddeviatie
De range is het spectrum waarop alle getallen zich bevinden. Soms rapporteert men om vertekening
te vermijden de range waarbij het hoogste en laagste getal verwijderd zijn. De variantie (s2) is de ge-
middelde som van de gekwadrateerde afwijkingen van de individuele scores van het gemiddelde. Een
nadeel is dat de oorspronkelijke schaal van de metingen zoek raakt door het kwadrateren. Daarom
wordt vaak gebruik gemaakt van de standaarddeviatie: de wortel van de variantie. De standaarddevi-
atie zegt dus hoeveel de onderzochte personen gemiddeld van het gemiddelde afweken.
('$( '* )!
Ø Variantie: s2 = ∑#
$%! #(!
Ø Standaarddeviatie: √s,
3.2. Inferentiële statistiek
3.2.1. Steekproeven en populaties
Informatie uit steekproeven is pas interessant voor zover die iets zegt over een bredere groep: de
populatie. Een goede steekproef lijkt dus op de populatie. Als het een goede afspiegeling is, noemen
we de steekproef representatief. Dit is te bereiken door een toevalssteekproef te trekken uit een lijst
met leden van de populatie (random sample). Door het toevallige proces van respondenten trekken
mogen we verwachten dat er een nette spreiding over leeftijd, sekse, inkomen, etniciteit etc. is in de
steekproef. De toevalstrekking garandeert niet dat er gemiddeld geen verschillen zijn met de popula-
tie, maar wel dat er geen systematische verschillen meer zijn. Als iedereen een gelijke kans heeft om
in de steekproef terecht te komen, beschouwen we hem als representatief.
Representativiteit wordt ook wel aangeduid als externe validiteit. Dan mogen we de resultaten
van het onderzoek op basis van de steekproef generaliseren naar de populatie. Meestal zijn steekproe-
ven niet representatief voor de populatie. Dit komt door het deel dat bijvoorbeeld niet mee wil werken
of dat uitvalt. De uitval mag niet toevallig geacht worden, waardoor een steekproef niet meer repre-
sentatief is. Meestal probeert men uit te vinden in welke mate de steekproef niet representatief is
door de kenmerken van de populatie te vergelijken met die uit de steekproef.
, 3.2.2. Omgaan met onzekerheid: toetsen
Bij een representatieve steekproef kunnen we maten gaan uitrekenen. Daarbij moeten we er rekening
mee houden dat het resultaat toevallig kan zijn, als er bijvoorbeeld net wat atypische winkeldieven of
inbrekers in de steekproef terechtgekomen zijn. Om met deze onzekerheid om te gaan toetsen we de
toevalligheid. Stel, een man op straat spreekt jou aan en wil een weddenschap afsluiten. Als hij met 10
dobbelstenen 10 zessen gooit, krijgt hij honderd euro van jou, als hij iets anders gooit krijg jij honderd
!
euro van hem. De kans dat hij 10 zessen gooit is erg klein, (-)10 = 0,00000001654, en jij gaat dus in op
de weddenschap. Hij gooit 10 zessen. Dit is wel erg toevallig, daarom concludeer je dat de dobbelste-
nen onzuiver zijn. In de statistiek vertaalt dit zich met hypothesen:
H0: de dobbelstenen zijn zuiver
H1: de dobbelstenen zijn onzuiver
Je weet niet zeker dat H1 waar is, maar die kans durf je aan te nemen omdat de kans op H0 erg klein is.
Het risico dat je loopt dat je ten onrechte H1 aanneemt is de 𝛼-fout of type I fout. We kijken dus naar
significantie. Als de kans heel klein is dat een resultaat wordt
gevonden als de nulhypothese waar is, verwerpen we deze en
nemen we de alternatieve hypothese aan. De grenswaarde
wordt vastgesteld door de onderzoeker. Soms kan deze ervoor
kiezen de 𝛼 wat scherper te zetten, bijvoorbeeld als hij wat
minder risico wil lopen. Dit heeft ook nadelen: bij een steeds
kleinere grenswaarde maak je steeds minder fouten, maar zul
je ook minder snel herkennen dat er iets bijzonders aan de
hand is: de type II fout of de 𝛽-fout. De 𝛽 kunnen we niet zelf
kiezen, deze hangt af van allerlei factoren zoals 𝛼, de steek-
proefgrootte en het werkelijke verschil tussen de grootheden. Bij de type I fout gaat de brandmelder
af terwijl er een vals alarm is. Bij de type II fout gaat de brandmelder niet af terwijl er wel brand is. De
eerste fout wordt doorgaans erger gevonden dan de tweede. Het blokje rechtsonder, 1 - 𝛽, wordt ook
wel aangeduid als de power, de kracht van de toets: de kans om H1 waar te nemen als H1 waar is, om
aan te slaan als er brand is. De power gaat achteruit bij een kleinere steekproef.
Dingen die fout kunnen gaan zijn een te kleine steekproef en ruis in de data, of schending van
de assumpties van de toetsingsprocedure. Bij de eerste zal vrijwel geen enkel verschil als significant
beoordeeld worden, de kans op een type II fout wordt dus groter. Toevalligheden krijgen vrij spel, ze
worden niet gedempt door de overige waarnemingen. De tweede wil zeggen dat de gegevens een erg
grote variantie hebben, waardoor een bestaande samenhang in de ruis verdwijnt.
3.2.3. Steekproefgrootte
Soms kunnen steekproeven te groot zijn: dan is bijna ieder verband of verschil significant en heeft het
dus geen zin meer om te toetsen. Dan is er wel sprake van statistische significantie maar niet van
praktische significantie (de correlatiecoëfficiënt is te klein). Je kunt dan de 𝛼 kleiner zetten.
3.2.4. Omgaan met onzekerheid: schatten en betrouwbaarheidsintervallen
Bij een toevalssteekproef mogen we generaliseren naar de populatie, maar dit geldt slechts als schat-
ting. Om het verschil aan te geven tussen steekproef- en populatiewaarden en tussen schattingen en
metingen gebruiken we verschillende notaties.
Ø Gemiddelde: populatie = 𝜇, steekproef = M
Ø Variantie: populatie = 𝜎2, steekproef = s2
Bij hypothesen gebruiken we dus altijd Griekse letters. Het steekproefgemiddelde mogen we gebrui-
ken als schatting van het populatiegemiddelde, de puntschatting van 𝜇:
, Ø 𝜇̂ = MX
Een betrouwbaarheidsinterval geeft de range aan waarbinnen de puntschatting zich beweegt. Vaak
wordt het 95%-betrouwbaarheidsinterval gebruik (CI95). Als een steekproef groter wordt, wordt het
betrouwbaarheidsinterval smaller.
3.2.5. Omgaan met onzekerheid: verdelingen
Stel, je vindt een dode reiger in de tuin. Je vindt hem
erg groot en meet de spanwijdte van zijn vleugels. Dat
is 203 cm en voor je gevoel hoort hij misschien wel tot
de 1% grootste reigers van zijn soort. Dat wil je graag
onderzoeken. De vleugelspanwijdte is normaal ver-
deeld en gemiddeld 1.60m met een standaarddeviatie
van 18cm. In de figuur kun je aflezen dat de dode rei-
ger zich inderdaad bij de 1% reigers met de grootste
vleugelspanwijdte bevindt.
We kunnen ook metingen omzetten in standaardsco-
res, door er het gemiddelde van af te trekken en dan
te delen door de standaarddeviatie. Dit noemen we z-scores. Dat maakt ze vergelijkbaar met de scores
van de standaardverdeling of de z-verdeling.
3.3. Symmetrische bivariate technieken
3.3.1. Correlatie als maat voor lineaire samenhang
De meest gebruikte maat voor samenhang in kwantitatief criminologisch onderzoek is de Pearson pro-
duct-moment correlatiecoëfficiënt. Dit is de som van -voor iedere persoon telkens- de afwijking van
de score Xi van die i-de persoon van het gemiddelde op variabele X maal de afwijking van de score Yi
van die i-de persoon van het gemiddelde van Y; de som van deze producten wordt gedeeld door de
standaarddeviaties van X en Y; in de noemer wordt tevens gecorrigeerd voor de steekproefgrootte. Dit
is een schaalonafhankelijke en steekproefgrootte-onafhankelijke maat voor samenhang.
('" ('* )(." (.*)
Ø RXY = ∑"
$%! (#(!)/# /$
Als er een grotere samenhang is, is het ook gemakkelijker om een score op variabele Y te schatten.
Denk hierbij aan de puntenwolk. Als deze smaller is, is de range waarop de score kan liggen kleiner dan
als de punten ver uit elkaar liggen. Een positief verband betekent dat een hoge score op de ene varia-
bele samengaan met een hoge score op de andere variabele, een negatief verband betekent dat een
hoe hoger er wordt gescoord op de ene variabele, hoe lager er wordt gescoord op de andere.
Het kwadraat van de correlatiecoëfficiënt reflecteert het percentage van de variantie van de
ene variabele dat uit de andere variabele verklaard kan worden. Als de correlatie tussen X en Y 0.7 is,
is de uit X verklaarde variantie van Y dus 0.49, oftewel: bijna 50% van de variantie van Y kan uit X
verklaard worden.
Nadelen van de correlatiecoëfficiënt is dat het slechts een maat is voor lineaire samenhang,
en dat het gevoelig is voor extreme scores of uitbijters.
3.3.2. Andere maten voor samenhang
Nog een voorbeeld van een maat voor samenhang is de Spearman voor variabelen op ordinaal niveau.
- ∑% !
"&' 1"
Ø 𝜌=1- #(# ! (!)
3.3.3. Kruistabellen, relatief risico en odds ratio
Als we geïnteresseerd zijn in het verband tussen twee nominale variabelen gebruiken we vaak kruis-
tabellen. Meestal gebeurt dit met de 𝜒 , toets, als de twee variabelen dichotoom zijn dan is dit vaak
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller EmilyE. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $7.16. You're not tied to anything after your purchase.