Methodologie deel 3 – Kwantitatief luik
Academiejaar 2022/2023 - Prof. Pleysier
College 1: Coderen en data-entry in SPSS
De constructie van variabelen
Vóór dataverzameling: van concepten naar (enquête)variabelen: operationaliseren.
Na dataverzameling: van antwoorden op een vraag naar variabelen:
Soms: variabelen zijn antwoorden (codes) op enquêtevragen.
Soms: variabelen via hercoderen van enquêtevragen.
Soms: enquêtevragen samennemen tot schalen om abstracte concepten (bijv. anomie en
onveiligheid) te meten = schaalconstructie.
Er is één toetsstatistiek die we vrij gemakkelijk met de hand kunnen berekenen, omdat die niet
gebaseerd is op ruwe data. Maar in essentie worden de andere toetsstatistieken via SPSS berekend.
Voor het gebruik van SPSS wordt verondersteld dat er data in het systeem zit. De stap van data-entry is
uiteraard ook een belangrijke stap. Dat verwijst eigenlijk naar Methodologie deel 2: conceptualisering
en operationalisering. Relatief eenvoudige concepten kunnen vrijwel onmiddellijk worden vertaald in
een vragenlijst, maar in het kader van criminologisch onderzoek moet je soms ook met complexere en
abstracte concepten werken die je meetbaar wilt maken en vervolgens wilt omzetten in kwantitatief
onderzoek. Deze abstracte, complexe concepten vragen meer op het vlak van conceptualisering en
operationalisering. Na het operationaliseren = het ontwikkelen van vragen die we in onze vragenlijst
voorleggen aan respondenten. Die respondenten zullen hier op antwoorden en vervolgens gaan we die
antwoorden in ons databestand opnemen om te kunnen besluiten of die antwoorden overeenkomen
met onze opgestelde conceptualisering van dat concept. Na onze dataverzameling zullen we dus
moeten teruggaan naar de variabelen in essentie, maar ook terug naar de vraag. Die variabelen zijn
soms heel eenvoudige codes op enquêtevragen, zoals leeftijd, geslacht… De meer beschrijvende
variabelen. Die code is dan het onmiddellijke antwoord op je variabele en de variabele zelf. Soms ga
je hercoderen – de variabele via het hercoderen van enquêtevragen bekomen. Je vraagt een
geboortedatum, maar wil in je onderzoek eigenlijk met leeftijd werken. Leeftijd is eigenlijk een
eenvoudigere hercodering van geboortedatum. Soms is het nog wat complexer en worden
enquêtevragen samengenomen tot schalen om abstracte concepten te meten. Dat gebeurt niet aan de
hand van één enkele vraag, maar daarvoor worden een aantal stellingen ontwikkeld of wordt een ander
onderzoek overgenomen. We denken dat dit samen een rijk beeld van dat bepaald concept oplevert via
onze meting die dan niet uit één variabele bestaat, maar uit meerdere variabelen. Dat coderen, ingeven
van de data, zal voor een stuk meebepalend zijn voor het gevolg van de analyse. In dit geval van
relatief eenvoudige antwoorden van enquêtevragen in je vragenlijst tot het samennemen van bepaalde
antwoorden in nieuwe, soms relatief complexere variabelen die dan aanleunen bij de complexere
concepten.
Het coderen aan de hand van schalen
Van vragenlijst via codeboek naar databestand: bijkomende illustraties
Veiligheidsmonitor: vragenlijst met module buurtproblemen, mijdgedrag, risico-inschatting,
politie functioneren…
SCV survey: overzicht vragen en codeboek.
ESS: ‘main questionaire’ en data protocol.
JOP-monitor : technisch verslag.’
Illustratie: mijdgedrag in de VM (v57 t/m v60 → V57 Vraag 023 a – Gebeurt het dat u bepaalde
plekken in uw gemeente mijdt omdat u het niet veilig vindt? (In 1997 “Hoe dikwijls gebeurt het dat
u…”).
1. Altijd
2. Vaak
3. Soms
1
, 4. Zelden
5. Nooit
6. Niet van toepassing
7. Weet niet
8. Geen antwoord
De codes bij de antwoordopties zijn al enerzijds de link tussen wat in jouw databestand staat en de
antwoorden op de vraag zoals die zijn gesteld in jouw vragenlijst. Die vragenlijst in het geval v.d.
Veiligheidsmonitor is op zich al een beetje een codeboek. Het was vraag 24, maar die wordt
weggeschreven als variabele 57. Als je dan in de kolom van V57 kijkt in je databestand en je ziet een
‘3’ staan in een bepaalde rij, dan weet je dat de respondent 3 = soms, heeft geantwoord op die vraag.
Er moet op een of andere manier gedocumenteerd worden ofwel a.d.h.v. die vragenlijst zelf of aan de
hand van wat we codeboek zullen noemen.
Dit is in principe een ordinale antwoordschaal, maar alleen maar als we ‘6’, ‘7’ en ‘8’ buiten
beschouwing laten, want deze verstoren de ordinale antwoordschaal. Dat is de reden dat we vaak
alleen maar gaan werken met de inhoudelijk relevante antwoorden in onze analyse.
We vragen naar mijdingsgedrag omwille van een
(on)veiligheidsgevoel bij de respondenten. De ontwerpers
v.d. Veiligheidsmonitor hebben besloten om 4 verschillende
situaties voor te leggen en te vragen in hoeverre ze een
bepaald gedrag zouden stellen. Er zitten dus meerdere
variabelen in het concept ‘mijdgedrag’. Respondenten
zullen op die vier vragen antwoorden en dan krijg je dus
een reeks cijfers voor elke respondent.
Deze cijfers komen overeen met de antwoordcodes die niet als antwoord zelf worden weggeschreven
in het databestand, maar gewoon de code 3 die ‘soms’ weergeeft. Het codeboek legt dan de link tussen
enerzijds het antwoord en anderzijds het code of het cijfer zoals weggeven in het databestand.
2
, De respondenten staan
in de rijen en de
variabelen staan in de
kolommen! In de
kolommen staan de
codes die
overeenkomen met de
antwoorden van de
respondent op
bepaalde vragen.
Dit zal ons rekenblad
zijn zoals het ook
ingegeven zal zijn in
SPSS en eruit zal zien
zoals in SPSS.
Volgende stap: data-entry in SPSS.
Je hebt 2 tabbladen in SPSS. Het basis tabblad is je ‘dataview’: dat is de klassieke structuur met in de
rijen je respondenten en in de kolommen je variabelen. Het 2 e tabblad is variable view: is een tabblad
waarin je meer informatie voor elke variabele krijgt. Hier zie je dat in de rijen de variabelen zullen
staan en dat aan die variabele een type variabele wordt toegekend: nominaal/metrisch/ordinaal en de
breedte van je variabele.
SPSS is menugestuurd. Dat wil zeggen om onze analyses uit te voeren, moeten we niet gaan
programmeren. Dit is mogelijk, maar voor het gros volstaat het om het menugestuurd aanbod van
SPSS te gebruiken. Dat is ook een van de redenen waarom je op het examen nooit bepaalde analyses
hoeft uit te voeren. Wat wel de bedoeling is van het examen is dat er wordt gevraagd ‘Dit is de
probleemstelling en de variabelen en we willen weten of er een verband is. Hoe ga je dit oplossen? Dat
is een variabele op het nominale meetniveau, dus ik mag daar geen correlatie op berekenen maar een
Chi-kwadraattoets. Dat is één van de vragen die mogelijk is op het examen. Een tweede minstens zo
belangrijk punt is het interpreteren van de regressieanalyse. De output die SPSS je geeft interpreteren
en a.d.h.v. daarvan je onderzoeksvraag beantwoorden. Een output wordt weergeven en dan wordt er
gevraagd ‘Wat kunnen we hieruit concluderen? Is er een correlatie? Of heeft deze variabele een impact
op…?’.
3
, Het 2e tabblad is variable view: is een tabblad waarin je meer informatie voor elke variabele krijgt.
Hier zie je dat in de rijen de variabelen zullen staan en dat aan die variabele een type variabele wordt
toegekend: nominaal/metrisch/ordinaal en de breedte van je variabele. Een label is een iets
uitgebreidere beschrijving van je variabele. Zodat je in je databestand zelf kan zien waarover het gaat
en niet telkens naar het codeboek hoeft terug te grijpen. Values zijn de codes die we gaan toekennen.
Als je dat leeglaat ga je in de verwerking van je data daar geen informatie over krijgen. Als we geen
waarde toekennen aan de antwoordoptie ‘3’ zal er gewoon 3 blijven staan. Als je daar een waarde aan
toekent, kan je aan die 3 soms het antwoord koppelen. Dan zie je in je grafiek ook ‘zelden’, ‘soms’,
etc. staan. Dat maakt het weer makkelijker, want je hoeft daardoor niet telkens opnieuw terug naar je
codeboek te gaan. Bij de vragenlijst van de Veiligheidsmonitor zijn de antwoordopties 1-5 maar
inhoudelijke antwoorden. De antwoordopties 6-8 worden in veel analyses achterwege gelaten, omdat
deze geen inhoudelijk antwoord weergeven. We zullen dan moeten zeggen codes ‘6’’, ‘7’ en ‘8’ mag je
als missing beschouwen. Op het moment dat je analyses doet mogen deze weg worden gelaten, omdat
deze de ordinale antwoordschaal verstoren. Dat soort item non-respons doet onze steekproef
verkleinen en met andere woorden ook onze statistische power verkleinen – we zullen veel minder
snel statistische verbanden vinden. Er moet dus goed worden nagedacht over de ‘weet niet’-filter in
onze vragenlijsten. Een tussencategorie is dus interessanter, omdat dat het ordinaal karakter van onze
schaal niet verstoort. ‘Noch eens, noch oneens’ is een vluchtweg, maar het verstoort ons ordinaal
karakter niet, want het ligt in onze ordinale schaal. Die tussencategorie is daarom ook meer te
verkiezen dan de ‘weet ik niet’-optie. Hier zie je dus ook weer terug, waarom je beter niet van 2
vluchtwegen gebruik maakt.
Volgende stap: datacleaning en analyse.
Op het moment dat die data is ingegeven rest er nog een belangrijke laatste stap en dat is het proces
van de datacleaning. Dat is het opkuisen van onze data. Het is mogelijk dat op het moment dat onze
data is ingegeven er fouten zijn ingeslopen. Dat je bijv. i.p.v. ‘3’, ‘33’ hebt ingetypt. Je kan dat soort
fouten vrij eenvoudig in beeld brengen door bijvoorbeeld van andere variabelen een frequentietabel op
te vragen. Je kunt dan op een eenvoudige manier gaan corrigeren en dat is een beetje wat wordt
bedoeld met datacleaning. Datacleaning zal je niet in staat stellen om andere fouten eruit te halen.
Wanneer je niet ‘3’, maar ‘1’ hebt ingegeven, ga je dat achteraf niet kunnen achterhalen, omdat die ‘1’
ook een valide antwoordmogelijkheid is. Dat is ook weer een voordeel van een computergestuurde
afname of websurveys en het gebruik maken van een tool – die data wordt rechtstreeks weggeschreven
naar je databestand en in dat opzicht zullen er in principe geen fouten inzitten. Uiteraard kan de
respondent wel fouten maken bij het invullen van de enquête en dat kun je er ook niet uithalen. Maar
het is minder omdat de stap van de data-entry computergestuurd wordt ingevuld.
Coderen: bijkomende punten en samenvattende regels
Overzichtelijke vragenlijst (genummerd)
Duidelijk en consequent codeboek (‘veldcoderen’ uitsluiten).
Afspraken voor ‘weet niet’ (7, 77, …), ‘geen antwoord’ (8, 88…), ‘niet van toepassing’ (9,
99…): zie bijv. codeboek SCV survey.
Afspraken voor filter vragen.
Afspraken voor onduidelijke antwoorden.
Afspraken verwerking meerdere antwoordmogelijkheden.
Het nummeren van de vragen maakt het coderen en opzoeken van je vragen overzichtelijker. Zorg
voor een duidelijk en consequent codeboek. Dit kan je vragenlijst zelf zijn, maar als dit nog niet
allesomvattend is voeg je daar het best wat informatie aan toe in het codeboek. Zorg voor consequentie
in het kader van het kunnen uitsluiten van niet-inhoudelijke antwoordopties. Het is belangrijk om
duidelijke afspraken te maken die vervat zitten hetzij in je gedetailleerde vragenlijst, hetzij in je
codeboek. Dit sluit namelijk het veldcoderen uit. Dit is het moment dat als je ziet dat er fout opduikt
als onderzoeker, dat je daar een antwoord op gaat zoeken als onderzoeker. Veldcoderen is het zoeken
van een oplossing op het moment dat het probleem zich aandoet. Daarmee verlies je een stuk van je
standaardisatie. Hetzelfde geldt voor filtervragen. Dit zijn vragen waarop iemand een bepaald
antwoord geeft en in functie daarvan een andere reeks antwoorden krijgt. Ook daar zie je vaak dat
4