Dit proces bevat 4 stappen: beschrijven, bewerken, beoordelen en beantwoorden van de
onderzoeksvraag. De eerste drie stappen zijn eigenlijk voorbereidingen die nodig zijn om
het uiteindelijke doel te bereiken, namelijk het antwoord op de onderzoeksvragen.
1. Beschrijven:
Een beschrijving van de gegevens, vooral met tabellen of grafieken maar ook met
centrum- en spreidingsmaten, geeft een indruk waar de onderzochte personen of
dingen:
Hoog/laag scoren
Veel/weinig verschillen
Wel/niet gelijk verdeeld zijn over verschillende categorieën of niet
Met deze beschrijving kun je ook nagaan of de analyses die je van plan was, ook
uitgevoerd kunnen worden:
Als je bijvoorbeeld mannen met vrouwen wilde vergelijken, zijn er dan genoeg
van beide in de dataset? Zijn er (vrijwel) geen mannen of vrouwen, dan kun je
de vergelijking niet maken.
De beschrijving laat je ook zien hoe je variabelen het beste kunt groeperen in
klassen:
Met een frequentietabel van de leeftijden kun je zien waar de grenzen liggen
tussen de 33% jongste personen, de 33% middelste en de 33% oudste
personen.
Tenslotte is de beschrijving belangrijk omdat je waarden in je data kunt tegenkomen
die eigenlijk niet mogen voorkomen:
Codeerfouten (typfouten)
Personen die niet tot de populatie behoren.
2. Bewerken:
Na het invoeren van de gegevens zijn er vaak foutjes in de gegevens die
gecorrigeerd moeten worden:
Missings
Hercoderen - dat sommige waarden (categorieën) zo weinig voorkomen dat je
ze in de analyse wilt samennemen
Select cases - de analyse maar op een deel van de gegevens uitvoeren
Schaal of index construeren
3. Beoordelen:
Analysetechnieken en toetsen die je wilt gebruiken om de onderzoeksvragen te
beantwoorden, stellen soms eisen aan de gegevens. Je moet eerst controleren
(beoordelen) of je gegevens aan deze eisen voldoen, voordat je de analysemethode
of toets kunt gebruiken.
4. Beantwoorden van de onderzoeksvragen:
Voor elke onderzoeksvraag, hypothese of deelvraag moet je een analyse uitvoeren.
Meestal gebruik je gegevens uit een (aselecte) steekproef, zodat je een statistische
toets moet uitvoeren om te bepalen of de resultaten statistisch significant zijn.
Om het spoor niet bijster te raken raden we je aan om in het analyseproces de stappen in dit
schema steeds systematisch te volgen: eerst univariaat beschrijven, bewerken, beoordelen
,en eventuele univariate onderzoeksvragen beantwoorden, dan deze stappen bivariaat uit te
voeren, tenslotte multivariaat. Natuurlijk hoef je niet in elk onderzoek alle stappen te
gebruiken, je zult bijvoorbeeld niet vaak een univariate onderzoeksvraag hebben. Maar het is
belangrijk om de stappen die wel relevant zijn in deze vaste volgorde te zette:
1. Univariaat 2. Bivariaat 3. Multivariaat
- Frequentietabel
- Centrum- en
spreidingsmaten - Kruistabel
- Grafiek: - Samengesteld staaf-
1. Beschrijven - Correlatiematrix
cirkeldiagram, of lijndiagram
staafdiagram, - Spreidingsdiagram
lijndiagram, boxplot,
histogram
- Labels aan
variabelen en waarden
(values) toekennen
- Missing values
definiëren (ook voor - Factoranalyse
onmogelijke waarden) (zie uni- en (schaalconstructie)
2. Bewerken
- Hercoderen, multivariaat) - Indexvariabele
groeperen van maken
gegevens
- Cases selecteren
- Standaardiseren (z-
scores)
- Aantal waarnemingen
- Controle op normale in cellen kruistabel
- Betrouwbaarheid
verdeling - Varianties gelijk in
3. Beoordelen van schaal
- Extreme waarden groepen ((Levene's) F-
(Cronbach's alpha)
identificeren toets op 2 varianties)
- Vorm verband (lineair)
- Associatiematen (zie
BS)
- Toets op een
correlatiecoëfficiënt
- Toets op Spearman's
rangcorrelatie
- Chikwadraattoets op
- Chikwadraattoets op kruistabel
4. Beantwoorden - Tabelsplitsing (zie
de frequenties van 1 - Fisher exact-toets
onderzoeksvraag BS)
nominale variabele - t-toets op afhankelijke
(gebruik de manier - Tweewegs-
- t-toets op 1 scores
van rapporteren variantieanalyse
gemiddelde - t-toets op
voorgeschreven in - Meervoudige
- Toets op een onafhankelijke
APA6) regressieanalyse
proportie scores/twee
gemiddelden
- (Levene's) F-toets op
2 varianties
- Eenwegs-
variantieanalyse
- Enkelvoudige
regressieanalyse
, 1. Beschrijven:
Frequencies
Op de knop STATISTICS kun je verschillende statistische maten laten berekenen:
centrummaten (gemiddelde, mediaan, modus) en spreidingsmaten (standaarddeviatie,
range). Op CHARTS kun je enkele grafieken selecteren. Op FORMAT kun je aangeven
hoe de gegevens gepresenteerd worden en worden weergegeven in de
frequentieverdeling.
Descriptives
Dit is vooral bedoeld voor interval variabelen. Bij OPTIONS kan je grotendeels dezelfde
maten vinden als bij ‘statistics’ in frequencies, maar hier kan je ook kiezen voor de som.
Grafieken
Cirkeldiagram, staafdiagram, lijndiagram, boxplot, histogram
2. Bewerken:
Missing en labels toevoegen
DEFINE VARIABLE PROPERTIES
Hercoderen
RECODE INTO DIFFERENT VARIABLES
Nieuwe variabele aanmaken
COMPUTE VARIABLES
Selecteren van onderzoekseenheden
SELECT CASES, bijvoorbeeld: “(DEM50 > 17) & (DEM50 < 30)”
Z-scores berekenen
ANALYZE – DESCRIPTIVE STATISTICS – DESCRIPTIVES
Druk vervolgens op 'Save standardized values as variables’.
Om een variabele vergelijkbaar te maken met een andere variabele, kunnen we de
variabele standaardiseren. We zetten de ruwe scores dan om in z-scores.
3. Beoordelen
Controleren op normale verdeling
ANALYZE - DESCRIPTIVE STATISTICS - FREQUENCIES.
In het submenu "Charts" vink de opties "Histograms:" en "With normal curve" aan.
Een normale verdeling is symmetrisch (dus niet scheef). Dit kun je controleren via
de skewness maat. Je kunt op het oog controleren of een verdeling normaal is door een
histogram te maken en daarin de normaalverdeling in te laten tekenen.
Extreme waarden en scheefheid
ANALYZE - DESCRIPTIVE STATISTICS - EXPLORE. Klik op de knop STATISTICS en
vink daar "Descriptives" (voor de scheefheidsmaat) en "outliers" (voor de extreme
waarden) aan. Onder de knop PLOTS kun je grafieken opvragen. Standaard worden er
boxplots van de gekozen variabelen gegeven en stam-en-blad diagrammen.
Extreme waarden zijn waarden die minstens 5 standaarddeviaties verwijderd liggen
van het gemiddelde. Uitbijters (outliers) zijn waarden die minstens 3 standaarddeviaties
verwijderd liggen van het gemiddelde. Scheefheid wordt gemeten met de
maat skewness. Bij dataverzamelingen met kleine aantallen waarnemingen (< 100) kun
je een significantietoets doen op de scheefheid. De nulhypothese is dan dat de verdeling
, symmetrisch (dus niet scheef) is. Bij grote data sets vind je echter significante resultaten
op deze toets wanneer de verdeling maar een klein beetje scheef is. Dan is het beter de
waarde van de scheefheidsmaat te interpreteren. Een waarde dichtbij of boven de 1 of
dichtbij of onder -1 geeft een scheefheid waarbij we beter geen analyses meer kunnen
doen die een symmetrische of normale verdeling veronderstellen. Wanneer de
skewness-score minstens twee keer zo groot is als de standaardfout die erachter
vermeld wordt, mogen we er niet van uitgaan dat de verdeling (in de populatie)
symmetrisch is. Het boxplot waarin de extreme waarden aangegeven zijn met een * en
de uitbijters (outliers) met een o.
Verwachte celfrequenties
Bij de chikwadraattoets op één variabele moeten de verwachte frequenties minstens 1
zijn en minimaal 80% van de verwachte frequenties moet minstens 5 zijn. Aangezien je
de verwachte frequenties zelf invult - het zijn namelijk de bekende populatiewaarden
omgerekend naar de steekproef - kun je tijdens het invullen controleren of de waarden
hoog genoeg zijn.
4. Beantwoorden
T-toets op één gemiddelde
ANALYZE- COMPARE MEANS - ONE SAMPLE T-TEST. . Tik achter 'Test Value' de
waarde waarmee je de variabele wilt vergelijken. Klik op de knop OPTIONS. In het
betreffende scherm kun je het betrouwbaarheidsinterval opgeven (de default is 95%).
Ook kun je kiezen tussen het listwise of pairwise verwijderen van missende data.
Met deze toets ga je na of het gemiddelde van een kwantitatieve variabele afwijkt van
een vaste waarde (getal).
Statistische nulhypothese:
De nulhypothese is dat het gemiddelde van de populatie waaruit de steekproef getrokken
is, gelijk is aan het opgegeven getal.
H0: μ = μ0 waarbij μ0 de waarde van het gemiddelde volgens de nulhypothese is.
Voorwaarden
De numerieke variabele is normaal verdeeld in de populatie waaruit de steekproef
getrokken is of de steekproef bevat meer dan 30 paren. Je kunt beter een z-toets
uitvoeren wanneer de steekproef minstens 100 waarnemingen bevat of wanneer de
numerieke variabele normaal verdeeld is in de populatie en de standaarddeviatie in de
populatie is bekend. SPSS voert echter altijd een t-toets uit.
De tabel geeft de waarde van de toetsingsgrootheid t, het aantal vrijheidsgraden (onder
"df"), de tweezijdige overschrijdingskans (onder "Sig."), het verschil tussen het
gemiddelde van de steekproef en de testwaarde (onder "Mean Difference") en de linker
en rechter grens van het betrouwbaarheidsinterval voor dit verschil. LET OP: Je moet
deze grenzen optellen bij de waarde van het populatiegemiddelde volgens de
nulhypothese om het interval te krijgen waarbinnen het echte populatiegemiddelde met
95% (of een ander percentage) zekerheid valt.