Kwantitatief
Onderzoeks Methodologie
Radboud Universiteit - Discovering statistics
using IBM SPSS Statistics - Andy Field –
April 2020
0
D. Folmer
,Hoofdstuk 2 De ruggengraat van statistiek
We focussen op de overeenkomsten tussen statistische modellen in plaats van de verschillen. Je
moet statistiek als een gereedschap gebruiken. De meeste statistische modellen zijn variaties van het
simpele idee dat je een uitkomst variabele voorspeld van één of meerdere voorspel variabele. De
wiskundige vorm kan veranderen maar gaat altijd over de relatie tussen variabelen. Ze worden ook
wel de SPINE van statistiek genoemd, dit staat voor:
• Standard Error
• Parameters
• Interval Estimates (Confidence interval)
• Null hypothesis significance testing
• Estimation
We bouwen statistische modellen zodat we hypothesis in een simulatie van de realiteit kunnen
testen. We verzamelen data van de echte wereld zodat we de voorspellingen omtrent een
hypothesis over een fenomeen kunnen testen. Omdat we testen, moeten we statische modellen
bouwen omtrent het onderwerp.
Het is van belang dat het model zo goed mogelijk gerepresenteerd wordt door de werkelijkheid,
anders betekenen conclusies niets. Er zijn 3 soorten “fit”
1. Goede fit – Als je dit model gebruikt zal zo het dicht bij de realiteit liggen dat je zeker kan zijn
dat je voorspellingen accuraat zullen zijn
2. Matige fit – Het model komt dicht bij de realiteit, maar er zijn ook grote verschillen. De
voorspellingen kunnen dus accuraat zijn, maar ook helemaal verkeerd. We hebben dus
weinig vertrouwen in het model.
3. Slechte fit – Elke voorspelling gebaseerd op dit model zal compleet verkeerd zijn. Als het
model slecht is dan zullen de voorspellingen ook slecht zijn.
Alles in dit boek komt neer op de volgende formule:
Uitkomst = Model + error
De data die we observeren kan voorspeld wordt uit het model die we het beste vonden passen plus
een beetje error. De formule zal veranderen op basis van het ontwerp van je onderzoek, het soort
data dat je hebt en wat je probeert te bereiken met het model. Om de formule makkelijker te maken;
we voorspellen een uitkomst variabele van een model, maar we zullen dit nooit perfect doen omdat
er altijd een beetje error in zit.
Populatie en samples
Onderzoekers zijn meestal geïnteresseerd in het vinden van resultaten dat je kan toepassen op de
gehele populatie. Het heeft natuurlijk een groter impact als je iedereen kan meetellen. Het probleem
is dat we bijna nooit toegang hebben tot de gehele populatie. Daarom verzamelen we data van een
kleinere group ook wel bekend als sample. De groter de sample, de groter de kans dat het de gehele
populatie reflecteert. Als we verschillende random samples kiezen van de populatie, dan zullen deze
ons allemaal een iets ander resultaat geven, maar gemiddeld gekeken zal het resultaat ongeveer
hetzelfde zijn.
1
D. Folmer
,P is for Parameters
Statistische modellen zijn gemaakt vanuit variabelen en parameters. Parameters worden niet
gemeten en zijn meestal constanten waarvan wordt aangenomen dat ze een fundamentele waarheid
vertegenwoordigen over de relaties tussen variabelen in het model. Een paar voorbeelden zijn de
Mean (Gemiddelde), Median, Correlation and regressie coëfficiënt. Om je niet te verwarren met
symbolen, gebruiken we voor een parameter de letter b. Als we benieuwd zijn naar het samenvatten
van een uitkomst, hebben we maar 1 parameter in het model, dit kunnen we beschrijven als:
Dit betekent dat we de uitkomst van de formule gelijk is aan een parameter plus een beetje error.
Vaak willen we echter de Uitkomst van een variabele voorspelling en als we dit doen dan willen we
variabele in de formule hebben. Variabele worden beschreven als de letter X, dit geeft ons:
Als we een uitkomst willen voorspellen van twee voorpellers, dan kunnen we er nog 1 toevoegen:
Dit ziet er misschien vaag uit, maar het betekent eigenlijk dat als je de uitkomst van de formule wilt
weten, dat je dan een parameter pakt, de scores bij de twee voorspeller variabelen (b1X1, b2X2) pakt
en een beetje error er in gooit, want je weet natuurlijk niet of alles exact klopt.
We kunnen dus waarden van een uitkomstvariabele voorspellen op basis van een model. De vorm
van het model verandert, maar er zal altijd een fout in de voorspelling zijn en er zullen altijd
parameters zijn om ons te vertellen over de vorm of de structuur van het model.
Je zal de zin zien; ‘Schat de parameters’ of ‘parameterschattingen’ veel in statistiek. Dit komt omdat
we als wetenschappers geïnteresseerd zijn in de gehele bevolking. Het probleem is dat we niet de
hele populatie hebben gemeten, dus we kunnen alleen inschatten hoe populatieparameters er echt
uitzien.
Het gemiddelde als een statistisch model
Voorbeeld: als we vijf docenten nemen en het aantal vrienden meten dat ze hebben. Dan vinden we
de volgende gegevens; 1, 2, 3, 3 en 4. Als we het gemiddelde aantal vrienden willen weten, of the
mean, moeten we alle waarden optellen en delen door het aantal gemeten waarden. Dit is 2.6, maar
je kunt geen 2.6 vrienden hebben. Het gemiddelde is dus een hypothetische waarde: het is een
model dat is gemaakt om de gegevens samen te vatten en er is een fout in de voorspelling. Het
model is dus:
Waarin bo het gemiddelde van de uitkomst is. We kunnen de waarde van het gemiddelde gebruiken
om de waarde van de populatie te schatten. We geven schattingen kleine hoedjes zoals deze:
Het enige dat de hoeden doen, is duidelijk maken dat de onderliggende waarden schattingen zijn.
De aanpassing van een model: Sum of squares en variantie opnieuw bekeken
2
D. Folmer
, We moeten weten hoe representatief het model is voor de realiteit die we bouwen. Laten we eens
kijken wat er gebeurt als we het model van het gemiddelde gebruiken om te voorspellen hoeveel
vrienden de eerste docent in ons voorbeeld heeft.
We zagen dat docent 1, één vriend had en het model voorspelde 2.6 door de vergelijking te
herschikken zien we dat er een error is van -1.6.
Dus we willen dat het resultaat één is. Het gemiddelde is 2,6 en geplaatst op de plaats van b. Als we
de vergelijking zo maken dat we de waarde kunnen zien, zien we dat we de afwijking (deviance)
hebben berekend. De afwijking is hoeveel je af bent van het gemiddelde. 1 als -1.6 van 2.6. De
afwijking is een ander woord voor fout(error) , je kunt je ook de volgende vergelijking voorstellen:
Met andere woorden, de fout of afwijking voor een
bepaalde entiteit is de voorspelde score door het
model voor die entiteit afgetrokken van de
overeenkomstige waargenomen score. Je kunt dit zien
in de volgende afbeelding. De lijn die het gemiddelde
voorstelt, kan worden gezien als ons model en de
stippen zijn waargenomen gegevens. De verticale
lijnen vertegenwoordigen de fout of afwijking van het
model voor elke docent.
Het model overschat de populariteit van de eerste
docent zoals je kunt zien. We willen de fit/ nauwkeurigheid van het model in het algemeen weten.
We hebben in het vorige hoofdstuk gezien dat we niet alleen afwijkingen kunnen optellen, omdat we
in totaal 0 zouden krijgen. Maar we kunnen ze kwadrateren en vervolgens optellen. Dus zouden we
de fouten kwadrateren en uiteindelijk zouden we de som van de kwadraatfouten (Sum of squared
Errors) krijgen. Dit ziet er moeilijk uit, maar het is gewoon alle afwijkingen kwadrateren en optellen.
Dit is exact dezelfde vergelijking van de Sum of squares in hoofdstuk 1.6, maar nu hebben we enkele
symbolen in ons model vervangen.
Wanneer we meer in het algemeen aan modellen denken, illustreert dit dat we kunnen denken aan
de totale error in termen van deze algemene vergelijking. Dit laat zien dat we de Sum of squares
kunnen gebruiken om de totale fout in elk model te beoordelen.
We zagen dat, hoewel de Sum of Squares (SS) een goede maatstaf is voor de nauwkeurigheid van ons
model, dit afhangt van de hoeveelheid gegevens die zijn verzameld. Des te meer gegevens, hoe
3
D. Folmer