VERDIEPING IN
ONDERZOEKSMETHODE EN
STATISTIEK/2022-2023
AANTEKENINGEN VAN ALLE
HOORCOLLEGES EN
KENNISCLIP BOOTSTRAPPEN
Raisa van Riet
,Inhoudsopgave
Kwantitatief.............................................................................................................................................................2
Hoorcollege 1.......................................................................................................................................................2
Hoorcollege 2.......................................................................................................................................................8
Hoorcollege 3.....................................................................................................................................................13
Hoorcollege 4.....................................................................................................................................................17
Hoorcollege 5.....................................................................................................................................................22
Hoorcollege 6.....................................................................................................................................................25
Kennisclip bootstrappen.......................................................................................................................................32
1
,Kwantitatief
Hoorcollege 1
Categorische kenmerken in een regressiemodel, wanneer de variabele bijvoorbeeld geslacht is
moet je de respondenten opdelen in 2 categorieen, om hiermee te kunnen rekenen krijg je
dummy variabele, dit is wanneer een variabele 1 of 0 aanneemt, vrouw is dan bijvoorbeeld 1
en man 0.
Assumpties in regressieanalyse zijn bepaalde eisen waar de analyse aan moet voldoen om te
kunnen generaliseren
Regressiemodel
Wanneer je een model wil maken is het maken van een theorie, je denkt dat je een aantal
factoren hebt gevonden die misschien een belangrijke verklaring kunnen zijn voor bepaalde
omstandigheden
Je moet dan je factoren (zoals intelligentie) operationaliseren en dan meet je die
geoperationaliseerde factoren/variabele, en ga je kijken in hoeverre die gerelateerd zijn aan je
onderwerp.
Padmodel:
-Je hebt een afhankelijke variabele, dat is de Y in het model
Vervolgens heb je verschillende manieren om onafhankelijke variabele te meten, de X in het
model
- 1 of meerdere onafhankelijke variabele gemeten in minimaal interval
-Dan heb je een meerdere onafhankelijke variabele, dichotoom, wanneer het 0 of 1 is, man= 0,
vrouw = 1 bijvoorbeeld, wanneer er 2 categorieën zijn
-Dan heb je een wanneer er meer dan 2 categorieën zijn om de onafhankelijke variabele in te
verdelen, je verdeelt in dit geval in binaire variabele
Voor een multiple regressie moeten je onafhankelijke variabele minimaal interval of
dichotoom zijn, dit is omdat in het beschrijven van de relatie van de variabele je zal zeggen
voor een toename van … in X verandert er zoveel in Y. Omdat dit gaat per stapjes moet het
minimaal een interval niveau hebben, de afstand tussen de variabele moeten een betekenis
hebben.
E: Dit is de error. Je kijkt hoe goed jou model past met een score die je al geobserveerd hebt,
je hebt allemaal X en Y geobserveerd, je gaat dan kijken hoe je zo goed mogelijk een model
kan opstellen waardoor je zo goed mogelijk de relatie tussen X en Y kan voorspellen, maar
het past natuurlijk niet bij ieder individu perfect, de E is in dit geval de error, de foutmarges.
2
, Je toetst vaak alleen de “relaties” en moet t niet formuleren als “wanneer je slimme ouders
hebt wordt je zelf ook slimmer” want je mag niet zomaar een causaal verband stellen,
wanneer je op maar 1 bepaald moment meet. Een causaal verband kan je bijvoorbeeld alleen
bij een interventieonderzoek proberen te stellen.
Wanneer je de lineaire relaties tussen variabele probeert te beschrijven: als ik 1 meer heb van
de voorspeller, hoeveel meer of minder wordt mn uitkomst dan?
Doelen analyse, in stappen hoe je nou statistische samenhang toetst:
Beschrijven lineaire relaties tussen variabelen (regressiemodel).
Toetsen hypothesen over relaties stellen, vaak wordt dit gedaan dmv een nulhypothese,
deze kan uiteindelijk verworpen worden wanneer blijkt dat er toch een relatie blijkt te zijn
(significantie).
Kwantificeren van relaties, hoe groot is de relatie tussen 2 variabele nou, vanaf wanneer
is het een zinvolle relatiegrootte (effectgrootte).
Kwalificeren van relaties (klein, middelmatig, of een groot effect).
Beoordelen relevantie relaties, wanneer het een klein effect is kan het in bepaalde
situaties als die van ernstig zieke mensen bijvoorbeeld toch nog relevant zijn (subjectief).
Voorspellen van iemands waarde met regressiemodel, je maakt je model om te
voorspellen zo goed mogelijk dat je error (het E’tje in het padmodel) gemiddeld genomen
0 is (puntschatting en intervalschatting).
Het is belangrijk om wanneer je een onderzoek start, goed te kijken naar welke meetniveaus
de variabele die je gaat onderzoeken hebben, dan wijst eigenlijk vanzelf de analysetechniek
die je nodig hebt zich daarbij uit.
De waardes die je meet hebt moeten allemaal interval meetniveau zijn, doe je dus
bijvoorbeeld opleidingsniveau dan meet je dat gewoon in jaren. Havo – 5 jaar en Vwo – 6 jaar
etc.
Voor de geobserveerde variabele Y
Uitkomst (Y) = (lineair regressie) model(X) + voorspellingsfout (residual of error)
Voor het voorspellen van de waarde op Y (=Y) voorspellen van waarde op Y (=Y met een
dakje)
Wil je voorspellen krijg je nieuwe X’jes, oftewel, nieuwe onafhankelijke variabelen waarden,
je had een oud lineair regressiemodel, die gaf bepaalde predictorenwaarden, als je de nieuwe
X’jes daarin doet krijg je de voorspelde waarde, je hebt geen voorspellingsfout omdat je dit
baseert op het model en je geen Y hebt om te zien of het daadwerkelijk klopt, dat kan daarna
maar er is dus nog geen voorspellingsfout.
Geschatteuitkomst (Ydakje) = model (X)
Regressiemodel-formule:
B0 is een interceptwaarde/een constante, waar de lijn van de output van de formule de Y-as
snijdt
Y = afhankelijke variabele (dependent)
X = onafhankelijke variabelen (predictors)
B0 = intercept (constant), ook wel a
3