Categorical variable
Categorische indeling waarvan de waarden geen meetbare hoeveelheden voorstellen, die
dus niet gesommeerd kunnen worden tot totalen. De waarden die een categorische variabele
kan aannemen, bestaan dus slechts uit namen, al dan niet de namen van de categorieën
waartoe de waarden behoren.
Nominal
Je kunt je data categoriseren door labels toe te kennen. Elk datapunt kan maar tot één label
behoren en er is geen rangorde.
Voorbeelden: Geboorteplaats, etniciteit, geloofsovertuiging, automerken.
Dichotomous
Nominale variabelen met slechts twee categorieën.
Voorbeelden: Geslacht (man, vrouw), ja/nee antwoorden
Ordinal
Je kunt je data categoriseren en rangschikken, maar je kunt niets zeggen over de intervallen
tussen de categorieën. De intervallen zijn niet te bepalen of niet betekenisvol.
Voorbeelden: Taalvaardigheid (laag, gemiddeld, hoog), Likert-schalen (vijfpuntsschaal van
zeer ontevreden tot zeer tevreden), top tien bestsellers van boeken
Continuous variable
De toegekende getalsmatige eigenschap kan in theorie alle mogelijke waarden krijgen. Bij
continue variabelen kan wél elke waarde tussen twee meetpunten voorkomen.
Interval
Je kunt de data categoriseren en rangschikken, en er zijn gelijke intervallen tussen de
categorieën. Er is geen betekenisvol of absoluut nulpunt. 0 betekent dus niet dat de waarde
niet aanwezig is (zoals nul graden Celsius)
Voorbeelden: Toetsscores, scores op een persoonlijkheidstest
Ratio
Je kunt de data categoriseren en rangschikken, en er zijn gelijke intervallen tussen de
categorieën. Er is wel een betekenisvol of absoluut nulpunt.
Voorbeelden: Lengte, leeftijd, gewicht
,Statistical and methodological concepts
Describe a situation
Describe a situation that
Term Definition that detriments
benefits [term].
[term].
The extent to which a When you ask some of
measurement is free from When you obtain the same the respondents to fill
Reliability
random measurement results from a group with in your questionnaire,
(when
errors. This means that independent measurements and there is a lot of
measuring
the scores are at different times, with the noise nuisance due to
a construct)
independent of time, place same measurement tool. the construction of the
and environment. new tram line.
When a questionnaire
The extent to which the In the case of a for measuring
instrument questionnaire on a sensitive loneliness does not
Construct (operationalization) subject, the questions are contain items about
validity succeeds in measuring formulated in such a way as social loneliness, but
the construct and thus fits to limit the tendency to only items about
the conceptual definition. answer socially desirable. emotional loneliness
(content-validity).
You have developed a
programme to improve
children's spatial
perception. To
investigate the effect of
the programme you
use a pre- and post-
The extent to which the test. For both tests you
You carry out an experiment
research method can use the same puzzles.
Internal in which everything (except
eliminate alternative
validity the dependent variable) is
explanations for an -> The research
controlled.
effect/relationship. question cannot be
answered correctly. Do
children do the puzzles
in the post-test better
because of the
programme or because
they have remembered
the puzzles (testing)?
, You want to do
research into the extent
of television watching
among young people.
You will therefore take
The extent to which the
a questionnaire with 40
research results can be
External The sample is representative boys you meet in the
generalized to other
validity of the population. shopping centre.
populations, settings and
-> This is a limited
times.
sample, which makes it
difficult to generalise
the results to the
population (young
people).
A researcher reports a
A researcher uses a certain
significant difference in
The extent to which the data analysis technique only
means on the
Statistical results of a statistical after he has checked
dependent variable in
validity analysis are accurate and whether the corresponding
an experiment, but
well-founded. conditions/assumption s
does not present an
have been met.
effect size.
Statistical power
De kans dat de nulhypothese terecht wordt verworpen. Je wil een minimale power van .80 of
80%.
Type 1 error
De kans dat je de nulhypothese ten onrechte verwerpt (je denkt dat er een effect is, terwijl er
geen effect is)
Type 2 error
De kans dat je de nulhypothese ten onrechte aanneemt (je denkt dat er geen effect is, terwijl
er wel een effect is)
ONE-WAY ANOVA
Within group variance
De variantie van scores binnen elke groep
Between group variance
Een variatie van gemiddelden tussen groepen
Explained variance.= Between variance
Residual variance = Within variance
Increased Type 1 error/error rate inflation
Wanneer je meerdere tests doet, wordt het resultaat om minstens 1 signifcant resultaat te
vinden groter. Hiermee wordt de kans dat je je nulhypothese verwerpt ook groter. Ook als er
helemaal geen effect is. Hiervoor is de ANOVA uitgevonden.
,Bootstrapping
Bootstrapping is a technique that can be used to estimate the distribution of a statistic
through repeated resampling of the original sample. In each bootstrap sample, the statistic of
interest is estimated. Based on this, it is possible to estimate the distribution of the statistic
and display statistics such as the mean and confidence intervals.
⇒ statistical significance: For most statistics, you can check whether the value 0 lies within
the limits of the bootstrap confidence interval. If the value 0 does not lie within the limits, it is
not a probable value for the statistic of interest. For a 95% confidence interval, the absence
of the value 0 within the upper- and lower bound of the interval means that the effect is
significant with α = .05.
, SIMPLE LINEAR REGRESSION
Waarvoor?
De uitkomst (afhankelijke variabele) voorspellen aan de hand van één predictor
(onafhankelijke variabele)
Voorbeeld
Op basis van leeftijd wil je voorspellen hoeveel vetpercentage iemand heeft
DV: Vetpercentage
IV: Leeftijd
Regels
Afhankelijke variabele: 1, continue
Onafhankelijke variabele: 1, continue
Assumpties
1. Willekeurige steekproef
De steekproef is willekeurig en onafhankelijk getrokken.
Check: Is niet te checken
Niet voldaan: Onbetrouwbare resultaten, analyse niet uitvoeren.
2. Er is sprake van lineariteit
Er is sprake van een linear verband tussen X en Y. Dit betekent dat voor zowel lage als hoge
waardes van de verklarende variabele de invloed gelijk is.
Check: met een spreidingsdiagram.
Niet voldaan: -
3. Homoscedasticiteit
De variantie van de foutterm moet gelijk zijn voor alle waarden van de verklarende variabele.
Er mag dus niet meer of minder spreiding in de foutterm zijn voor grotere of lagere waarden
van de verklarende variabele.
Formule
b0 = Intercept
b1 = Slope. It indicates how much y increases/decreases if x increases by 1 unit.
Body weight = b0 + b1 x length.
B0 = 40 B1 = 0.2.
What body weight (in kg) would you predict for someone with a length of 180?
Body weight = 40 + 0.2 x 180 = 40 + 36 = 76 kg.
, Deze is voor het calculeren van de beste regressielijn, aan de hand
van de least-squares method. Hier staat: slope = Pearson’s R x
(standaard deviatie van y / standaard deviatie van x)
Tabellen aflezen
Model Summary
R
De correlatie tussen leeftijd en vetpercentage
R square (Goodness of fit)
Hoeveel van de variantie in de afhankelijke variabele (vetpercentage) verklaard wordt door
de verklarende variabele (leeftijd). Is een proportie tussen 0 en 1. In dit geval wordt de totale
variantie van vetpercentage voor 65.9% verklaard door leeftijd.
R square = uit de ANOVA tabel: regression sum of squares : total sum of squares.
Een kleine R squared zegt niet dat er geen relatie is tussen de twee variabelen. Een grote R
squared zegt ook niet dat het model niet nuttig is voor het voorspellen van nieuwe
observaties. Kan zo groot zijn door sampling.
Adjusted R square
Adjusted R square betekent dat bij berekening van de verklaarde variantie rekening is
gehouden met het aantal verklarende variabelen in het model.
SE of the estimate
Hoe kleiner de SE, hoe preciezer onze ingeschatte coefficient.
ANOVA tabel
Toetst de significantie van het regressiemodel
F-test
De F-test in de ANOVA tabel toets de nulhypothese: regressiecoëfficiënt b = 0 (‘er is geen
samenhang tussen X en Y, dus de regressielijn loopt horizontaal - zonder helling - door de
puntenwolk’). Uit de tabel kunnen we opmaken dat leeftijd een significante voorspeller is van
het gemeten vetpercentage (regressiecoëfficiënt b ≠ 0). Of, anders geformuleerd, we kunnen
concluderen dat het vetpercentages van de proefpersonen significant verklaard kunnen
worden door hun verschillen in leeftijd.
, Coefficients
De ‘coefficients’-tabel geeft informatie over de grootte, de aard (plus of minus) en de
significantie van het effect van de verklarende variabelen op de afhankelijke variabele.
Deze tabel gebruik je voor je regressievergelijking. Stel iemand is 60 jaar oud.
Y = b0 + b1x
Y = Constant + B * leeftijd
Y = 2,507 + (0,549 * 60) = 35,45% vetpercentage
De B achter je constant is je intercept.