Kwantitatieve Onderzoeksmethodologie
Chapter 2 – The SPINE of Statistics
SPINE:
• Standard error
• Parameters
• Interval estimates
• Null hypothesis significance testing
• Estimation
Everything in Field’s book boils down to the equation:
The model in the equation will vary depending on the design of your study, the type of data
you have and what it is you’re trying to achieve with your model.
The little i refers to the ith score. Imagine, we had three scores collected from Andy, Zach
and Zoë. We could replace the i with their name, so if we wanted to predict Zoë’s score we
could change the equation to: outcomeZoë = model + error. The i reflects the fact that the
value of the outcome and the error will be different for each person.
A population can be very general (all human beings) or very narrow (all male ginger cats
called Bob). Usually, scientists strive to infer things about general populations rather than
narrow ones.
We rarely, if ever, have access to every member of a population.
Therefore, we collect data from a smaller subset of the population known as a sample and
use these data to infer things about the population as a whole. The bigger the sample, the
more likely it is to reflect the whole population.
Variables are measured constructs that vary across entities in the sample. In contrast,
parameters are not measured and are (usually) constant believed to represent some
fundamental truth about the relations between variables in the model.
When you see equations where these little hats are used, try not to be confused, all the hats
are doing is making explicit that the values underneath them are estimates.
We cannot add deviances because some errors are positive and others negative and so we’d
get a total of zero:
One way to solve this problem is to square the errors:
,We saw earlier that although the sum of squared errors (SS) is a good measure of the
accuracy of our model, it depends upon the quantity of data that has been collected – the
more data points, the higher the SS.
To estimate the mean error in the population we need to divide not by the number of scores
contributing to the total, but by the degrees of freedom (df), which is the number of scores
used to compute the total adjusted for the fact that we’re trying to estimate the population
value.
The mean squared error = variance
Sampling variation = samples vary because they contain different members of the
population; a sample that, by chance, includes some very good lecturers will have a higher
average than a sample that, by chance, includes some awful lecturers.
Sampling distribution = the frequency distribution of sample means from the same
population.
The sampling distribution of the mean tells us about the behavior of samples from the
population, and you’ll notice that it is centred at the same value as the mean of the
population. Therefore, if we took the average of all sample means we’d get the value of the
population mean.
The standard deviation of sample means is known as the standard error of the mean (SE) or
standard error for short. In the land where unicorns exist, the standard error could be
calculated by taking the difference between each sample mean and the overall mean,
squaring these differences, adding them up, and then dividing by the number of samples.
Finally, the square root of this value would need to be taken to get the standard deviation of
sample means: the standard error.
Central limit theorem = as samples get large (>30), the sampling distribution has a normal
distribution with a mean equal to the population mean, and a standard deviation.
When the sample is relatively small (<30) the sampling distribution is not normal: it has a
different shape, known as t-distribution.
The standard error of the mean is the standard deviation of sample means. As such, it is a
measure of how representative of the population a sample mean is likely to be. A large
standard error (relative to the sample mean) means that there is a lot of variability between
the means of different samples and so the sample mean we have might not be
,representative of the population mean. A small standard error indicates that most sample
means are similar to the population mean.
We discovered that 95% of z-scores fall between -1.96 and 1.96. This means that if our
sample means were normally distributed with a mean of 0 and a standard error of 1, then
the limits of our confidence interval would be -1.96 and +1.96. Luckily, we know from the
central limit theorem that in large samples the sampling distribution will be normally
distributed.
We are able to convert scores so they have a mean of 0 and standard deviation of 1.
The 1.96 and -1.96 are limits within which 95% of z-scores occur.
In general, we could say that confidence intervals are calculated as:
In which p is the probability value for the confidence interval. So, if you want a 95%
confidence interval, then you want the value of z for (1-0.95)/2 = 0.025. Look this up in the
‘smaller portion’ column of the table of the standard normal distribution and you will find
that z is 1.96.
A confidence interval for the mean is a range of scores constructed such that the population
mean will fall within this range in 95% of samples.
The confidence interval is not an interval within which we are 95% confident that the
population mean will fall.
H1 = alternative hypothesis
H0 = null hypothesis = effect is absent
The null hypothesis is useful because it gives us a baseline against which to evaluate how
plausible our alternative hypothesis is.
Directional hypothesis = one-tailed test
,Non-directional hypothesis = two-tailed test
Positive relationship = as the amount of time spent reading this book increases, so does the
desire to kill the author.
Negative relationship = as the amount of time spent reading this book increases, the desire
to kill me decreases.
Diagram to show the difference between one- and two-tailed tests:
If the result of a one-tailed test is in the opposite direction to what you expected, you cannot
and must not reject the null hypothesis.
(1) If a result in the opposite direction would be theoretically meaningless or impossible
to explain even if you wanted to.
(2) Imagine you’re testing a new drug to treat depression. You predict it will be better
than existing drugs. If it is not better than existing drugs you would not approve the
drug; however, if it was significantly worse than existing drugs you would also not
approve the drug. In both situations, the drug is not approved.
(3) One-tailed tests encourage cheating. If you do a two-tailed test and find that your p
is 0.06, then you would conclude that your results were not significant. Had you done
this test one-tailed, however, the p you would get would be half of the two-tailed
value (0.03). This one-tailed value would be significant at the conventional level (0.03
< 0.05). Therefore, if we find a two-tailed p that is just non-significant, we might be
tempted to pretend that we’d always intended to do a one-tailed test because our
one-tailed p-value is significant.
,Type I error = when we believe that there is a genuine effect in our population, when in fact
there isn’t.
Type II error = when we believe that there is no effect in the population when, in reality,
there is.
To make a Type I error there must be no effect in the population, whereas to make a Type II
error the opposite is true (there must be an effect that we’ve missed).
A 95% confidence interval contains the population value in 95% of samples, so if your
sample is one of those 95%, the confidence interval contains useful information about the
population value. M = 30, 95% CI [20, 40]
M = 30 [20, 40] when reporting many CI’s
,Videocollege 1 – Dataverzameling
Validiteit = de mate waarin de gemeten kenmerken daadwerkelijk de kenmerken zijn van de
onderzochte objecten (systematische of random error).
= Meten wat je wilt meten.
Betrouwbaarheid = de mate waarin de metingen van de kenmerken dezelfde resultaten
oplevert als het onderzoek onder dezelfde omstandigheden zou worden herhaald.
= Levert herhaald meten onder dezelfde condities dezelfde resultaten op?
Bruikbaarheid = de mate waarin de onderzoeksresultaten goed aansluiten bij het probleem
van de opdrachtgever, ofwel die daadwerkelijk kunnen bijdragen aan de oplossing van een
praktijkprobleem.
Kwantitatieve data
Onderzoekstrategieën:
• Survey
• Experiment
Dataverzameling:
• Vragenlijsten
• Observaties
• Inhoudsanalyse
Data:
• Primair = specifiek voor het onderzoek zelf.
• Secundair = verzameld voor een ander doel.
Voordelen secundaire data:
- Niet belastend
- Data zijn makkelijk te verkrijgen
- Relatief goedkoop
- Beschikbaarheid
- Vergroten van inzicht in primaire data
Nadelen
- Mogelijk niet valide noch betrouwbaar
- Beperkte documentatie
- Toegang
- Metingen en/of klasse definities matchen niet
, - Achterhaald
Vraagtypen
• Open/gesloten vragen
• Single/multiple respons
• Dichotome vragen (wel/niet; 0/1; juist/onjuist)
• Schaalitems (Likert)
Formulering vragen
→ Gebruik gewone woorden.
→ Gebruik eenduidige woorden.
→ Vermijd impliciete veronderstellingen.
→ Vermijd generalisaties en schattigen.
→ Gebruik positieve en negatieve stellingen.
Populatie: alle studenten in Nederland
Operationele populatie: alle studenten in Nijmegen en Utrecht
Assumptie: studenten Nijmegen en Utrecht zijn representatief voor NL.
Steekproefkader: studentenadministraties
Steekproef: 600 getrokken studenten
Gerealiseerde steekproef: 500 overgeblevenen
Op toevalsbasis → Representativiteit mag worden verondersteld (kanssteekproeven)
Niet op toevalsbasis → Representativiteit mag niet worden verondersteld (niet-
kanssteekproeven)
Ethische aspecten
• Toestemming (informed consent)
• Vertrouwelijkheid en privacy
Toets op representativiteit
Representativiteit = mate waarin de steekproef op relevante kenmerken een goede
afspiegeling vormt van de populatie.
Representativiteitstoets voor één variabele; aantal klanten bij drie winkels.
Fo = frequency observed
Op basis van externe gegevens over populatie (CBS,
administratie) bepaal je Fe, de verwachte frequentie.
Fe = frequency expected
Theoretische verwachting: gelijkmatige, uniforme verdeling.
, Negatieve waarden los je op door
kwadrateren.
H0 = verdeling in steekproef = verdeling in populatie
H1 = verdeling in steekproef ≠ verdeling in populatie
Toets met een α van .30 (!)
χ2 (2, N = 80) = 0.77; p = .68
Statistische conclusie: (α = .30) p > α, H0 niet verwerpen.
Inhoudelijke conclusie: steekproef is representatief voor populatie.
Waarom α van .30 bij representaviteit?
Een type I fout treedt op wanneer H0 wordt verworpen, terwijl H0 feitelijk waar is. De
keuze om H0 te verwerpen wordt beïnvloed door het gestelde significantieniveau (alfa). In
veel gevallen heeft deze een waarde van .05. Hoe lager de alfa waarde wordt gesteld, hoe
moeilijker het wordt om H0 te verwerpen. De kans dat H0 foutief wordt verworpen, wordt
dus kleiner wanneer de gestelde alfa zo klein mogelijk is.
Een type II fout vindt plaats wanneer H0 wordt aangehouden, terwijl deze eigenlijk
onwaar is. De kans op deze fout kan niet gemakkelijk door een zelfgestelde grens worden
bepaald. De kans op een type II fout drukken we uit met bètawaarden en hangt samen
met de gestelde alfa: hoe hoger de gekozen alfa, hoe lager de bèta.
Bij de meeste statistische toetsen wil je de kans op een type I fout zo klein mogelijk
houden. Doorgaans heb je immers hypothesen die gaan over een verschil, een
verandering of een correlatie. Je wilt niet te snel de nulhypothese dat er geen verschil,
geen verandering of geen correlatie is verwerpen en het risico lopen dat de nulhypothese
toch waar is (= de definitie van een type I fout). Bij de uitgevoerde
representativiteittoetsen wil je juist dat de nulhypothese opgaat. Je wilt te snel de
nulhypothese behouden, terwijl deze eigenlijk niet waar is. Ofwel, je wilt de kans op een
type II fout minimaliseren. De kans op een type II fout (bèta) hangt van verschillende
zaken af (zie Field, 2009, pp. 55-56), waaronder van de gekozen alfa. Hoe hoger de
gekozen alfa, hoe lager de waarde voor bèta. Om die reden kiezen we hier voor de hogere
alfawaarde van 30% en wordt soms gewerkt met nog hogere waarden, bv. 85%. Dit sluit
beter aan bij het doel dat we nastreven bij het toetsen van representativiteit.
H0: verdeling steekproef = verdeling populatie
H1: verdeling steekproef ≠ verdeling populatie (minimaal één groep wijkt af)
Niet te snel besluiten tot representativiteit: vermijden van Type 2 fout is belangrijker dan
van Type 1 fout. Daarom α verhogen om lagere β te krijgen.
,Alpha naar beneden van 0.05 naar 0.01, vergroot de kans op bèta.
Validiteit? → Externe validiteit, steekproef weerspiegelt grotere populatie.
Betrouwbaarheid?
Data cleaning/preparatie
= checken of alle gegevens in de datamatrix kloppen.
• Codes
• Routings
• Response set
Data cleaning: missing data
Er ontbreken scores op variabelen. Problemen:
→ Aantal respondenten bij analyses (power)
→ Type respondenten bij analyses (validiteit)
→ Gekoppeld aan selectiviteit
Power = kans dat je een daadwerkelijk bestaand verschil met je toetsing kunt traceren, kan
ook met correlatie of samenhang, varieert tussen 0 en 1 (0.80 is voldoende).
1) Type missing data vaststellen
2) Omvang van de missing data vaststellen
3) Nagaan of de missing data random zijn
4) Substitutiemethode kiezen en uitvoeren
Negeerbare missing values
- Non-respons/steekproef
- Routings
- Censored (gecontroleerd) data/ontwerp
Niet-negeerbare missing values
- Geen antwoorden
- Missing categorieën
Oorzaken niet-negeerbare missing values:
• Vraagstelling
• Interviewer
, • Routings
• Invoer
Hoeveel respondenten blijven erover voor de analyse van je data?
Criterium:
• Indien percentage missing data <10%, dan is probleem verwaarloosbaar.
• Mits missing data ‘Missing Completely at Random’ zijn.
• Blijf kritisch.
MCAR = Missing Completely at Random = de ontbrekende score patronen komen volledig
door toeval tot stand.
MAR = Missing at Random = de kans dat de waarde van een variabele ontbreekt, is deels
afhankelijk van andere geobserveerde data, maar is niet afhankelijk van een van de andere
waarden die ontbrekend zijn.
Indicaties:
• Specifieke vragen
• Specifieke combinaties van vragen
• Specifieke onderdelen vragenlijsten
• Specifieke groepen
MAR want er is sprake van selectiviteit. Er zijn missings bij zowel mannen als vrouwen, maar
relatief meer bij mannen. Ook al zouden missings volledig random zijn, de waarden zijn niet
generaliseerbaar naar de populatie omdat er verschillen in subgroepen (vrouwen en
mannen) zijn. Elke oplossing van de missing data zou last hebben van missings omdat
geslacht van belang blijkt voor de bepaling van inkomen.
MAR
→ Beschouw missings als subset van steekproef
Dia 30: Onderscheid behalve mannen en vrouwen, ook mannen respectievelijk vrouwen met
missing op inkomen.
MCAR
→ Listwise
→ Pairwise deletion