Excersises 1
Vragen bij Field
1. We wanted to estimate the average amount of friends people have on Facebook in a Dutch
population of Facebook-users between 18-25 years old. For this purpose we took a random
sample of 11 people from this population and registered the number of friends that they had
on Facebook. We calculated the mean for these data as 96.64 and the standard deviation as
61.27. Calculate a 95% confidence interval for the population mean.
n = 11
X́ = 96.64
s = 61.27
SE = s/√n = 61.27 / √11 = 18.47
L = 96.64 – (2.23 x 18.47) = 55.12
U = 96.64 + (2.23 x 18.47) = 137.83
95% confidence interval = [ 55.12−137.83 ]
2. Recalculate the confidence interval assuming that the sample size was 56.
n = 56
x́ = 96.64
s = 61.27
SE = 8.19
t(50) = 2.01
96.64 – (2.01 x 8.19) = 80.18
96.64 + (2.01 x 8.19) = 113.10
95% confidence interval = [ 80.18−113.10 ]
3. What are the null and alternative hypotheses or the following questions?
(a) Is there any relationship between the amount of gibberish (Dutch: brabbeltaal) that people
speak and the amount of vodka jelly they’ve eaten?
H0 = Er is geen relatie tussen de hoeveelheid brabbeltaal iemand spreekt en de hoeveelheid vodka
jelly’s iemand gegeten heeft.
H1 = Er is wel een relatie tussen de hoeveelheid brabbeltaal iemand spreekt en de hoeveelheid vodka
jelly’s iemand gegeten heeft.
(b) Is the mean amount of chocolate eaten higher when writing statistics books then when not?
H0 = Er is geen relatie tussen het schrijven van statistiekboeken en het eten van chocolade.
H1 = Er is wel een relatie tussen het schrijven van statistiekboeken en het eten van chocolade
4. Why do we use samples?
Je kan niet de gehele populatie meten, het is makkelijker om kleine samples te testen die een schatting
van de werkelijkheid zijn.
5. What is the mean and how do we tell if it’s representative of our data?
Het gemiddelde is de som van alle uitkomst variabelen gedeeld door het aantal dat gemeten is (n). Hoe
representatief deze is wordt laten zien door de standaard deviatie (s).
6. What is the difference between the standard deviation and the standard error?
De standaarddeviatie (s) is een meting van hoe representatief het gemiddelde is voor de geobserveerde
data (een lagere s betekent meer representatief). De standaard error is de standaarddeviatie van het
gemiddelde van meerdere samples. Dus: standaarddeviatie laat zien hoeveel de verschillende
observaties in de sample verschillen van het gemiddelde van de sample. De standaarderror laat zien
hoe goed de sample mean de mean van de populatie representeert.
, 7. See the smokers-on-the-treadmill-example from Chapter 1 (self-test question 5), with outcomes
of time (in seconds) taken for 21 heavy smokers to fall off a treadmill at the fastest setting. For
this exercise we only take into account the first four observations: 18, 16, 18, 24.
Calculate, by hand, the sums of squares (SS), variance (s 2), standard deviation (s) and standard error
(SE) of these data. Use the table below.
X X́ (X- X́ ) (X- X́ )2
18 19 1 1
16 19 3 9
18 19 1 1
24 19 -5 25
SS = 36
S2 = 12 S = 3.46 SE = 1.73
7. What do the sums of squares, variance, standard deviation and standard error represent? How
do they differ?
Het zijn allemaal metingen hoe goed het gemiddele van de sample de data representeerd.
Sum of Squares (SS): is het aantal squared afwijkingen van het gemiddelde bij elkaar opgeteld. Nadeel
is dat hoe meer getallen er in totaal zijn, hoe groter SS wordt.
Variance (S2): daarom bereken je de variantie, de SS gedeeld door n-1 (dF).
De andere 2 zijn al beantwoord bij vraag 5.
8. What is a test statistic and what does it tell us?
De ratio tussen systematische (verklaard door het model) variantie en onsystematische (niet verklaard
door het model) variantie, een voorbeeld zijn t, F en X2. Belangrijk om te weten, wanneer een model
goed is moet de variantie verklaard door het model groter zijn dan de variantie die niet verklaard
wordt door het model. Hoe groter de variantie door het model, hoe meer onwaarschijnlijker het is dat
dit wordt verklaard door kans, en hoe waarschijnlijker het dus wordt verklaard door een effect.
9. What are type I and type II errors?
Type I: je meet een effect terwijl er geen effect is. Dit wordt ook wel het α-level genoemd.
Type II: je meet geen effect terwijl er wel een effect is. Dit wordt ook wel het β-level genoemd.
10. What is an effect size and how is it measured?
De sterkte van het effect dat is gevonden (dus: er is een effect maar is deze groot of klein?). Kan
bijvoorbeeld door het berekenen van Cohen’s d: hoe groter dit getal hoer groter het effect. Kan ook
door Pearson’s correlation, r en eta2.
11. What is statistical power?
De mogelijkheid van een test tot het vinden van een effect. Ofwel de kans dat een gegeven test een
effect zal vinden, aangenomen dat men in de populatie bestaat. Het tegenovergestelde wordt ook wel
β-level genoemd, dus: power = 1 – β.
Questions about the paper by Simmons, Nelson, & Simonsohn (2011)
1a. What is meant by false positives in the paper by Simmons, Nelson, & Simonsohn (2011)?
De niet-correcte afwijzing van een 0-hypothese.
1b. Why are false positives considered costly errors? (Name three undesired consequences of
false positives).
1. Once they appear in the literature, false positives are particularly persistent. Because null results
have many possible causes, failures to replicate previous findings are never conclusive.
Furthermore, because it is uncommon for prestigious journals to publish null findings or exact
replications, researchers have little incentive to even attempt them.
2. False positives waste resources: They inspire investment in fruitless research programs and can
lead to ineffective policy changes.
3. Finally, a field known for publishing false positives risks losing its credibility.
, 2a. What is meant by researcher degrees of freedom?
Vaak doe een onderzoeker niet maar 1 test en kijkt wat daar uitkomt. De onderzoeker doet vaak
meerdere testen en kijkt dan welke het beste resultaat geeft. De kans op een false positive wordt
hierdoor groter.
2b. Explain why using too many researcher degrees of freedom may lead to false positive
findings. Give an example of such “exploratory” research conduct that may lead to false positive
findings.
Door het experiment naar de hand van de onderzoek te vormen wordt er vaak ‘gezocht’ naar effect,
maar dit hoeft er dus helemaal niet te zijn (false positive). Een voorbeeld hiervan is het weghalen van
outliers. Vaak worden er wel redenen gegeven waarom deze worden weggehaald, maar vaak is het
puur en alleen om een significant effect te behalen. Dit is dan eigenlijke een Type I error.
3a. To be able to understand the problem of “flexibility in sample size”, we will first explain why
the Power of a significance test of increases with the sample size. Consider the following figure
from Field, p.59:
The above figure displays two 95% confidence intervals for the mean sperm count in Japanese
quail in two different groups of N = 200 each, sample 1: wild quail and sample 2: experimentally
stimulated quail (with the aim to enhance sperm release). De intervallen worden kleiner als n
groter wordt, dat komt door het preciezer wordt en doordat sd kleiner wordt.
Explain how the 95% confidence intervals for the mean sperm count are computed.
X
Je neemt n van de sample, en berekent het sample gemiddelde (
´¿ ¿ , vervolgens bereken je de som
of squares (SS) waaruit je de variantie (s2) en dus de standaarddeviatie kan berekenen (s). Daaruit
bereken je de standaard error (SE) waarnaar je vervolgens de 2 zijde van het interval kan berekenen
door X́ -/+ (t x SE).
Explain how the H0: µ1 = µ2 can be tested with alpha = 0.05 by inspecting the 95%
confidence intervals.
Wanneer de 95% confidence intervals van µ1 en µ2 elkaar overlappen, kun je zeggen dat er geen
effect is, wanneer ze buiten elkaar liggen kan je zeggen dat er wel een effect is (p < 0.05).
For the above example, explain how a smaller sample of, say, N = 20 in each group, would
decrease the likelihood of rejecting the H0: µ1 = µ2, given that the current difference between
both means will stay the same.
Wanneer er meer mensen in een sample zitten, wordt het confidence interval kleiner. De kans dat ze
elkaar dan niet overlappen wordt dus groter, en de kans op het verwerpen van de 0-hypothese dus ook.
3b. Explain how striving for a high statistical power, but on the other hand striving for limited costs,
may lead to “flexibility in sample size”.
, Als je een hoge statistische power wilt is het belangrijk zoveel mogelijk mensen in je sample te
hebben, maar dit verhoogd natuurlijk ook de kosten. Daarom moet het flexibel zijn en ergens in het
midden liggen.
3c. Why is it undesirable to keep adding participants to the sample until a significant result has been
found?
Dit kan de kans op een false positive vergroten. Elke keer dat je een test doet is de kans op een correct
antwoord 1 -0.05, als je dus 3x een test doet, hoe kleiner de kans op een goed antwoord .95 x .95 x .
95 = .857 false positive is nu ipv 5% 14.5%.
4. What recommendations do Simmons, Nelson, and Simonsohn (2011) have for (psychological)
researchers?
1. Authors must decide the rule for terminating data collection before data collection begins and
report this rule in the article.
2. Authors must collect at least 20 observations per cell or else provide a compelling cost-of-
datacollection justification.
3. Authors must list all variables collected in a study.
4. Authors must report all experimental conditions, including failed manipulations.
5. If observations are eliminated, authors must also report what the statistical results are if those
observations are included.
6. If an analysis includes a covariate, authors must report the statistical results of the analysis without
the covariate.
Excersises 2
Chapter 8 (Field, 2013), exercises
»Self-test questions
1. The significance of regression coefficient in a regression model is tested with a t-test. How is the t in
SPSS output 8.3 (Field, 2013, p. 319) calculated? Use the values in the table to see if you can get the
same values as SPSS.
(b0): (t = 134.140/7.537 = 17.79), for the advertising budget (b1), we get: t = 0.096/0.01 = 9.6. This
value is different to the one in the output (t = 9.979) because SPSS rounds values in the output to 3
decimal places, but calculates t using unrounded values (usually this doesn’t make too much difference
but in this case it does!). In this case the rounding has had quite an effect on the standard error (its
value is 0.009632 but it has been rounded to 0.01). To obtain the unrounded values, double-click the
table in the SPSS output and then double-click the value that you wish to see in full. You should find
that t = 0.096124/0.009632 = 9.979.
2. If record sales (in number of records in the first week after release) can be predicted from money
spent on advertising (in pounds) with the following regression equation:
record salesi = 134.14 + 0.096 × advertising budget (in thousands of pounds)i
How many records would be sold in the first week after release if we spent 666000,- pounds on
advertising?
1.34.14 + 0.096 x 660 = 198
3. See the SPSS output 8.7 (Field 2013. p. 339) below for Model 2, where record sales are predicted
from advertising budget, number of plays on the radio per week, and attractiveness of the band:
a. Write down the regression equation for Model 2.
salesi = -26.61 + (0.08advertisingi) + (3.37airplayi) + (11.09attractivenessi)
b. Which factors are significant predictors of record sales?
Alle 3.