Bayesian approach gebruikt bestaande kennis (prior) voor de analyse:
• Prior = kans op gemiddelde vóór data (te zien aan piek op schaal).
• Posterior = kans op gem. na data -> combinatie prior & likelihood.
• Dus: priors beïnvloeden de posterior schattingen.
Frequentist probability = de frequentie in hoe vaak het voorkomt (150/1000 mensen rookt -
> probability van 0.15 of 15%).
Bayesians conditional probabilities = P(A|B) -> kans op A given data B.
Bayesian approach voor:
1. Estimation (schatten van echte waarde) d.m.v. credible interval.
2. Hypothese toetsen
Bayesian interval:
o Credible interval = er is 95% kans dat de true value in het interval zit.
Frequentist interval:
- Confidence interval = Als het experiment vaak herhaald wordt zal de true value in
95% van de intervallen zitten en in 5% niet.
Frequentist hypothese toetsing met P-waarde:
P-value = kans op data gegeven dat de null hypothese waar is -> P(data |H0)
• Nadeel: geeft niet de kans weer op null hypothese given data -> P (H0 |data).
Bayesian hypothesis toetsing:
o Relatieve support per hypothese meten-> twee hypotheses worden vergeleken met
elkaar d.m.v. Bayes factor (BF).
o BF12 = 10 -> Er is 10x meer support voor H1 vergeleken met H2.
BF geeft alleen relatieve probabilities d.m.v. prior model probabilities (PMP) = how likely is
elke hypothese voordat data is gezien.
Meestal evenveel kans op elke hypothese voordat data is gezien (PMP) -> moeten samen 1
zijn (kan ook oneven verdeeld).
o Interesse in 2 hypotheses: H1 & H2 -> P(H1) = P(H2) = 0.5
o PMP(H1) =0.75 and PMP(H2) = 0.25 shows that H1 receives 3x stronger support
(BF12 = 3).
, Week 1, Les 2 & 3:
Assumptions Multiple Linear Regression (MLR):
1. Continue DV (interval of ratio).
2. Continue/dichotome IV (nominaal met 2 opties).
3. Geen outliers (scatterplot, histogram, boxplot, Casewise diagnostics).
4. Lineaire relatie (scatterplot).
• Bij geen lineaire relatie: Quadratic relatie (Y = B0 + B1X +B2X² + e)
• B1 = steilheid lijn:
o P = 0 is horizontale lijn & P < .05 steile lijn.
• B2 = de verandering van de lijn als x toeneemt
o De P-waarde laat zien of de lijn verandert -> en welk model beter is
(lineair/quadratic).
5. Geen multi-collinearity: correlatie tussen onafhankelijke variabelen (te hoog: .8/.9)
6. Homoscedasticity (spread of residuals are equal for all predicted values of the
outcome value).
7. Normaal verdeelde residuen.
Outliers vinden tijdens analyse met Casewise diagnostics:
1. Standard residuals – (outliers in de Y-space) waardes moeten tussen -3.3 en +3.3.
2. Cooks distance – (outliers in de XY-space) = invloed van respondent op hele model –
moet kleiner dan 1 zijn.
o Als cooks distance groter dan 1: influential case/respondent.
Wat doen bij outlier:
1. Verwijderen (als het niet bij theorie past).
2. Outlier laten.
3. Outlier aanpassen:
© Naar de goede waarde (als outlier fout is en goede waarde is bekend).
© Naar minder extreme waarde (winsorizing = mean + 2 x SD).
§ Liever data verwijderen dan aanpassen (door kans op bias) -> transparant &
preregistratie (tegen p-hacking).
Als er wel multi-collinearity is:
1. Regressie coëfficiënten (B) worden onbetrouwbaar.
2. Kleinere R -> correlatie Y (geobserveerd) en Ŷ (voorspeld).
3. Andere onafhankelijke variabelen lijken minder belangrijk.
Multi-collinearity vinden met Tolerance of VIF (= 1 ÷ tolerance):
1. Tolerance kleiner dan 0.2 = potentieel probleem (kleiner dan 0.1 = probleem).
2. VIF groter dan 5 = potentieel probleem (groter dan 10 = probleem).
Tegengaan multi-collinearity: variabelen verwijderen of combineren.