, Voorkennis
Correlaties
Correlatiecoëfficiënt: Indicator voor de sterkte van een lineare relatie (gestandaardiseerd) -1-1
Regression equation: Doormiddel van de slope kan de stijging van de lijn voorspelt worden
(hoogte/breedte)
Intercept: De plek waar een lijn de Y as snijdt
Y-value=intercept + slope × X-value
y^=b0 + b1x
Error/residual: verschil tussen de verwachte waarde en de geobserveerde waarde
Least squares method: Het kwadrateren van de errors zodat het getal niet op 0 uitkomt
Dit wordt gebruikt om de parameters van het lineare regressie model in te schatten
Σ (y − y^) 2
b1=r × σy / σx
R-squared: hoeveel de data het gevonden resultaat verklaard (Goodness of fit) 0-1
Een hoge r-squared geld voor die sample en is niet per se generaliserend
Bayesian statistics
Null hypothesis significance testing: Het testen of de 0 hypothese waar is en anders deze verwerpen
Publication bias: Het is makkelijker om met significante resultaten gepubliceerd te worden
Sloppy science: questionable research practices (QRP) om alsnog gepubliceerd te worden
Replicatie crisis: Gevonden resultaten konden niet gerepliceerd worden
Oplossing: The bayesian way
Bayes factor: Hoeveel support er is voor een betreffende hypothese in vergelijking tot andere
hypotheses (1> x betekend meer support voor alternatieve hypothese)
1) De fit van de hypothese voor de data
2) De specificiteit van de hypothese
ANOVA (Analysis Of VAriance)
Anova: een toetsingsmanier voor de vergelijking van 2 of meer gemiddelde (2 independent samples
maar ook mogelijkheid tot meer)
T-tests kunnen ook gebruikt worden om 2 gemiddelde te vergelijken: one sample, 2 paired samples
en 2 independent samples
4 assumpties
1) Binnen elke groep zijn de scores voor de afhankelijke variabele normaal verdeeld.
2) Er zijn geen uitbijters in de scores van de mensen op de afhankelijke variabele.
3) De variantie van de scores op de afhankelijke variabele is in elke groep gelijk.
4) De scores van de mensen op de afhankelijke variabele zijn onderling onafhankelijk.
Variantie: Het verschil tussen twee groepen en de populatie
1. Binnen groep variantie: de variantie van scores binnen elke groep gemiddeld over groepen
(residual)
2. Tussen groep variantie: de variantie van de groepsgemiddelde, een maat voor hoe
verschillend ze zijn (explained)
Is de groep variantie groot in vergelijking tot de tussen groep variantie? F-statistic
F= MS between/ MS within
MS= Mean squares
2
, Bonferroni method: deze betreft voor meerdere testen om type I fout te voorkomen. Hierdoor mag
de P niet hoger zijn van 0.5/3 per test
Week 1: Bayes & Multiple linear regression (MLR)
Prior knowledge: Bestaande kennis voor er naar de date gekeken wordt
Probability: de waarschijnlijkheid van een gebeurtenis wordt verondersteld de frequentie te zijn
waarmee het voorkomt (klassiek/frequentie statistiek)
Bayes theorem: P (A given B) = P (B given A) ⋅ P(A) / P(B)
Voorwaardelijke kansen
Assumpties Multiple Linear Regression (MLR)
1) De afhankelijke variabele is een continue maat (interval of ratio)
2) De onafhankelijke variabele zijn continu of dichotoom
3) Er zijn lineaire relaties tussen de afhankelijke variabele en elk van de continue onafhankelijke
variabelen (scatterplot)
1) Er zijn geen uitschieters (transparant zijn over wat je er mee doet! Erin houden, verbeteren,
verwijderen of het gemiddelde plus 2 SD)
Controleren op uitschieters
Casewise diagnostiek
Gestandaardiseerde residuen: waarden tussen de -3.3 dn +3.3 zijn ongeveer normaal (hier buiten
uitschieters)
Cook’s distance: Controle tussen de XY-ruimte, duimregel: onder de 1 is normaal (boven is
uitschieter)
2) Afwezigheid van multicollineariteit
Multicollineariteit: de relatie tussen twee of meer onafhankelijke variabele sterk zijn
Consequenties: de regressie coëfficiënt is onbetrouwbaar, beperkt de grootte van R, het belang van
individuele onafhankelijke variabelen kan niet of nauwelijks worden bepaald
Controleren
Tolerance of VIF (variance inflation factor): waarden kleiner dan .2 kunnen potentieel voor
problemen zorgen, lager dan .1 is er een probleem en groter dan 10
Het variabel dat voor problemen zorgt verwijderen of combineren van variabelen door factor
analyse
3) Homoscedasticiteit
Homoscedasticiteit: Er is een gelijke spreiding over het hele plot (geen trechter figuur)
4) Normaal verdeelde residuen
Controleren
Q-Q plot: dicht aan de lijn is normaal verdeeld
Histogram: normaalverdeling
Een voorspeller of uitkomst verwijderen of veranderen
Wanneer het niet lineair is kan een kwadratische methode gebruikt worden door een nieuwe
variabele te gebruiken -> squared X
Linear: y=B_0+B_1X+ey=B0+B1X+e
Quadratic: y=B_0+B_1X+B_2X^2+ey=B0+B1X+B2X2+e
3
Voordelen van het kopen van samenvattingen bij Stuvia op een rij:
√ Verzekerd van kwaliteit door reviews
Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!
Snel en makkelijk kopen
Je betaalt supersnel en eenmalig met iDeal, Bancontact of creditcard voor de samenvatting. Zonder lidmaatschap.
Focus op de essentie
Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!
Veelgestelde vragen
Wat krijg ik als ik dit document koop?
Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.
Tevredenheidsgarantie: hoe werkt dat?
Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.
Van wie koop ik deze samenvatting?
Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper stuuudje. Stuvia faciliteert de betaling aan de verkoper.
Zit ik meteen vast aan een abonnement?
Nee, je koopt alleen deze samenvatting voor €4,39. Je zit daarna nergens aan vast.