Minisamenvatting STM2
Doelen:
College 1, korte herhaling STM1 1. Regressieanalyse en correlatie
Statisiek= samenvatten van gegevens (beschrijvende statistiek) + generaliseren (inferentiële statistiek) 2. Multipele regressie
Twee methoden inferentie: BHI (foutenmarge) + toetsen à mbv de steekproevenverdeling 3. Varantieanalyse (ANOVA)
- Interpretatie van een BHI: 4. Regressive en ANOVA
o Als we heel vaak een BHI op deze manier zouden opstellen, zou dit in C% van de gevallen de parameter bevatten 5. Logistische regressive
o Als ons BHI de parameter omvat (en dat is in C% van de steekproeven) dan ligt de parameter tussen [ondergrens] en [bovengrens] Extra: ANCOVA
En niet:
o We zijn nu C% zeker dat de parameter ligt tussen [ondergrens] en [bovengrens] Populatie – parameter
Steekproef – statistic
- Toetsen
o Nulhypothese: een populatiegrootheid heeft een bepaalde waarde.
Je kunt een stelling deponeren en daarna kijken, hoeveel bewijs vind ik tegen die stelling. Vaste opbouw toets
o Alternatieve hypothese: de populatiegrootheid heeft die waarde niet (groter, kleiner, ongelijk aan) Test statistic: hoeveel SE ligt de gevonden
P-waarde = kans om die uitkomst te vinden (of extremer) als de H0 waar zou zijn. uitkomst van de waarde onder H0 af?
- Hoe kleiner de p-waarde, des te sterker het bewijs tegen H0 (dwz hoe onwaarschijnlijker de nulhypothese is) p-waarde: wat is de kans op minstens de
- Hoe klein is p? Vergelijk met significantieniveau alfa. gevonden test statistic?
- P < alfa: significant. Er lijkt bewijs te zijn tegen de nulhypothese (maar dit hoeft niet per se sterk bewijs te zijn.
- P> alfa: niet significant. Geen idee of er een populatie-effect is (en niet: er is waarschijnlijk geen populatie-effect). Wel: geen idee, we kunnen het niet zeggen. Waarom test statistics?
Je wilt kansen verbinden aan scores.
College 2 Regressieanalyse (enkelvoudig) - Bijv.: hoe lang zijn de langste
Regressieanalyse doe je als je de relatie onderzoekt tussen 2 variabelen (op tenminste) intervalmeetniveau (continue variabelen). Je maakt een scatterplot van de gegevens en dan trek je daar de 10% van de mensen?
ideale lijn door (=regressielijn = kleinste kwadratensom) à vaak lineair. Geeft het verband weer. Er is een intercept en een helling. ŷ = a + bx Kans kun je vaak niet rechtstreeks
Met de ideale lijn/kleinste kwadratensom kun je een aantal vragen beantwoorden: opzoeken
1. Is er een lineaire relatie tussen y en x? En dus tussenstap nodig: test statistic
2. Hoe sterk is de lineaire relatie tussen y en x? à Pearson correlatie (maat om sterkte aan te geven - r2 = % verklaarde variantie) - Test statistic = verbindende
3. Kan y voorspeld worden door x? = enkelvoudige regressieanalyse (=regressieanalyse met 1 voorspeller) factor tussen de kansen en de
scores
Statistisch model regressieanalyse: yi = b0 + b1 + ei b0 = intercept b1 = helling eI = residu data = model + error
Hierom: het gaat om een geschatte regressielijn = regressielijn gebaseerd op een steekproef = ŷi = b0 + b 1 xi Significantietoetsing is niet makkelijk.
intercept = voorspelling voor y wanneer x=0 Problemen:
Complexe redenatie: heel vaak fouten bij
Het model staat spreiding toe. Dit moet wel gelijkmatig zijn = homoscedasticiteit interpretatie van resultaten
Slechts 2 mogelijke uitkomsten:
significant of niet significant à onnodige
en schadelijke reductie van informatie.
Beetje simplistisch, je kunt de wereld niet
in 2 opties verdelen.
Kan leiden tot gebruik questionable
research practices.
De t = toets. Let op: ondanks dit sterke verband kun je niet Bij 1 onafhankelijke variabele staat hier Vier assumpties bij regressieanalyse
Kijken bij coping (is interessanter). De t- met zekerheid zeggen dat wanneer je de coping de correlatie (-0.88), maar bij meerdere 1. Relatie y en x1, x2, x3 is lineair à model veronderstelt een lineaire relatie
waarde is hier -16.74 à betekent dat de verbetert de depressie automatisch minder onafhankelijke variabelen loopt dat door (regressievergelijking)
helling een schuinheid heeft van bijna 17 SE. wordt. Je weet niet hoe het oorzakelijke elkaar en kun je de Beta kolom gebruiken 2. Residuen zijn normaal verdeeld met een gemiddelde nul
Wat betekent dit? Denk aan de vuistregels: verband zit. Het kan ook zo zijn dat mensen die om het relatieve gewicht van de a. Residuen dicht bij nul komen veel voor, residuen ver van nul
68% zit tussen 1 SD, 95% tussen 2D en 99,7% depressief zijn als gevolg daarvan minder coping verschillende onafhankelijke variabelen minder vaak
3. Homoscedasticiteit – variantie van residuen is constant voor alle combinaties
tussen 3SD en in dit voorbeeld zien we dus hebben. Kip-ei. te vergelijken.
van waarden voorspellers
17SD. Stel je een normale verdeling voor en
dan een t-waarde van bijna -17 zit extreem
a. Homoscedasticiteit = puntenwolk is gelijk verdeeld. 1
b. De puntenwolk is overal ongeveer even dik
diep in de linkerstaart. En dus is de 4. Residuen zijn onafhankelijk – score van participanten zijn onafhankelijk
bijbehorende p-waarde buitengewoon klein. (random sample!)
, College 3, Multipele regressieanalyse
Multipele regressie = 1 afhankelijke variabele (y) en meerdere onafhankelijke variabelen (x). Je wilt y voorspellen op basis van meerdere x.
Statistisch model: ŷi = a + b1 xi1 + b2 xi2 + ….. + ei à er komt elke keer een extra b (helling) bij voor elke variabele *x. Je houdt dan per persoon een residu over (residuen zijn normaal verdeeld met gemiddelde 0).
Bij multipele regressie kun je geen ideale lijn meer trekken (want meerdere x-en = meerdere dimensies). Daarom kijken naar losse relaties tussen 2 variabelen. Bijv. mbv matrix à
Twee belangrijke vragen als je een model hebt:
Wat er gebeurt bij regressieanalyse:
Totale variantie = verklaarde variantie + residuele variantie
SST = SSM + SSE
(het wordt opgesplitst) – je kunt een deel verklaren en dan blijft er een deel
over wat we niet kunnen verklaren (residuen)
Bij multipele regressie: als je alleen y hebt, dan heb je een horizontale lijn op je
assenstelsel bij bijv. 75 kg. Hier kun je wel inzien hoeveel de residuen zijn.
Maar: als je ook x hebt, dan heb je betere informatie en zie je dat het geen
horizontale lijn meer is, maar een stijgende lijn.
Je hoop dat:
1.Kunnen we y voorspellen op basis van
Afstand van de punt tot gemiddelde zelf = totale deel àde onafhankelijke variabelen
x1 en x2? (in JASP via ANOVA)
Stap die je maakt van het gemiddelde naar de schatting = verklaarde deel relatief hoog correleren met de
2.En als dat zo is (als gele gebied groter
Verschil tussen schatting en de daadwerkelijke score = residu R = correlatie afhankelijke variabele
dan nul lijkt), als we iets zinvols kunnen
R2 = deel wat we kunnen verklaren (kwadratensom àde onafhankelijke variabelen
voorspellen, dan: Ligt dan aan x1 of aan
model/kwadratensom totaal) onderling relatief laag correleren
x2?
Adjusted R2 = kleine bijstelling van R2 voor de populatie.
Hier zie je ook: als x1 en x2 sterker Best mogelijke schatting voor samenhang R2 populatie.
correleren schuiven die cirkels meer in Std. Error of the Estimate = geeft de SD van de residuen
elkaar en voegt het toevoegen van een aan (nul=perfect, hoog=niet zo goed)
nieuwe cirkel niet zoveel meer toe. Je
wilt dus dat de x1 en x2 zo min mogelijk Uitbijters – veel invloed Modelassumpties multipele regressie
correleren. Liefst nul, dan liggen ze Kijk y: meeste punten 1. Onafhankelijke waarnemingen (random steekproef)
helemaal uit elkaar en verklaren ze een liggen tussen -3 en 3 2. Lineair model
nieuw deel van y. Kijk x: Cook’s distance 3. Variantie (SD) residuen constant
CD < 1 4. Residuen zijn normaal verdeeld
Regressieanalyse is gebaseerd op het VIF = toename SE Zijn identiteit aan de enkelvoudige regressie!
opsplitsen van variantie. We proberen VIF>4 is
verschillen te verklaren. multicollineariteit Extra bij multipele regressie:
-Multicollineariteit
= mate waarin de onafhankelijke variabelen onderling correleren. Als dat te
Links staat Sum of Squares waarin je ziet: er is een kwadratensom die aangeeft hoeveel de scores En nu: we willen kijken hoeveel het deel wat we wel kunnen verklaren uitstijgt boven sterk is moet je voorzichtig zijn met de interpretatie
voor de afhankelijke variabele verschillen. Het deel dat we kunnen verklaren staat bij Regression: de ruis. Als je nu de meansquare van regression deelt door meansquare van residual
29234 van de 42100 à als je dat deelt kom je op die 69,4% die we eerder hadden (de R2). Bij krijg je F (269.239) à betekent dat het deel dat je wel kunt verklaren 269x zo groot als
-Uitbijters en invloedrijke punten
Residual staat hoeveel we niet kunnen verklaren. wat je zou verwachten op basis van ruis.
Dan wil je het vergelijken met elkaar: deel wat je wel kunt verklaren en deel wat je niet kunt Rood: de kans waarop je dit (de F) vindt. Die is hier buitengewoon klein. We toetsen
verklaren: hier de H0 dat je niets kunt verklaren met het model (H0: R2 = 0) – die kans is
Regression = wat je wel kunt verklaren buitengewoon klein à betekent dat we met dit model (x1 en x2) een substantieel deel
Residual = wat je niet kunt verklaren van y kunnen verklaren. Welk deel precies kijken we zo naar, maar de p-waarde is heel
à deze twee wil je met elkaar kunnen vergelijken. klein en we verwerpen dus de nulhypothese dat we er niets mee kunnen verklaren.
Als je het verklaarde deel en onverklaarde deel op een zinvolle manier met elkaar wilt vergelijken MSM = maat voor verschillen tussen schattingen
moet je ermee rekening houden dat de regressie gebaseerd is op 2 onafhankelijke variabelen en MSE = maat voor verschillen tussen residuen
de residuen op 240 kinderen. Je wilt de waarden van regression en residual enigszins vergelijkbaar
willen krijgen. Hoe? Door te delen door het aantal vrijheidsgraden. Dat is een soort van middelen. MSM gebaseerd op toeval en eventuele effect samenhang
MSE gebaseerd op toeval
Aantal vrijheidsgraden
Regression: p (=aantal onafhankelijke variabelen)
Residual: n-p-1 (=aantal kinderen-aantal onafhankelijke variabelen-1)
Totaal: n-1 (=aantal kinderen-1)
Als je (residual) 12866 deelt door 237 kom je op een ongeveer gemiddeld residu uit. Hier: 54.29. Geen effect zou je F=1 verwachten, hier F=269 en dus verwerpen we de nulhypothese 2
Dit is op zichzelf niet makkelijk te interpreteren, zegt ons niet zoveel, maar is dus soort ruis per en lijkt er bewijs dat er samenhang is.
persoon, wat we niet kunnen verklaren.
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller Anne1987. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $5.51. You're not tied to anything after your purchase.