Enkelvoudige regressie = Samenhang tussen 2 variabelen.
→ onderscheid maken tussen soorten variabelen.
2 continue variabele = correlatie.
Continue en categorische = T-toets v 2 gemiddelden (filmpje checken, H7)
2 categorische variabelen = - Kruistabel en X 2-toets. H8
- Odds en odds-ratio. H8
- Z-toets voor 2 proporties.
Continue = tussen iedere score ligt altijd nog 1 andere mogelijke score. Achter , kan.
Categorisch = getallen → wiskundige bewering zinvol.
Correlatie coëfficiënt → samenhang 2 continue variabelen.
Tussen 2 continue variabelen:
Correlatie = sterkte en richting van het verband.
Regressie = modelleren van het verband.
Lineaire regressie analyse = analyse van de samenhang tussen 2 variabelen waarvan de ene
afhankelijk en de andere onafhankelijk is. Samenhang modelleren we met behulp vh lineaire model.
Afhankelijke, Y, te verklaren variabele, respons variabele of uitkomst variabele:
Afhankelijk van de andere variabele, namelijk de X.
- Gaan y voorspellen met behulp van X.
Gaan ervan uit dat de variabele continu zijn → minimaal intervalniveau. De afhankelijke moet
van een minimaal interval niveau zijn.
• Onafhankelijke, X, verklarende variabele, predictor.
Afhankelijk van niks.
X mag een dummyvariabele zijn, dus de waarde 0 en 1 of 1 en 2.
Of gewoon intervalniveau.
Puntenwolk in enkelvoudige regressie wil je modelleren. → trekt rechte lijn door puntenwolk →
gegeven waarde van X met behulp van de lijn een voorspelling kunnen maken van Y.
→ = lineair verband.
• Formule: Y = α + βx
- β = helling / slobe. → richtingscoëfficiënt = stijging Y als x met 1 punt stijgt.
- α = intercept / constante. → snijpunt met de Y-as.
Trekt rechte lijn door puntenwolk.
→ voorspel waarde Y met een lineair-model.
Bedoeling van de regressieanalyse:
Willen lijn door puntenwolk trekken.
Lijn = vereenvoudiging van de werkelijkheid.
Doel = α en β vinden → dan kun je voorspelling van Y maken dmv X.
SPSS: Coëfficiënten tabel.
- Constant = geschatte waarde van de uitkomst variabele Y, gegeven dat X nul is.
- X-variabele = waarde onder B pakken. = helling en dus de stijging in Y, wanneer X 1 eenheid stijgt.
• Kun je het model invullen en daarbij voor elke waarde van X invullen.
,Residu = voorspelfouten
• Y – Y^. → gemiddelde – antw model.
= Verschil tussen geobserveerde en verwachte waarde.
= Afstand punt tot regressielijn.
Wanneer je X niet weet en toch een voorspelling van Y wilt.
• Beste voorspelling = gemiddelde van Y.
→ marginale gemiddelde = onconditioneel = niet afhankelijk van X. → horizontale lijn.
→ afstand elk punt tot de lijn (het gemiddelde) = voorspelfout.
Met een schuine lijn zullen deze voorspelfouten kleiner zijn.
Least squares principe = beste lijn, waarbij de residuen het kleinste zijn.
Fouten: e = y – y^. → deze wil je minimaliseren.
Minimaliseren : min Σ(y-y^)2
→ som van alle residuen in het kwadraat.
Beste regressielijn schatten via methode van kleinste kwadraten (ols) door fouten te minimaliseren:
- Maak fouten zo klein mogelijk.
- Minimaliseer sum of squared errors (SSE) - Σ(y-y^) 2
Probabilistisch model
Hebben het lineaire regressiemodel:
• Rechte lijn. Y = α + βx.
Deterministische model = voor elke waarde van X is er één Y-waarde.
→ = Onrealistisch. Niet iedereen met dezelfde X heeft dezelfde Y.
• Voor elke X-groep is er en verdeling van Y-scores. = waar het om draait.
→ gegeven een bepaalde score van X zit je in een bepaalde groep. En voor elke X-groep is er een
verdeling van Y-scores.
Probabilistisch model = conditionele verdeling van Y, gegeven waarden van X.
→ geeft voor welke X-groep de Y-scores.
• Beschrijft hoe scores op Y kunnen variëren voor elke waarde van X.
• Het deterministische deel geeft het gemiddelde of verwachte waarde E(Y), van Y gegeven X:
→ E(y) = α + βx.
= lineaire (enkelvoudige) regressievergelijking, geeft verband tussen X en het gem van Y.
Lineaire model:
- Conditionele verdeling van Y gegeven X.
- Het conditionele gemiddelde wordt gegeven door de regressielijn. E(y) = α + βx
• De conditionele SD is σ en moet ook geschat worden.
→ geeft de spreiding vd Y-waarde rond hun conditionele gemiddelde.
σ = spreiding van de Y-waarde rond de regressielijn.
• Er wordt aangenomen dat de conditionele verdeling van Y de normale verdeling is.
Conditionele standaard deviatie:
→ Moet niet uitmaken welke x je neemt.
Bij bepaalde x horen bijbehorende Y-scores.
Aanname = σ is constant → gelijk voor welke waarde van X.
- X-waarde → hebben de scores van Y een verdeling met gemiddelde E(y) en constante SD σ.
, Aanname die wordt gemaakt:
• De scores bij een bepaalde X, hebben een normale verdeling.
→ Voor elke X, de spreiding van scores rond de regressielijn gegeven door een normale verdeling.
Gegeven een X-waarde is:
- De conditionele verdeling van Y is de normale verdeling.
- Met conditioneel gem E(y) → gegeven door regressielijn.
- En constante conditionele SD σ.
Schatten van de conditionele SD:
- Residu = afstand van elk punt tot de regressielijn & dus tot het cond-gem van Y.
- SSE = kwadratensom rond de conditionele gem.
→ Σ(y-y^)2 = Σe2.
SSE
- Variantie: S2 = = MSE
n−2
- Geschatte SD: S =
√SSE
n−2
• Weten hoe je van variantie naar geschatte SD gaat op het tentamen.
→ In SPSS std error. In model summary.
Samenvattend:
- Regressielijn geeft een voorspelling vh gem E(y) van Y gegeven X: het conditionele gem van Y.
- Spreiding vd scores rond dit gem wordt gegeven door de spreiding vd residuen: σ de cond-SD van Y.
- Er wordt aangenomen dat de verdeling vd residuen de normale verdeling is.
- Het lineaire regressiemodel is dus een normale verdeling met gem E(y) = α + βx en SD σ.
- Dit is de conditionele verdeling van Y gegeven X en kun je schrijven als N(α+βx, σ).
Toetsen in een lineair-enkelvoudig regressiemodel.
Of een fout groot is hang af van de schaal waarop iets kan. 3,7 op schaal 1-5 is groot.
Betekenis van de helling:
Helling = 0,86. Als je 1 stap op x maakt ga je 0,86 op de y-as omhoog.
→ geeft de relatie X en Y aan. & wat het effect van x op y is. Er is dus een behoorlijk effect van X op Y.
en de relatie is dus behoorlijk sterk.
Correlatie:
= Samenhang tussen 2 continue variabelen.
Sx Sy
•r= b of b = r
Sy Sx
Positief verband tussen 0 en 1. Negatief verband tussen 0 en -1. y
Voordelen van het kopen van samenvattingen bij Stuvia op een rij:
Verzekerd van kwaliteit door reviews
Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!
Snel en makkelijk kopen
Je betaalt supersnel en eenmalig met iDeal, creditcard of Stuvia-tegoed voor de samenvatting. Zonder lidmaatschap.
Focus op de essentie
Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!
Veelgestelde vragen
Wat krijg ik als ik dit document koop?
Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.
Tevredenheidsgarantie: hoe werkt dat?
Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.
Van wie koop ik deze samenvatting?
Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper bakkernienke61. Stuvia faciliteert de betaling aan de verkoper.
Zit ik meteen vast aan een abonnement?
Nee, je koopt alleen deze samenvatting voor €7,48. Je zit daarna nergens aan vast.