100% tevredenheidsgarantie Direct beschikbaar na betaling Zowel online als in PDF Je zit nergens aan vast
logo-home
Samenvatting Statistial Methods for the Social Sciences €2,99
In winkelwagen

Samenvatting

Samenvatting Statistial Methods for the Social Sciences

 37 keer bekeken  6 keer verkocht

Dit document bevat een samenvatting van het boek 'Statistial Methods for the Social Sciences' van Agresti voor het vak Statistische Modellen 2 van de RUG. Ik heb dit vak afgerond met een 9,6. Succes met studeren!

Voorbeeld 3 van de 16  pagina's

  • Nee
  • Hoofdstuk 7, 9-15
  • 9 juni 2022
  • 16
  • 2021/2022
  • Samenvatting
  • agresti
book image

Titel boek:

Auteur(s):

  • Uitgave:
  • ISBN:
  • Druk:
Alle documenten voor dit vak (11)
avatar-seller
anneliewagenaar
Chapter 9 – Linear Regression and Correlation
Bij een regressieanalyse kijk je naar drie dingen:
1. Of er een verband is tussen de variabelen.
2. Hoe sterk dit verband is.
3. Of een en welke regressieformule de afhankelijke variabele kan voorspellen

9.1 Linear Relationships
Linear Functions: Interpreting The Y-Intercept and Slope
Een lineaire formule beschrijft hoe y relateert aan x  y=α + βx (α=y-intercept; β=helling)
Het verband tussen de variabelen kan positief of negatief zijn, afhankelijk van β. Als β=0 geldt dat er
geen verband is tussen x en y.

Models Are Simple Approximations For Reality
Wanneer de geschatte lineaire formule beter y kan voorspellen, heb je een beter model.
Associatie is niet hetzelfde als causatie.

9.2 Least Squares Prediciton Equation
A Scatterplot Portrays the Data
Scatterplot = een grafiek met alle observaties als puntjes; Hiermee kan je checken of het verband
tussen twee variabelen lineair is
∑( x−x )( y− y )
Prediction equation = ^y =a+bx met: b= 2 a= y−b x
∑ ( x−x)
Effect of Outliers on the Prediction Equation
Uitbijters hebben invloed op de schattingsformule, als je ze weg zou halen, verandert dit de formule.

Prediction Errors are Called Residuals
Prediction error = het verschil tussen de werkelijke y-waarde en de geschatte y-waarde; de verticale
afstand tussen de regressielijn en het werkelijke punt in de scatterplot

Prediction Equation has Least Squares Property
SSE=∑ ( y− y )2 = som van de gekwadrateerde fouten
De kleinste som van de gekwadrateerde fouten geeft de waarden van a en b van de regressielijn. De
som van de residuen is altijd 0. De regressielijn gaat door punt ( x , y ).

9.3 The Linear Regression Model
Een probability distribution is niet deterministisch, het gaat om een conditionele distributie
(probabilistisch model). Dit houdt in dat er voor elke waarde van x meerdere y-waarden mogelijk zijn.

Linear Regression Function
E ( y )=α + βx  Deze formule berekent het gemiddelde van de y-waarden voor een bepaalde
waarde van x. Dit is een lineaire regressieformule.
^y =a+bx berekent het gemiddelde in de steekproef.
Describing Variation About the Regression Line
σ = conditionele standaarddeviatie; meet de variabiliteit van de y-waarden voor elke x-waarde
Assumptie: de conditionele distributies van y zijn normaal bij elke x-waarde.

,Residual Mean Square: Estimating Conditional Variation


√ √
2
SSE ∑( y− y )  Dit is de schatting van σ.
s= =
n−2 n−2
N-2 = df = degrees of freedom  je doet min 2 omdat er twee parameters zijn (α & β).

Conditional Variation Tends to be Less Than Marginal Variation
Bij de marginale distributie gaat het alleen om y ( s y ∧σ y ), bij de conditionele distributie gaat het
y-waarden bij een bepaalde x-waarde ( s yx ∧σ yx ). De marginale distributie is vaak groter dan de
conditionele distributie.

9.4 Measuring Lineair Association: The Correlation
The Slope and Strength of Association
De helling vertelt ons de richting van de associatie, maar niet hoe sterk deze is.

The Correlation




( )
√ ∑ ( x −x )2
∑( x−x )( y− y ) n−1 sx
r= r= b=( )b
√ [ ∑( x−x) ] [ ∑( y − y) ]

2 2
∑( y− y)
2 sy
n−1
De correlatie wordt ook wel de gestandaardiseerde regressie-coëfficiënt of de Pearson correlatie
genoemd.

Properties of the Correlation
- De correlatie is alleen valide wanneer er sprake is van een lineair verband.
- De correlatie valt tussen -1 en +1
- Als b positief is, is r ook positief; als b negatief is, is r ook negatief.
- Als r=0 geldt b=0
- Als r=1 is er sprake van een perfecte lineaire associatie, er is dan geen prediction error.
- Hoe groter de waarde van r, hoe sterkter de lineaire associatie.
- De correlatie van y om x te voorspellen, is gelijk aan die van x om y te voorspellen.
- De waarde van r is onafhankelijk van de eenheden van de variabele.

Correlation Implies Regression Toward the Mean
Regressie naar het gemiddelde = wanneer je x verhoogt met s x, verandert y met r∗s y .
R is lager dan 1, dus valt is lager dan 1, dus valt y minder standaarddeviaties van het gemiddelde dan
x. Een enkele standaarddeviatie verandering in x, is gelijk aan een verwachte verandering van r
standaarddeviaties in y.

R-Squared: Proportional Reduction in Prediction Error
2
De som van gekwadrateerde fouten ( E2=∑( y − ^y ) ) is kleiner wanneer je rekening houdt met x
( ^y → E 2), dan wanneer je dat niet doet ( y → E 2) als er een lineaire associaties is tussen x en y.
E1 −E2 TSS−SSE
r 2= = . TSS= total sum of squares
E1 TSS

Properties of r-Squared
- r2 valt tussen 0 en 1.
- Wanneer SSE 0 is, is r2 1
- Wanneer b=0, geldt r2=0

, - r2 meet de sterkte van de associatie
- r2 is onafhankelijk van de eenheden van de variabele

Sums of Squares Describe Conditional and Marginal Variability
R2 geeft het percentage van de verklaarde variantie aan, maar het is makkelijker om r te
interpreteren.



9.5 Inferences for the Slope and Correlation
Assumptions for Statistical Inference
- Randomisatie
- Het gemiddelde van y is gerelateerd aan x door: E ( y )=α + βx
- De conditionele standaarddeviatie σ is identiek voor elke waarde van x (kleinste kwadraatfout).
- De conditionele distributie van y is normaal bij elke x-waarde.

Test of Independence Using Slope or Correlation



b s SSE
t= se= s=
se √∑( x−x)2
n−2
r
t=


2
1−r
n−2
Confidence Interval for the Slope and Correlation
Een betrouwbaarheidsinterval voor β heeft de formule: b ± t(se ).
Een betrouwbaarheidsinterval berekenen voor de correlatie is moeilijker, omdat deze verdeling niet
symmetrisch is.

Sums of Squares in Software Output

9.6 Model Assumptions and Violations
Which Assumptions are Important?
De assumpties van randomisatie en de lineariteit zijn erg belangrijk. Voor de assumpties van
normaliteit en gelijkheid van de conditionele distributies geldt dat deze meestal niet volledig juist
zijn, maar dit is niet heel erg.

Influential Observations
Wanneer er een ernstige uitbijter is, moet er gekeken worden hoe dit komt, omdat deze veel invloed
heeft op de regressielijn.

Factors Influencing the Correlation
De range van x-waarden heeft ook invloed op de correlatie, wanneer deze veel kleiner is dan in de
populatie, wordt de correlatie onderschat.

Extrapolation is Dangerous
Het is niet logisch om een geschatte regressielijn toe te passen op waarden van x buiten de
geobserveerde waarden, omdat het verband daar misschien niet meer lineair is. Het is ook niet zo
dat, wanneer er een positieve relatie is tussen x en y en tussen y en z, dat er dan ook een positieve
relatie is tussen x en z.

Regression Model with Error Terms
y=α + βx +ε  ε geeft deviatie van de observatie van het gemiddelde weer = error term

Voordelen van het kopen van samenvattingen bij Stuvia op een rij:

Verzekerd van kwaliteit door reviews

Verzekerd van kwaliteit door reviews

Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!

Snel en makkelijk kopen

Snel en makkelijk kopen

Je betaalt supersnel en eenmalig met iDeal, creditcard of Stuvia-tegoed voor de samenvatting. Zonder lidmaatschap.

Focus op de essentie

Focus op de essentie

Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!

Veelgestelde vragen

Wat krijg ik als ik dit document koop?

Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.

Tevredenheidsgarantie: hoe werkt dat?

Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.

Van wie koop ik deze samenvatting?

Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper anneliewagenaar. Stuvia faciliteert de betaling aan de verkoper.

Zit ik meteen vast aan een abonnement?

Nee, je koopt alleen deze samenvatting voor €2,99. Je zit daarna nergens aan vast.

Is Stuvia te vertrouwen?

4,6 sterren op Google & Trustpilot (+1000 reviews)

Afgelopen 30 dagen zijn er 53249 samenvattingen verkocht

Opgericht in 2010, al 14 jaar dé plek om samenvattingen te kopen

Start met verkopen
€2,99  6x  verkocht
  • (0)
In winkelwagen
Toegevoegd