100% satisfaction guarantee Immediately available after payment Both online and in PDF No strings attached
logo-home
Samenvatting Statistial Methods for the Social Sciences $3.21
Add to cart

Summary

Samenvatting Statistial Methods for the Social Sciences

 37 views  6 purchases
  • Course
  • Institution
  • Book

Dit document bevat een samenvatting van het boek 'Statistial Methods for the Social Sciences' van Agresti voor het vak Statistische Modellen 2 van de RUG. Ik heb dit vak afgerond met een 9,6. Succes met studeren!

Preview 3 out of 16  pages

  • No
  • Hoofdstuk 7, 9-15
  • June 9, 2022
  • 16
  • 2021/2022
  • Summary
avatar-seller
Chapter 9 – Linear Regression and Correlation
Bij een regressieanalyse kijk je naar drie dingen:
1. Of er een verband is tussen de variabelen.
2. Hoe sterk dit verband is.
3. Of een en welke regressieformule de afhankelijke variabele kan voorspellen

9.1 Linear Relationships
Linear Functions: Interpreting The Y-Intercept and Slope
Een lineaire formule beschrijft hoe y relateert aan x  y=α + βx (α=y-intercept; β=helling)
Het verband tussen de variabelen kan positief of negatief zijn, afhankelijk van β. Als β=0 geldt dat er
geen verband is tussen x en y.

Models Are Simple Approximations For Reality
Wanneer de geschatte lineaire formule beter y kan voorspellen, heb je een beter model.
Associatie is niet hetzelfde als causatie.

9.2 Least Squares Prediciton Equation
A Scatterplot Portrays the Data
Scatterplot = een grafiek met alle observaties als puntjes; Hiermee kan je checken of het verband
tussen twee variabelen lineair is
∑( x−x )( y− y )
Prediction equation = ^y =a+bx met: b= 2 a= y−b x
∑ ( x−x)
Effect of Outliers on the Prediction Equation
Uitbijters hebben invloed op de schattingsformule, als je ze weg zou halen, verandert dit de formule.

Prediction Errors are Called Residuals
Prediction error = het verschil tussen de werkelijke y-waarde en de geschatte y-waarde; de verticale
afstand tussen de regressielijn en het werkelijke punt in de scatterplot

Prediction Equation has Least Squares Property
SSE=∑ ( y− y )2 = som van de gekwadrateerde fouten
De kleinste som van de gekwadrateerde fouten geeft de waarden van a en b van de regressielijn. De
som van de residuen is altijd 0. De regressielijn gaat door punt ( x , y ).

9.3 The Linear Regression Model
Een probability distribution is niet deterministisch, het gaat om een conditionele distributie
(probabilistisch model). Dit houdt in dat er voor elke waarde van x meerdere y-waarden mogelijk zijn.

Linear Regression Function
E ( y )=α + βx  Deze formule berekent het gemiddelde van de y-waarden voor een bepaalde
waarde van x. Dit is een lineaire regressieformule.
^y =a+bx berekent het gemiddelde in de steekproef.
Describing Variation About the Regression Line
σ = conditionele standaarddeviatie; meet de variabiliteit van de y-waarden voor elke x-waarde
Assumptie: de conditionele distributies van y zijn normaal bij elke x-waarde.

,Residual Mean Square: Estimating Conditional Variation


√ √
2
SSE ∑( y− y )  Dit is de schatting van σ.
s= =
n−2 n−2
N-2 = df = degrees of freedom  je doet min 2 omdat er twee parameters zijn (α & β).

Conditional Variation Tends to be Less Than Marginal Variation
Bij de marginale distributie gaat het alleen om y ( s y ∧σ y ), bij de conditionele distributie gaat het
y-waarden bij een bepaalde x-waarde ( s yx ∧σ yx ). De marginale distributie is vaak groter dan de
conditionele distributie.

9.4 Measuring Lineair Association: The Correlation
The Slope and Strength of Association
De helling vertelt ons de richting van de associatie, maar niet hoe sterk deze is.

The Correlation




( )
√ ∑ ( x −x )2
∑( x−x )( y− y ) n−1 sx
r= r= b=( )b
√ [ ∑( x−x) ] [ ∑( y − y) ]

2 2
∑( y− y)
2 sy
n−1
De correlatie wordt ook wel de gestandaardiseerde regressie-coëfficiënt of de Pearson correlatie
genoemd.

Properties of the Correlation
- De correlatie is alleen valide wanneer er sprake is van een lineair verband.
- De correlatie valt tussen -1 en +1
- Als b positief is, is r ook positief; als b negatief is, is r ook negatief.
- Als r=0 geldt b=0
- Als r=1 is er sprake van een perfecte lineaire associatie, er is dan geen prediction error.
- Hoe groter de waarde van r, hoe sterkter de lineaire associatie.
- De correlatie van y om x te voorspellen, is gelijk aan die van x om y te voorspellen.
- De waarde van r is onafhankelijk van de eenheden van de variabele.

Correlation Implies Regression Toward the Mean
Regressie naar het gemiddelde = wanneer je x verhoogt met s x, verandert y met r∗s y .
R is lager dan 1, dus valt is lager dan 1, dus valt y minder standaarddeviaties van het gemiddelde dan
x. Een enkele standaarddeviatie verandering in x, is gelijk aan een verwachte verandering van r
standaarddeviaties in y.

R-Squared: Proportional Reduction in Prediction Error
2
De som van gekwadrateerde fouten ( E2=∑( y − ^y ) ) is kleiner wanneer je rekening houdt met x
( ^y → E 2), dan wanneer je dat niet doet ( y → E 2) als er een lineaire associaties is tussen x en y.
E1 −E2 TSS−SSE
r 2= = . TSS= total sum of squares
E1 TSS

Properties of r-Squared
- r2 valt tussen 0 en 1.
- Wanneer SSE 0 is, is r2 1
- Wanneer b=0, geldt r2=0

, - r2 meet de sterkte van de associatie
- r2 is onafhankelijk van de eenheden van de variabele

Sums of Squares Describe Conditional and Marginal Variability
R2 geeft het percentage van de verklaarde variantie aan, maar het is makkelijker om r te
interpreteren.



9.5 Inferences for the Slope and Correlation
Assumptions for Statistical Inference
- Randomisatie
- Het gemiddelde van y is gerelateerd aan x door: E ( y )=α + βx
- De conditionele standaarddeviatie σ is identiek voor elke waarde van x (kleinste kwadraatfout).
- De conditionele distributie van y is normaal bij elke x-waarde.

Test of Independence Using Slope or Correlation



b s SSE
t= se= s=
se √∑( x−x)2
n−2
r
t=


2
1−r
n−2
Confidence Interval for the Slope and Correlation
Een betrouwbaarheidsinterval voor β heeft de formule: b ± t(se ).
Een betrouwbaarheidsinterval berekenen voor de correlatie is moeilijker, omdat deze verdeling niet
symmetrisch is.

Sums of Squares in Software Output

9.6 Model Assumptions and Violations
Which Assumptions are Important?
De assumpties van randomisatie en de lineariteit zijn erg belangrijk. Voor de assumpties van
normaliteit en gelijkheid van de conditionele distributies geldt dat deze meestal niet volledig juist
zijn, maar dit is niet heel erg.

Influential Observations
Wanneer er een ernstige uitbijter is, moet er gekeken worden hoe dit komt, omdat deze veel invloed
heeft op de regressielijn.

Factors Influencing the Correlation
De range van x-waarden heeft ook invloed op de correlatie, wanneer deze veel kleiner is dan in de
populatie, wordt de correlatie onderschat.

Extrapolation is Dangerous
Het is niet logisch om een geschatte regressielijn toe te passen op waarden van x buiten de
geobserveerde waarden, omdat het verband daar misschien niet meer lineair is. Het is ook niet zo
dat, wanneer er een positieve relatie is tussen x en y en tussen y en z, dat er dan ook een positieve
relatie is tussen x en z.

Regression Model with Error Terms
y=α + βx +ε  ε geeft deviatie van de observatie van het gemiddelde weer = error term

The benefits of buying summaries with Stuvia:

Guaranteed quality through customer reviews

Guaranteed quality through customer reviews

Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.

Quick and easy check-out

Quick and easy check-out

You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.

Focus on what matters

Focus on what matters

Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!

Frequently asked questions

What do I get when I buy this document?

You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.

Satisfaction guarantee: how does it work?

Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.

Who am I buying these notes from?

Stuvia is a marketplace, so you are not buying this document from us, but from seller anneliewagenaar. Stuvia facilitates payment to the seller.

Will I be stuck with a subscription?

No, you only buy these notes for $3.21. You're not tied to anything after your purchase.

Can Stuvia be trusted?

4.6 stars on Google & Trustpilot (+1000 reviews)

53340 documents were sold in the last 30 days

Founded in 2010, the go-to place to buy study notes for 14 years now

Start selling
$3.21  6x  sold
  • (0)
Add to cart
Added