Samenvattingen Warner (2013) & Agresti Statistiek 3 VU 2021
55 views 1 purchase
Course
Statistiek 3
Institution
Vrije Universiteit Amsterdam (VU)
Book
Applied Statistics
In dit document zijn de samenvattingen voor Statistiek 3 te vinden. Bijgevoegd zijn hoofdstuk 12, 15, 16, 17 en 19 van Warner, en hoofdstuk 9 & 12 van Agresti. Aanvullende samenvattingen zijn te vinden in de samenvattingen van jaar 1 en 2, die los te koop zijn. Ook is het mogelijk om een bundel te ...
Topicwise Past Exam & Quiz Questions with detailed explanations and lecture summary for the topics "Moderation, Path Analysis, Binary Logistics Regression"
Topicwise Past Exam & Quiz Questions with detailed explanations and lecture summary for the topics "Adding a Third variable, Multiple regression with 2 predictors, Multiple regression with multiple pr...
How to pass CAT with an 8
All for this textbook (4)
Written for
Vrije Universiteit Amsterdam (VU)
Psychologie
Statistiek 3
All documents for this subject (17)
Seller
Follow
daniquevandijk1
Reviews received
Content preview
Samenvattingen Agresti Statistiek 3
Hoofdstuk 9 Linear Regression and Correlation
Bij een regressieanalyse wordt onderzocht of er een relatie is tussen de variabelen door het testen
van de hypothese van statistische onafhankelijkheid, dan de sterkte van de associatie door de
correlatie meting van associatie, en vervolgens schatten we een regressievergelijking dat de waarde
van de responsvariabele voorspelt van de waarde van de verklarende variabele. y is de
responsvariabele, x de verklarende variabele. De formule y=α + βx staat voor een lineaire functie
van observaties op x. Het is een rechte lijn met helling bèta (verandering in y voor een eenheid
toename in x) en y-intercept alfa. Wanneer de relatie tussen twee variabelen een rechte lijn volgt
met β > 0, is de relatie positief. Wanneer de relatie tussen twee variabelen een rechte lijn volgt die
daalt, en β < 0, dan is de relatie negatief.
Een model is een benadering van de relatie tussen variabelen in de populatie. De eerste stap in
model fitting is het plotten van de data. Een plot van n observaties als n punten heet een scatterplot.
De vergelijking ^y =a+bx representeert een sample vergelijking dat het lineaire model schat. Het y-
intercept (a) schat het y-intercept van alfa, en de helling (b) de helling bèta. Het heet de
predictievergelijking. b=
∑ (x−x )( y− y ) en a= y−b x. Een regressie outlier valt ver van de
∑ ( x−x )2
trend die de rest van de data volgt. Een observatie is invloedrijk als het verwijderen resulteert in een
grote verandering in de predictie vergelijking. De predictiefouten heten residuals, het verschil tussen
een geobserveerde waarde en de voorspelde waarde van de responsvariabele, y - y . De sum of
2
squared errors is een samenvatting van de grootte van de residuals: SSE=∑ ( y−^y ) . SPSS noemt
het ook wel de residuele som of squares, de variatie van de data rond een predictielijn. De kleinste
kwadraten schattingen a en b zijn de waarden die de predictievergelijking vormen, waardoor de SSE
minimaal is. De predictielijn bij de vergelijking heet de least squares line. De som van residuals is
altijd gelijk aan 0.
Deterministisch is dat elke x-waarde bij één waarde van y hoort. Vaak variëren de y-waarden juist.
Een distributie die verwijst naar de variabiliteit in de y-waarden op een gefixeerde waarde van x, heet
een conditionele distributie. Een probabilistisch model staat variabiliteit in y toe bij elke waarde van
x. E ( y )=α+ βx om de relatie tussen x en het gemiddelde van de conditionele distributie van y te
modelleren. Dit heet ook wel een regressiefunctie, wat beschrijft hoe het gemiddelde van de
responsvariabele verandert volgens de waarde van een verklarende variabele. Het y-intercept en de
helling heten de regressiecoëfficiënten voor de lineaire regressiefunctie. σ is de conditionele
standaarddeviatie, het meet de variabiliteit van de y-waarden voor alle subjecten met dezelfde x-
waarde. Een model is altijd een versimpelde benadering van de realiteit, het klopt niet in het echt.
∑ ( y− ^y )2 , de geschatte conditionele standaarddeviatie. (n-2) zijn de vrijheidsgraden
s=
√ SSE
n−2
=
√ n−2
voor de schatting. In het algemeen geldt, als een regressievergelijking p onbekende parameters
heeft, dan is df = n – p. De mean square error is de s2, de wortel is de schatting van de conditionele
standaarddeviatie van y. √∑ ¿ ¿ ¿ ¿ = s is de puntschatting van de populatie standaarddeviatie, de
y
standaarddeviatie van de marginale distributie van y, omdat het alleen de y-waarden gebruikt. De
∑ ¿¿ is de totale sum of squares.
De correlatie tussen kwantitatieve variabelen is een gestandaardiseerde versie van de helling. Het
√
hangt niet af van de meeteenheden. s x is de marginale sample standaarddeviatie van x: ∑ ¿ ¿ ¿ ¿.
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller daniquevandijk1. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $9.71. You're not tied to anything after your purchase.