Hoorcollege 5 Hoofdstuk 18 (18.1, 18.3, 18.5) en 19
Hoorcollege 6 Hoofdstuk 22 (en hoofdstuk 30 van Green & Salkind)
, 3
Hoofdstuk 9 Bivariate Regression
Research Situations where bivariate regression is used
Bivariate regressie verschaft een vergelijking die ruwe scores op een kwantitatieve Y voorspelt vanuit
ruwe scores op een X (meestal kwantitatief, maar kan ook dichotoom zijn). Ook verschaft het een
vergelijking om de z of gestandaardiseerde scores op Y te voospellen vanuit de gestandaardiseerde
scorer op X. De relatie tussen X en Y is lineair.
Y’= b0 + bX
Y’ = Voorspelde score,
b0 = Intercept (voorspelde score op Y als X = 0 of als X de Y as kruist)
b = Slope (hoeveel Y verandert als X met 1 stap omhoog gaat).
Pearson’s r geeft informatie over hoe goed de voorspelde Y’ scores matchen met de ware Y
scores. Indien r = 1, zijn de voorspelde scores identiek aan de ware Y scores.
In situaties waarin X nooit gelijk is aan 0, is het intercept gewoon het punt waar de regressielijn de Y
as kruist. Je kunt ook z of gestandaardiseerde scores voorspellen voor Y vanuit X:
Z’y = r x zx of z’y = B x zx
De gestandaardiseerde score is handig als onderzoekers de sterkte van de relatie tussen X en Y in
gestandaardiseerde termen wilt beschrijven. Als X en Y in betekenisvolle eenheden zijn gegeven,
verschaft b bruikbare informatie over de voorspelde groottes van verandering in Y.
Toepassing van de bivariate regressie betreft drie stappen:
- Onderzoeker schat de coëfficiënten voor de vergelijking.
- Onderzoeker gaat na hoe goed of slecht deze vergelijking scores op Y voorspelt (d.m.v.
statistische significantie tests en effect groottes).
- Soms onderzoeker gebruikt een bivariate regressie vergelijking om voorspelde scores te
generaliseren voor individuen en gebruiken de voorspelde score als basis voor hun besluiten
(vb. professor gebruikt score op een eerdere test om te kijken wat hij/zij voor toekomstige
cijfers zou halen en op basis daarvan laat hij hem/haar toe).
r verschaft dus informatie over de errors die worden gemaakt bij de twee bovenste vergelijkingen.
De voorspelde error (residu) is het verschil tussen Yi en Y’i voor elke participant: Yi - Y’i = residu van
participant i. Indien r = +1 of -1, is er een perfecte lineaire regressie tussen X en Y en is de error 0.
Indien de r lager wordt, ontstaat er meer error in de voorspelling. Pearson r wordt gebruikt om de
sterkte van de lineaire relatie tussen 1 voorspeller en 1 uitkomst variabele te beschrijven.
Een regressie kan ook meer dan 1 voorspellers bevatten. De correlatie tussen ware Y scores en
voorspelde Y’ scores is een multiple R (R). R verschaft informatie over de voorspellende
bruikbaarheid van een gehele set van verschillende voorspellers, terwijl r wordt gebruikt om de
relatie van slechts 1 voorspeller en uitkomstvariabele te noteren.
9.2 A Research Example: prediction of salary from years of job experience
X = aantal jaren werken binnen een bedrijf.
Y = jaarlijkse salaris in dollars.
Verandert salaris op een systematische (lineaire) manier als het aantal jaren werkervaring verhoogd?
Hoeveel meer salaris in dollars kan je verwachten te verdienen voor elk extra jaar werken?
9.3 Assumptions and Data Screening
Preliminaire data screening voor bivariate regressie zijn hetzelfde als voor de Pearson correlatie.
- Als we een scatter plot in een regressie analyse bekijken, staat X horizontaal en Y verticaal.
, 4
- Preliminaire onderzoeken van de univariate verdelingen van X en Y vertelt de onderzoeker of
deze verdelingen normaal verdeeld zijn, of er uitbijters zijn en of de spreiding van scores van
de X en Y wijd genoeg is om problemen met de vereiste spreiding te voorkomen.
- Preliminaire onderzoeking naar de scatter plot laat de onderzoeker zien of de XY relatie
lineair is, of de variantie van Y scores gelijk is onder de niveaus van X en of er uitbijters zijn.
- Bij Pearsons r kunnen X en Y kwantitatief of dichotoom zijn, maar bij de bivariate regressie
moet de Y per se kwantitatief zijn en X kan beide zijn.
- Als een verdeling scheef is, geeft een log transformatie van de scores soms een meer
normale verdeling.
9.4 Issues in Planning a Bivariate Regression Study
Anders dan Pearson r, moet je bij een bivariate regressie onderscheid maken tussen de voorspeller
en uitkomst variabele. De vergelijking om Y door X te voorspellen is niet gelijk aan X door Y te
voorspellen (bij Pearson r maakt dit niet uit, want het is slechts een correlatie).
Soms is het lastig te bepalen welke variabele de voorspellende variabele is:
- Als A eerder gemeten is dan B of als A karakteristieken betreft die eerder bestonden voordat
B verscheen, voorspelt A, B (geslacht bestaat eerder en voorspelt emotionele intelligentie).
- Als A een oorzaak van B is, voorspelt A, B (A is het uren studeren en B het cijfer). Als A een
sterke voorspeller is van B, hoeft dit niet te bewijzen dat A, B veroorzaakt. Echter, als we
reden hebben om te denken dat A een oorzaak van B is of dat A invloed op B heeft, is het
logisch om A de rol van de voorspellende variabelen te geven.
- Soms is het echt niet duidelijk welke variabele nu de oorzaak is voor de andere variabele. In
dit geval is het nog steeds handig om een bivariate regressie te doen, maar het besluit welke
variabele als voorspeller te gebruiken kan arbitrair zijn (bv. zelfvertrouwen en GPA
zelfvertrouwen kan GPA voorspellen maar het kan ook andersom zijn).
- Naast het feit dat je een onderscheid moet maken tussen voorspeller en uitkomst variabele,
bestaan dezelfde problemen als voor een bivariate correlatie (zie 7.5). Het is belangrijk om
een beperkte spreiding van scores op X en Y te vermeiden, omdat een beperkte spreiding de
grootte van de correlatie verkleint, wat betekent dat een lineaire voorspellende vergelijking
grotere voorspelling errors neigt te hebben. Veel factoren die Pearson’s r grootte affecteren
(hoofdstuk 7), affecteren ook de grootte van b, de slope (omdat b een versie van r is).
9.5 Formulas for Bivariate Regression
– –
b = r * sy/sx of b=
–
b is dus een omgeschaalde versie van r zodat het gebruikt kan worden om de voorspelde score van Y
te generaliseren. Hiervoor wordt gebruikt: de standaard deviatie van Y (sy) en de standaard deviatie
van X (sx). Als r = 0, dan b = 0. Als r omhoog gaat, gaat b omhoog. Als sy omhoog gaat, gaat b omhoog.
Als sx omhoog gaat, gaat b omlaag.
b0 = My – bMx MY = gemiddelde van alle Y scores, Mx = gemiddelde van alle X scores.
9.6 Statistical Significance Test for Bivariate Regression
De nulhypothese (dat Y niet gerelateerd is aan X) voor een regressie dat 1 voorspellende variabele
gebruikt kan in 3 verschillende manieren worden beschreven:
H0 : p = 0 De populatie correlatie, p, tussen X en Y is 0. sign. test in hfst 7 besproken.
H0 : b = 0 b, de voorspelde verhoging in Y’ bij 1 stap in X is 0.
H0 : R = 0 De multipele R correlatie tussen de ware Yi en voorspelde Y’i is 0.
, 5
Significantie test voor b = 0:
SPSS verschaft de standaarderror van b (SEb), welke gebruikt wordt om een t ratio te verkrijgen om
b = 0 te testen.
√
Vervolgens wordt de t ratio uitgerekend:
t= = met df = N – 2
Significantie test voor R = 0:
Deze test gebruikt een F ratio. Als de regressie slechts 1 voorspellende variabele heeft, wordt deze F
test berekend door Pearson’s r tussen X en Y:
F=( )
= met df’s = (k, N – k – 1)
k = aantal voorspellende variabelen,
N = totaal aantal participanten
F ratio kan ook gebruikt worden bij meer dan 1 voorspellende variabele.
Zie figuur 9.6 blz. 355:
Yi – Y’i = de verticale afstand tussen een ware observatie en de Y’i waarde op de regressielijn dat
correspondeert met de voorspelde score voor Y gebaseerd op de lineaire relatie tussen Y en X. We
willen Yi – Y’i, de error, zo klein mogelijk hebben.
- We krijgen de variantie van de voorspelde errors door de residuen te kwadrateren en op te
tellen.
- We krijgen de standaard error van de regressie schattingen door de wortel van de
gekwadrateerde error variantie te nemen.
De standaard error van de regressie schatting (Syx) is gelijk aan een standaard deviatie het vertelt
ons iets over de afstand tussen Y’ en Y. SPSS noteert dit als SEest. Je wilt dit klein hebben.
SEest =√
De standaard error of the estimate is de standaardafwijking van de residuen.
Een andere manier om de SEest te berekenen laat zien dat het een functie is van de variabiliteit van
scores op Y en de sterkte van de relatie tussen X en Y gegeven door r²:
SEest = √
Indien r = 0, dan SEest is SY. Als r = 0, is de MY beste voorspelde waarde van Y, ongeacht wat de score
van X is; en de grootte van de error is Sy, de sd van Y scores.
Als r = +1 of -1, dan is SEest 0 en is de error klein. Alle ware Y scores vallen dan op de regressielijn. Als
SEest meer richting de Sy gaat, vertelt ons dat informatie over iemand zijn X score niet de informatie
verschaft om iemands Y score te kunnen voorspellen.
In het ideale geval, correspondeert SEest met de standaard deviatie van de distributie van ware Y
scores rond de regressielijn op elke waarde van X.
We stellen ons voor dat ware y scores normaal verdeeld zijn op elke waarde van X. het
gemiddelde van de ware Y scores op elke waarde van X correspondeert met Y’, de voorspelde Y score
voor elke waarde van X. De standaard deviatie of standaard error die de afstand van Y met Y’
beschrijft, wordt gegeven door SEest. SEest is een index van de variabiliteit van de distributies van Y
scores apart van elke X waarde, en er wordt aangenomen dat dit uniform is onder niveaus van X.
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller NadineEsme. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $8.04. You're not tied to anything after your purchase.