Relaties
Association = relatie tussen twee variabelen
- Twee variabelen zijn associated als de waarde van een van de variabelen je iets
vertelt over de waarde van de andere variabele
Responsvariabele (respsonse variable) = een variabele die het resultaat meet
- Afhankelijke variabele (dependent variable)
Verklarende variabele (explanatory variable) = een variabele die veranderingen in de
responsvariabele verklaart of veroorzaakt.
- Onafhankelijke variabele (indipendent variabele)
Beschrijving van een dataset voor het ontdekken van relaties moet het volgende bevatten:
- Cases
- Categorical/quantitative (variabele indelen)
- Waardes (values)
- Explanatory or respons (variabelen indelen)
- Label (labelvariabele)
Spreidingsdiagrammen (scatterplots)
Spreidingsdiagram (scatterplot) geeft een relatie tussen twee kwantitatieve variabelen die
gemeten zijn op dezelfde case
- Verklarende (explanatory) variabele op de x-as als die er niet zijn, maakt het niet
- Responsvariabel op de y-as uit waar welke variabele staat
- Tijd staat altijd op de x-as
Bekijken van een grafiek
- Kijk naar het algemene patroon en zoek opvallende afwijkingen
- Beschrijf het algemene patroon door de vorm, richting en sterkte van de relatie
o Relatie
Lineair
Gebogen
o Richting
Positieve relatie (zie samenvatting Passer Hoofdstuk 5)
Negatieve relatie (zie samenvatting Passer Hoofdstuk 5)
o Sterkte (Zie kopje correlatie)
Lineaire relatie is sterk als de punten dicht tegen de (smoother) lijn
aanliggen.
Transformaties worden gebruikt om gegevens makkelijker te kunnen analyseren
- Logtransformatie (alleen gebruiken bij positieve waardes)
- Smoothing = het toevoegen van een curve (door een computerprogramma)
Wanneer je een nieuwe categoriale variabele in de spreidingsdiagram (scatterplot) toevoegt,
gebruik je een andere kleur voor de symbolen.
1
,Correlatie
Correlatie (r) meet de richting en sterkte van de lineaire relatie tussen twee kwantitatieve
variabelen.
- als r is negatief, dan is er een negatief verband (positief keer negatief is negatief).
- r heeft geen eenheid
- altijd een waarde tussen -1 en 1
o dicht bij 0 betekent een weinig verband (correlatie)
- correlatie meet alleen de sterkte van een lineaire relatie
- r is gevoelig voor outliers
1
r= (x −x́ ¿ ¿ ¿ s x )( y i− ý ¿ ¿ ¿ s y )
n−1 ∑ i
s = standaarddeviatie
x́ = gemiddelde van variabele x
( x i− x́ ¿ ¿ ¿ s x ) = hoeveel standaarddeviaties waarde x boven/onder het gemiddelde ligt
Berekenen van de correlatie
- bereken het gemiddelde en de standaarddeviatie van de x-waarde en y-waarde
- bereken voor elke x-waarde de afwijking van het gemiddelde / standaarddeviatie
- doe dit ook voor de bijbehorende y-waardes
- vermenigvuldig de uitkomst van de x-waarde met de bijbehorende y-waarde
- tel alle uitkomsten bij elkaar op
- deel dit door (N-2)
Het weergeven van een spreidingsdiagram alleen is niet genoeg! Er moet altijd een
gemiddelde en standaarddeviatie bij staan. Want correlatie is gestandaardiseerd.
2
, Regressie
Regressie lijn (regression line) = een rechte lijn die beschrijft hoe een responsevariabele y
verandert als een verklarende (explanatory) variabele x verandert.
- Vaak gebruikt om een waarde (y) te voorspellen
- Regressie (anders dan correlatie) vereist dat er een verklarende en een response
variabele zijn
- y=b0 +b1 x
o b1 = de helling (slope) =de hoeveelheid waarmee y verandert wanneer x met
sy
één eenheid toeneemt ∆ Y /∆ X en is r
sx
geen conclusie trekken uit dit getal, want de grootte is afhankelijk van
de eenheid
o b0 = intercept = de waarde van y wanneer x = 0
geen conclusie trekken uit dit getal, want de grootte is afhankelijk van
de eenheid
- met zo’n lijn kunnen we de waarde van y voorspellen
- bij het tekenen van een regressielijn moeten alle punten op een scatterplot zo dicht
mogelijk bij de lijn liggen
Extrapoleren (extrapolation) = het gebruik van een regressielijn om waardes ver buiten de
reeks (range) van de verklarende (extraplanatory) variabele te voorspellen.
- Vaak niet accuraat en moet daarom vermeden worden
Least-squares regression line of y on x = de lijn die de som van de gebieden van de
verticale afstanden van de gegevenspunten van de lijn zo klein mogelijk maakt
Error = de som van (geobserveerde waarde – voorspelde waarde (=b 0+ b1 x )2
∑ (error )2=∑ ( y i−b 0−b1 x )2i
sy
Voorspelde y-waarde = ^y =b0 +b1 x met b 1=r en b 0= ý−b1 x́
sx
Het kwadraat van de correlatie r2 (square of the correlation) = de fractie van de variatie in
de waarden van y die wordt verklaard door de last-squares regression van y op x
- Geeft aan welk gedeelte van de variatie (=verandering) in de ene variabele door de
andere wordt verklaard
variantie van voorspelde waarde ^y
r 2=
variantie van geobserveerde waarde y
3
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller Amberkas. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $5.83. You're not tied to anything after your purchase.