Relaties
Association = relatie tussen twee variabelen
- Twee variabelen zijn associated als de waarde van een van de variabelen je iets
vertelt over de waarde van de andere variabele
Responsvariabele (respsonse variable) = een variabele die het resultaat meet
- Afhankelijke variabele (dependent variable)
Verklarende variabele (explanatory variable) = een variabele die veranderingen in de
responsvariabele verklaart of veroorzaakt.
- Onafhankelijke variabele (indipendent variabele)
Beschrijving van een dataset voor het ontdekken van relaties moet het volgende bevatten:
- Cases
- Categorical/quantitative (variabele indelen)
- Waardes (values)
- Explanatory or respons (variabelen indelen)
- Label (labelvariabele)
Spreidingsdiagrammen (scatterplots)
Spreidingsdiagram (scatterplot) geeft een relatie tussen twee kwantitatieve variabelen die
gemeten zijn op dezelfde case
- Verklarende (explanatory) variabele op de x-as als die er niet zijn, maakt het niet
- Responsvariabel op de y-as uit waar welke variabele staat
- Tijd staat altijd op de x-as
Bekijken van een grafiek
- Kijk naar het algemene patroon en zoek opvallende afwijkingen
- Beschrijf het algemene patroon door de vorm, richting en sterkte van de relatie
o Relatie
Lineair
Gebogen
o Richting
Positieve relatie (zie samenvatting Passer Hoofdstuk 5)
Negatieve relatie (zie samenvatting Passer Hoofdstuk 5)
o Sterkte (Zie kopje correlatie)
Lineaire relatie is sterk als de punten dicht tegen de (smoother) lijn
aanliggen.
Transformaties worden gebruikt om gegevens makkelijker te kunnen analyseren
- Logtransformatie (alleen gebruiken bij positieve waardes)
- Smoothing = het toevoegen van een curve (door een computerprogramma)
Wanneer je een nieuwe categoriale variabele in de spreidingsdiagram (scatterplot) toevoegt,
gebruik je een andere kleur voor de symbolen.
1
,Correlatie
Correlatie (r) meet de richting en sterkte van de lineaire relatie tussen twee kwantitatieve
variabelen.
- als r is negatief, dan is er een negatief verband (positief keer negatief is negatief).
- r heeft geen eenheid
- altijd een waarde tussen -1 en 1
o dicht bij 0 betekent een weinig verband (correlatie)
- correlatie meet alleen de sterkte van een lineaire relatie
- r is gevoelig voor outliers
1
r= (x −x́ ¿ ¿ ¿ s x )( y i− ý ¿ ¿ ¿ s y )
n−1 ∑ i
s = standaarddeviatie
x́ = gemiddelde van variabele x
( x i− x́ ¿ ¿ ¿ s x ) = hoeveel standaarddeviaties waarde x boven/onder het gemiddelde ligt
Berekenen van de correlatie
- bereken het gemiddelde en de standaarddeviatie van de x-waarde en y-waarde
- bereken voor elke x-waarde de afwijking van het gemiddelde / standaarddeviatie
- doe dit ook voor de bijbehorende y-waardes
- vermenigvuldig de uitkomst van de x-waarde met de bijbehorende y-waarde
- tel alle uitkomsten bij elkaar op
- deel dit door (N-2)
Het weergeven van een spreidingsdiagram alleen is niet genoeg! Er moet altijd een
gemiddelde en standaarddeviatie bij staan. Want correlatie is gestandaardiseerd.
2
, Regressie
Regressie lijn (regression line) = een rechte lijn die beschrijft hoe een responsevariabele y
verandert als een verklarende (explanatory) variabele x verandert.
- Vaak gebruikt om een waarde (y) te voorspellen
- Regressie (anders dan correlatie) vereist dat er een verklarende en een response
variabele zijn
- y=b0 +b1 x
o b1 = de helling (slope) =de hoeveelheid waarmee y verandert wanneer x met
sy
één eenheid toeneemt ∆ Y /∆ X en is r
sx
geen conclusie trekken uit dit getal, want de grootte is afhankelijk van
de eenheid
o b0 = intercept = de waarde van y wanneer x = 0
geen conclusie trekken uit dit getal, want de grootte is afhankelijk van
de eenheid
- met zo’n lijn kunnen we de waarde van y voorspellen
- bij het tekenen van een regressielijn moeten alle punten op een scatterplot zo dicht
mogelijk bij de lijn liggen
Extrapoleren (extrapolation) = het gebruik van een regressielijn om waardes ver buiten de
reeks (range) van de verklarende (extraplanatory) variabele te voorspellen.
- Vaak niet accuraat en moet daarom vermeden worden
Least-squares regression line of y on x = de lijn die de som van de gebieden van de
verticale afstanden van de gegevenspunten van de lijn zo klein mogelijk maakt
Error = de som van (geobserveerde waarde – voorspelde waarde (=b 0+ b1 x )2
∑ (error )2=∑ ( y i−b 0−b1 x )2i
sy
Voorspelde y-waarde = ^y =b0 +b1 x met b 1=r en b 0= ý−b1 x́
sx
Het kwadraat van de correlatie r2 (square of the correlation) = de fractie van de variatie in
de waarden van y die wordt verklaard door de last-squares regression van y op x
- Geeft aan welk gedeelte van de variatie (=verandering) in de ene variabele door de
andere wordt verklaard
variantie van voorspelde waarde ^y
r 2=
variantie van geobserveerde waarde y
3
Voordelen van het kopen van samenvattingen bij Stuvia op een rij:
Verzekerd van kwaliteit door reviews
Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!
Snel en makkelijk kopen
Je betaalt supersnel en eenmalig met iDeal, creditcard of Stuvia-tegoed voor de samenvatting. Zonder lidmaatschap.
Focus op de essentie
Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!
Veelgestelde vragen
Wat krijg ik als ik dit document koop?
Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.
Tevredenheidsgarantie: hoe werkt dat?
Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.
Van wie koop ik deze samenvatting?
Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper Amberkas. Stuvia faciliteert de betaling aan de verkoper.
Zit ik meteen vast aan een abonnement?
Nee, je koopt alleen deze samenvatting voor €5,49. Je zit daarna nergens aan vast.