CHAPTER 9: THE LINEAR MODEL (REGRESSION)
9.2 An introduction to the linear model (regression)
Als we willen kijken naar de relatie tussen twee variabelen dan kunnen we de vergelijking gebruiken
die eerder is beschreven (2.3). Maar, als we werken met ruwe data dan moeten we informatie
toevoegen over hoe de uitkomst variabele gecentreerd is. We voegen daarom een constante toe, b0,
ook wel het intercept van het model genoemd. Dit representeert de waarde van de uitkomst wanneer
de voorspeller afwezig is (dus 0 is). Dit geeft ons een nieuwe
vergelijking. Het basis idee is nog steeds dat de uitkomst van een
persoon voorspelt kan worden door het model (dat tussen haakjes) en
wat error εi. Dit model verschilt van de het correlatie model, omdat we hier niet gestandaardiseerde
metingen gebruiken van de relatie b1 en daarom voegen we een parameter toe, b0, die ons verteld wat
de waarde is van uitkomst wanneer de voorspeller 0 is.
Al deze vergelijkingen gaan over hetzelfde: een lineair
model, oftewel, een rechte lijn. Elke rechte lijn kan
geïdentificeerd worden door twee dingen:
- De slope (helling) van de lijn, meestal aangegeven als
b1.
- Het intercept, het punt waar de lijn de verticale as van
de grafiek kruist, meestal b0.
- Deze parameters, b0 en b1 staan bekend als de
regressie coëfficiënten.
- Een lijn met een positieve b1 geeft een positieve relatie weer en een lijn met een negatieve b1 geeft
een negatieve relatie weer.
- We kunnen dus een lineair model gebruiken om de relatie tussen twee variabelen samen te vatten:
de helling (b1) vertelt ons hoe het model eruit ziet, de vorm en de intercept (b0) verteld ons de
locatie van het model in de geometrische ruimte.
Het mooie aan dit model is dat je er zoveel voorspellers aan kan
toevoegen als je wilt. Er komt dan gewoon een extra b bij. Als je
bijvoorbeeld twee voorspeller hebt, krijg je een visueel model zoals
hiernaast (regression plane).
- De verticale afstand tussen de plane en de data punten zijn de
residuen van het model.
Samenvattend is regressieanalyse een term voor het aanpassen van een lineair model aan gegevens en
het gebruiken om waarden van een uitkomstvariabele (ook wel afhankelijke variabele) te voorspellen
op basis van een of meer voorspellende variabelen (ook wel onafhankelijke variabelen genoemd). Met
één voorspellende variabele wordt de techniek soms eenvoudige regressie genoemd, maar met
meerdere voorspellende variabelen wordt het meervoudige regressie genoemd. Beide zijn slechts
termen voor het lineaire model.
, 9.2.3 Estimating the model
Voor het schatten van de parameters gebruiken we hier dezelfde methode als eerder omschreven,
namelijk de method of least squares.
- Bij het lineaire model worden de verschillen tussen wat het model voorspelt en de waargenomen
gegevens meestal residuen genoemd (ze zijn hetzelfde als deviaties wanneer we naar het
gemiddelde keken).
- Om de error in een lineair model te bepalen, net als eerder met het vergelijken van gemiddelden,
gebruiken we de sum of squared errors. Omdat de error hier residual heet, krijgt het totaal hiervan
de naam: residual sum of squares (SSR). Dit geeft een indicatie van hoe goed het lineaire model
past bij de data.
- We gebruiken de method of least squares om de parameters (b) te schatten die het regressiemodel
definiëren waarvoor de som van de gekwadrateerde fouten het minimum is dat het kan zijn
(gegeven de gegevens). Deze methode staat bekend als ordinary least squares (OLS) regressie.
9.2.4 Assessing the goodness of fit, sums of squares, R and R2
Zodra we het model met de beste fit hebben gevonden, moeten we een baseline model gebruiken om
het mee te vergelijken. Dus, we fitten een baseline model, passen het toe op de data. Als het beste
model wat ervoor eruit gekomen is een beetje goed is, dan zou het op z’n minst significant minder
error moeten hebben dan het baseline model.
- Het gemiddelde van de uitkomst variabele is een model van ‘geen relatie’ tussen de variabelen.
Het gemiddelde (mean) is dus een goede baseline voor ‘geen relatie’ en die kunnen we gebruiken
als baseline model. We berekenen dan het verschil tussen de geobserveerde waarden en de
waarden die voorspelt worden door het gemiddelde. Hieruit komt weer een sum of squared
differences en deze staat bekend als de total sum of squares (SST) en dit representeert hoe goed
het gemiddelde is als model voor de geobserveerde uitkomst scores.
- Vervolgens kunnen we de waarden van SSR en SST gebruiken om uit te rekenen hoeveel beter het
lineaire model is dan het baseline model van ‘geen relatie’. De verbetering in voorspelling
wanneer je het lineaire model gebruikt i.p.v. het gemiddelde wordt berekend als het verschil
tussen SST en SSR. Deze verbetering/vermindering van onnauwkeurigheid is de model sum of
squares (SSM).
o Als de waarde van SSM heel groot is, dan is het lineaire model heel verschillend ten
opzichte van het gemiddelde, in het voorspellen van de uitkomst variabele. Dit
impliceert dat het lineaire model een grote verbetering heeft m.b.t. het voorspellen van
de uitkomst variabele.
- Een andere handige meting is de proportie verbetering vanwege het model R2 , als je
dit als percentage wilt weergeven x100.
o Dit vertegenwoordigt de hoeveelheid variantie in de uitkomst verklaard door het
model (SSM) ten opzichte van hoeveel variatie er in de eerste plaats te verklaren was
(SST); het is dezelfde als de R2 die we in paragraaf 8.4.2 hebben gezien en het wordt
op dezelfde manier geïnterpreteerd: het vertegenwoordigt het deel van de variatie in
de uitkomst dat kan worden voorspeld vanuit het model.
o We kunnen de vierkantswortel van deze waarde nemen om de correlatiecoëfficiënt
van Pearson te krijgen voor de relatie tussen de waarden van de uitkomst voorspeld
door het model en de waargenomen waarden van de uitkomst. Dus de
correlatiecoëfficiënt geeft ons een goede schatting van de algehele fit van het
regressiemodel