Samenvatting JR Samenvatting:
Statistiek om mee te werken: H13.1, H13.2, H13.2.1, H13.2.3, H13.2.5, H15
Hoofdstuk 13 Regressie en correlatie
H13.1 Inleiding tot regressie
Als sprake is van één variabele (X) die van invloed is op een andere (Y) kan de beïnvloeding
opgespoord worden met enkelvoudige regressie.
Als de invloed rechtlijnig is, spreken we van enkelvoudige lineaire regressie. De variabelen hebben
een causaal verband met elkaar, er is een onafhankelijke (X) en afhankelijke (Y) variabelen.
Relatie verklaren en oplossen met regressie techniek, heeft 2 fasen:
1. Formulering van een model.
2. De feitelijke schatting van de vergelijking.
13.1.1 Het enkelvoudige lineaire model
Om een indruk te krijgen van de samenhang van X en Y moeten de waargenomen getallenparen
(Xi , Xy ) in een spreidingsdiagram gezet worden, geeft inzicht in de samenhang. (Fig 13.1)
Bij enkelvoudige regressie gaan we van dit mode uit:
De uitkomst Y hangt dus af van X. Ook is er een toevalsfactor, de storingsterm, є .
Die storingsterm symboliseert de invloed van andere factoren op de variabele Y.
De storingen zullen gemiddeld 0 zijn, met een constante mate van spreiding.
Dus een lage of hoge X, de mate van spreiding is van dezelfde orde van grootte. De onderlinge
verschillen tussen de meetpunten zullen ongeveer even groot zijn.
Regressie: een schattingsprobleem
Jammer genoeg zijn de parameters a en B nog onbekend, deze moeten dus geschat worden.
Hiervoor worden waarnemingen n gedaan, zo wordt gezocht naar de lijn Y = a + bX die het
beste past bij de getallenparen (Xi , Xy ).
Hiermee wordt de richtingscoëfficiënt b en een constante term a berekend, die het meeste
geschikt zijn.
Dit is een schattingsprobleem, a en B worden geschat met de steekproef grootheden a en b.
Hoe meer waarnemingen, hoe beter de schatting zal zin.
, Samenvatting JR Samenvatting:
Statistiek om mee te werken: H13.1, H13.2, H13.2.1, H13.2.3, H13.2.5, H15
13.1.2 De kleinstekwadratenmethode
Met de methode der kleinste kwadraten gaan we a en b dus schatten. Er moet een rechte lijn
gezocht worden die het beste past bij de meetpunten.
De lijn wordt gekozen met behulp van criterium van de kleinste kwadraten. Gaat als volgende:
- Voor elk punt de afstand tot denkbeeldige lijn bepalen
- Al deze afstanden tot die lijn worden in kwadraten gezet.
- Streven is, de som van al deze kwadratische termen, zo klein mogelijk te krijgen.
Dus waar de Sommatie van e2i het kleinste is.
e2i = de afstand in verticale richting gemeten van een meetpunt tot de lijn.
Kan met machine/computer a en b bereken maar ook zelf, met de normaalvergelijking:
n = aantal waarnemingen
Sommatie Xi Yi = totaal Y x totaal X
Sommatie Xi = totaal X (waarden opgeteld)
Sommatie Yi = totaal Y (waarden opgeteld)
Sommatie X2i = elke X waarde in kwadraat2 (bij elkaar opgeteld)
(Sommatie Xi )2 = totaal X (waarden opgeteld) in het kwadraat2
Y = gemiddelde van alle Y waarnemingen.
b = uitkomst van b formule ervoor.
X = gemiddelde van alle X waarnemingen.
Alle waarnemingen X en Y in een tabel zetten. Vervolgens tabel XY maken en X2 ( en soms Y2 ).
Vervolgens formule uitwerken en zo a en b berekenen en in formule zetten.
Opmerkingen:
- Als de lijn berekend is kan de relatie tussen X en Y aangegeven worden, Y = 14 + 5X
betekend dat Y gemiddeld met 5 zal toenemen als X één eenheid hoger wordt.
- Hiermee nu ook gaan voorspellen, X invullen in formule. Dit wordt de voorspelde Yc
- Het is slechts voor een gebied geldig, dus geen voorspelling voor komende 100 jaar.