Hoorcollege 5: Enkelvoudig regressiemodel
Bedoeling van dit college is dat je zo in staat bent een eigen voorspelling te maken. Het
enkelvoudige model/vergelijking is niets anders dan y = ax + b. We beperken ons tot de
frequentistische aanpak (de Bayesiaanse aanpak komt voorlopig niet meer aan de orde).
Deze week:
- Een trendlijn doortrekken.
- Dat kan opleveren dat we daarmee dus een voorspelling kunnen maken, want als we het
doortrekken dan trekken we het naar de toekomst toe/door, dan heb je een voorspelling.
- Regressiemodel dat regressiemodel is heel bijzonder, want we kunnen parameters schatten.
- Die parameters schatten we met de Kleinste kwadratenmethode.
- De R2 dan gaan we kijken hoe goed we een model hebben gemaakt, want we willen toch wel
vertrouwen hebben in onze voorspelling.
- Hoe ver ligt de parameter van 0 af? (aantal keren standaarddeviaties van 0 af of van een
gemiddelde af).
- T waarde, p waarde
- Interval voorspelling dat betekent zoiets als dat ik zeg ‘als we de lijn doortrekken zou er dit
uitkomen en met een bepaalde marge eromheen’, plus en minus een bepaalde marge.
Zet de dalende trend door?
Diefstallen (totaal, in 1000 tallen, 2010-2019) in Nederland, Bron: CBS. Dit zijn dus echte data.
Wat opvalt is dat de lijn naar beneden loopt. Een eenvoudige vraag is of deze dalende trend zich
doorzet, dus gaat dit verder naar rechts beneden?
, Voorspellingen voor een paar jaar vooruit
Gegevens voor 2010-2019, voorspellingen voor 2020-2025. Hoe zijn deze gemaakt?
(Deze voorspellingen zijn alvast gemaakt, die gaan we zo zelf ook kunnen maken. Want dit is het idee.)
Let op: die lijn loopt minder schuin dan in het eerste plaatje omdat de y-as in het tweede plaatje
een beetje is aangepast.
Die oranje stippellijn zou een voorspelling zijn. Je trekt dus als het ware dat lijntje door.
Je kan ook zeggen ik doe dat wel met de hand doortrekken, maar je wil dat toch iets preciezer
kunnen doen. Sterker nog, we gaan zo een methode bespreken die uniek deze oranje
voorspellingen geeft. Hoe je het ook aanpakt, je krijgt altijd die oranje stippellijn eruit.
Als je het met de hand zou doen, dan krijg je de ene keer een lijn die iets minder steil (dus meer
horizontaal) is dan die oranje en de andere keer juist steiler naar beneden. Die oranje stippellijn is
dus door één bepaalde methode berekend en is telkens weer hetzelfde.
Voorspellingen
De voorspellingen zijn gemaakt door de (dalende) trend in deze gegevens door te trekken naar de
toekomst. Die trend, weergegeven door een rechte oranje lijn, voor 2010-2019 ziet er zo uit:
Je ziet dat de rechte oranje lijn (dat is de trend) niet precies door alle punten heen gaat (blauw zijn
echte waarnemingen). Soms zitten de punten er een beetje boven of onder (in plaatje: eronder,
erboven, eronder). Maar gemiddeld genomen loopt deze trendlijn door deze data heen.
Dit is een mooie rechte lijn, wat ook makkelijk is door te trekken. Dat kan je in dit geval zelfs met
een liniaal. Deze oranje lijn moeten we gaan vinden. Dat gaan we doen m.b.v. deze uitdrukking: