Statistik / Teil V: Prognoseverfahren 138
Übersicht
Teil IV: Prognoseverfahren
9. Regressionsanalyse
9.1. Einfaches lineares Regressionsmodell
9.2. Einfaches nichtlineares Regressionsmodell
9.3. Multiples lineares Regressionsmodell
10. Zeitreihenanalyse
10.1. Komponenten einer Zeitreihe und ihre Modellierung
10.2. Ermittlung der glatten Komponente
10.3. Ermittlung der Saisonkomponente
10.4. Prognose von Zeitreihenwerten
Aufgaben und Lösungen zu Teil V
,Statistik / Teil V: Prognoseverfahren 139
9. Regressionsanalyse
9. Regressionsanalyse
Während bei der Korrelationsrechnung die Stärke des linearen Zusammenhangs zwischen
zwei Merkmalen untersucht wurde, wird bei der Regressionsrechnung ein funktionaler Zusam-
menhang zwischen dem Merkmal Y als abhängige und dem Merkmal X als unabhängige
Variable bestimmt. Dabei bedarf der Zusammenhang zwischen beiden Merkmalen, die grund-
sätzlich auch metrisch skaliert sein müssen, zuallererst einer theoretisch fundierten Annahme.
Der unterstellte Zusammenhang ist also vorab sachlogisch zu begründen.
Ist dieser funktionale Zusammenhang zwischen X und Y bestimmt und sind die Koeffizienten
dieser Funktion aus dem vorliegenden Datenmaterial geschätzt, dann lassen sich mit Hilfe
dieser Regressionsfunktion für beliebige Ausprägungen des Merkmals X die zu erwartenden
Werte der abhängigen Variablen Y berechnen. In Erweiterung der Korrelationsanalysen ist es
hier also möglich, unter Vorgabe eines konkreten X-Wertes einen Prognosewert für die Y-
Variable zu berechnen. Zu beachten ist allerdings, dass die Genauigkeit dieser Schätzung
umso stärker abnimmt, je weiter die Ausprägungen des Merkmals X vom Intervall der tat-
sächlichen Beobachtungswerte (Stützzeitraum) entfernt liegen. Im Sinne einer seriösen
Schätzung sollte daher darauf geachtet werden, dass der für die X-Variable vorgegebene Wert
nicht zu stark von diesem Stützzeitraum abweicht.
Aus den Optionen, dass eine X-Variable oder auch mehrere X-Variablen zur Beschreibung
des Einflusses auf die Y-Variable herangezogen und lineare oder nichtlinearer Zusammen-
hänge zwischen den X- und der Y-Variablen unterstellt werden können, ergeben sich verschie-
dene Modellansätze. Diese sollen in den nachfolgenden Abschnitten vorgestellt werden.
Analog zum bisherigen Procedere sollen auch hier Datensätze zur Jugendherberge verwendet
werden, um die vorgestellten Verfahren zumindest fallweise zu konkretisieren.
Standen in den letzten Kapiteln vor allem Daten zur Kundenanalyse im Mittelpunkt, so soll
nachfolgend auf Zeitreihen zur Markt- und Konkurrenzanalyse zurückgegriffen werden. Hierzu
sind in der nachfolgenden Tabelle 6 über einen Zeitraum von 2004 bis 2019 die jährlichen
Übernachtungszahlen dieser Jugendherberge (ÜZ_JH), der Tourismusindex für Gesamt-
deutschland (TI_D), für deutsche Gemeinden zwischen 10000 und 20000 Einwohnern
(TI_G1020) und für die deutschen Jugendherbergen zusammen (TI_DJH) erfasst, darüber
hinaus das jährliche Budget für Marketingausgaben der Jugendherberge selbst (MA_JH). Es
bedarf in diesem Fall sicher keiner weiteren Ausführungen, dass die in diesen Indizes erfasste
Geschäftssituation im Tourismusgewerbe einen (positiven) Einfluss auf die Übernachtungs-
zahlen der Jugendherberge haben könnte. In besonderer Weise sollte dies natürlich für das
verausgabte Werbebudget und den Tourismusindex für kleinere Gemeinden gelten, da die
Jugendherberge in einer Gemeinde dieser Größenordnung liegt.
, Statistik / Teil V: Prognoseverfahren 140
9. Regressionsanalyse
Tabelle 6
Indikatoren zur Tourismusentwicklung von 2004 bis 2019
ÜZ_JH TI_D TI_G1020 TI_DJH MA_JH
Jahr in 1000 in Prozent in Prozent in Prozent in TEUR
2004 15,1 100,0 100,0 100,0 9
2005 14,9 100,0 100,1 97,9 10
2006 14,6 97,4 97,5 98,8 6
2007 15,1 97,4 98,8 100,5 8
2008 15,7 97,5 100,9 102,1 8
2009 16,0 98,9 100,5 107,2 9
2010 16,4 101,1 101,7 109,4 7
2011 14,9 104,1 103,0 110,6 12
2012 16,1 106,3 104,6 115,8 6
2013 16,8 106,0 111,9 122,8 10
2014 17,1 109,4 110,7 125,3 12
2015 16,0 113,1 115,3 122,6 8
2016 16,2 117,1 118,3 126,2 12
2017 16,4 118,5 115,7 129,1 11
2018 16,8 122,0 118,0 135,0 8
2019 17,2 125,5 118,2 140,0 6
9.1. Einfaches lineares Regressionsmodell
Die einfachste Modellvariante unterstellt einen linearen Zusammenhang, der durch die Re-
gressionsgerade
Ŷ = a0 + a1 ∙ X
beschrieben wird. Ob die Annahme eines linearen Funktionstyps der Realität tatsächlich ge-
recht wird, lässt sich neben den oben bereits angesprochenen sachlogischen Überlegungen
auch anhand des bereits bekannten Streudiagramms beurteilen.
Schätzung der linearen Regressionsfunktion
Würden alle Wertepaare in einem Streudiagramm auf einer Geraden liegen, könnten die
Koeffizienten der Regressionsgeraden direkt hieraus bestimmt werden. Insbesondere ökono-
mische Variablen weichen von diesem Idealfall mehr oder weniger stark ab, was beispielhaft
im Streudiagramm der beiden Merkmale 'Tourismusindex von Gemeinden zwischen 10000
und 20000 Einwohnern (TI_G1020)' und 'Übernachtungszahlen der Jugendherberge (ÜZ_JH)'
sichtbar wird: