STATISTIK
(IUBH FERNSTUDIUM, KURS BSTA01-01)
persönliche Zusammenfassung der klausurrelevanten Begriffe und Formeln in einer Lerntabelle (Stand April 2021)
LERNTABELLE
Lektion 1: Grundbegriffe
Statistik Statistik ist eine wissenschaftliche Disziplin, welche die
Erfassung, Aufbereitung und Analyse von Daten umfasst und
in drei Bereiche eingeteilt wird (deskriptive und induktive
Statistik sowie Wahrscheinlichkeitsrechnung).
Im Allgemeinen versteht man unter einer Statistik auch eine
Zusammenstellung von (meist numerischen) Daten und ihre
Präsentation in tabellarischer oder grafischer Form mit dem
Ziel, bestimme Phänomene und Entwicklungen zu
beschreiben.
Bereiche der Statistik Deskriptive Statistik Beschreibung von Daten und ihre
Auswertung mittels deskriptiver
Methoden (z.B. mit Lagemaßen und
Streuungsmaßen). Verallgemeinerung ist
nicht zulässig.
Induktive Statistik Herleitung allgemeingültiger Aussagen
auf Basis von Stichproben (z.B.
Intervallschätzung oder Hypothesentest).
Es handelt sich nur um eine
Wahrscheinlichkeitsaussage oder
Schätzung.
Wahrscheinlichkeits- Da eine Stichprobe nur eine
rechnung Wahrscheinlichkeitsaussage ist, ist es
sehr wichtig, zu wissen, wie man mit
Wahrscheinlichkeiten rechnet und
welche Bedeutung verschiedene
Wahrscheinlichkeitsverteilungen
aufweisen.
Merkmalsträger Als Merkmalsträger bezeichnet man das Einzelobjekt einer
statistischen Untersuchung. Dieses trägt die Information, für
die wir uns in der statistischen Untersuchung interessieren.
Merkmal Als Merkmal bezeichnet man die interessierende Eigenschaft
des Merkmalsträgers. In der Regel wird ein Merkmal mit
großen lateinischen Buchstaben (𝑋) dargestellt.
1
,Merkmalsausprägungen Merkmalsausprägungen sind die theoretisch möglichen
Werte oder Kategorien, die ein Merkmal annehmen kann.
Man stellt sie mit kleinen lateinischen Buchstaben (𝑥) dar.
Der Laufindex 𝑗 kennzeichnet alle Merkmalsausprägungen
eindeutig.
Die Anzahl aller möglichen Merkmalsausprägungen wird als
𝑚 dargestellt.
„Das Merkmal 𝑋 hat die Ausprägungen 𝑋! , 𝑋" , 𝑋# , … , 𝑋$ “
Beobachtungswert Beobachtungswerte sind die tatsächlichen Ergebnisse, die
man im Rahmen einer statistischen Untersuchung erhebt.
Sie werden mit kleinen lateinischen Buchstaben bezeichnet,
wobei der Laufindex als 𝑖 und die Anzahl aller
Beobachtungswerte als 𝑛 dargestellt wird.
„Das Merkmal 𝑋 hat die Beobachtungswerte 𝑥! , 𝑥" , … , 𝑥% “
Merkmalsarten & Skalierung Qualitative Merkmalsausprägungen können in keine
Merkmale natürliche Reihenfolge gebracht werden. Es
kann einzig festgestellt werden, dass sie sich
unterscheiden (z.B. Familienstand, Beruf,
Haarfarbe).
Man verwendet die Nominalskala.
Komparative Merkmalsausprägungen können in eine
Merkmale natürliche Reihenfolge gebracht werden, aber
die Abstände zwischen ihnen lassen sich nicht
sinnvoll interpretieren (z.B. Zensuren,
Güteklassen).
Man verwendet die Ordinalskala.
Es dürfen keine Rechenoperationen
angewendet werden.
Quantitative Merkmalsausprägungen können in eine
Merkmale natürliche Reihenfolge gebracht werden und
die Abstände können sinnvoll interpretiert
werden.
Liegt kein natürlicher Nullpunkt vor, lassen sich
die Verhältnisse zwischen den einzelnen
Merkmalsausprägungen nicht interpretieren,
dann verwendet man die Intervallskala. (z.B.
Kundenbewertungen in Punkten, Temperatur in
Celsius, Jahrgang)
Wenn ein natürlicher Nullpunkt vorliegt,
können Merkmalsausprägungen in eine
natürliche Reihenfolge gebracht werden, und
sowohl Abstände als auch Verhältnisse können
sinnvoll interpretiert werden.
Dann wird eine Verhältnisskala verwendet.
Rechenoperationen sind zulässig. (z.B.
Entfernung, Gewicht, Umsatz)
2
,Merkmalsarten & Abzählbarkeit Diskrete Merkmalsausprägungen sind abzählbar (es liegt
Merkmale eine endliche Anzahl von Merkmalsausprägungen
vor). z.B. Kinder, Augenzahl beim Würfeln
Stetige Merkmalsausprägungen sind überabzählbar (es
Merkmale liegt eine unendliche Anzahl von
Merkmalsausprägungen vor). z.B. Körpergewicht,
Temperatur, Zeit
5 Phasen einer statistischen 1. Planung - Bestimmung der benötigten
Untersuchung Informationen zur Beantwortung
einer bestimmten Frage
- Definition der Grundgesamtheit
- Bestimmung von Merkmalsträgern,
Merkmalen & Skala
- Bestimmung von
Erhebungsverfahren und
Analysemethoden
2. Datenerhebung - Primärerhebung: Befragungen,
Beobachtungen, Experimente,
automatische Erfassung
- Sekundärerhebung: Zugriff auf
existierende Datenquellen wie
statistisches Bundesamt oder
Landesämter, Eurostat, Deutsche
Bundesbank, Bundesagentur für
Arbeit, statistische Ämter
internationaler Organisationen,
Wirtschafts- oder Markt- und
Meinungsforschungsinstitute
3. Datenaufbereitung - Ordnung und Zusammenführung
der Daten
- Prüfung der Daten auf
Vollständigkeit und Plausibilität
- ggf. Durchführung einer
Datenberichtigung
- Digitalisierung der Daten/Erstellung
einer Datenbank
4. statistische
Analyse Systematische Auswertung der
Datenbank durch Anwendung des
statistischen Instrumentariums (z.B.
mithilfe von Excel, SPSS, SAS, Stata)
5. Interpretation und Interpretation der Ergebnisse mit Bezug
Dokumentation auf den Anwendungskontext
3
, Lektion 2: Auswertung eindimensionaler Daten
Auswertungsmethoden 1. Erstellung einer Häufigkeitsverteilung
eindimensionaler Daten 2. Beschreibung der Daten anhand von Lagemaßen
3. Beschreibung der Daten anhand von
Streuungsmaßen
Häufigkeitsverteilung Die Häufigkeitsverteilung ist eine tabellarische oder grafische
Darstellung der geordneten Merkmalsausprägungen mit den
ihnen zugeordneten Häufigkeiten.
absolute Häufigkeit Die absolute Häufigkeit gibt an, wie häufig eine bestimmte
Merkmalsausprägung in den Daten beobachtet wird.
Man bestimmt die absolute Häufigkeit durch schlichtes
Zählen der entsprechenden Beobachtungswerte.
relative Häufigkeit Die relative Häufigkeit gibt an, in welchem (prozentualen)
Anteil eine bestimmten Merkmalsausprägung in den Daten
beobachtet wird.
Zur Berechnung wird die absolute Häufigkeit der Ausprägung
durch die Anzahl aller Beobachtungen dividiert:
ℎ(𝑥! )
𝑓+𝑥& , =
𝑛
Häufigkeitsverteilung bei - absolute Häufigkeit
qualitativen Merkmalen - relative Häufigkeit
Darstellungsformen bei - Häufigkeitstabelle
qualitativen Merkmalen - Säulendiagramm
- Kreisdiagramm
Häufigkeitsverteilung bei - absolute Häufigkeit
komparativen und quantitativen - relative Häufigkeit
Merkmalen - + kumulierte absolute Häufigkeit
- + kumulierte relative Häufigkeit
Kumulierte absolute Häufigkeit Die kumulierte absolute Häufigkeit entspricht der Summe der
absoluten Häufigkeiten von Merkmalsausprägungen.
&
𝐻+𝑥& , = 2 ℎ(𝑥' )
'(!
Der Index 𝑗 zeigt jeweils die Merkmalsausprägung an, bis zu
der man die Einzelwerte addiert. Wird über alle
Merkmalsausprägungen kumuliert, entspricht die kumulierte
absolute Häufigkeit stets der Anzahl der Beobachtungen n.
Kumulierte relative Häufigkeit Die kumulierte relative Häufigkeit entspricht der Summe der
relativen Häufigkeiten von Merkmalsausprägungen.
&
𝐹+𝑥& , = 2 𝑓(𝑥' )
'(!
Der Index 𝑗 zeigt jeweils die Merkmalsausprägung an, bis zu
der man die Einzelwerte addiert. Wird über alle
Merkmalsausprägungen kumuliert, entspricht die kumulierte
relative Häufigkeit stets 1.
4