Zusammenfassung - Reflexionsaufgaben + Lösungen - Notation - Glossar.
Das Dokument fasst die Inhalte aus den Fernlehrbriefen "Statistik 1 -Wahrscheinlichkeitstheorien und Deskriptive Statistik " komprimiert und detailiert zusammen und dient der optimalen Klausurvorbereitung.
Die Punkte "Softwa...
Statistik Ⅰ – Deskriptive Verfahren Ⅰ – Grundlagen
1. Zur Relevanz der Statistik
1.1. Beispiel 1: Die Wahrscheinlichkeit, krank zu sein, bei einer positiven Diagnose eines recht exakten Tests
- Beispiel Test:
• Bei vorliegender Krankheit, besitzt der Test eine 100% Genauigkeit
• Bei keiner vorliegender Krankheit, besitzt der Test eine 95.24% Genauigkeit
- Viele Menschen gehen dabei davon aus, dass bei einer solchen positiven Diagnose eine sehr hohe Wahrscheinlich-
keit besteht erkrankt zu sein → Tatsächliche Wahrscheinlichkeit bei positivem Testresultat erkrankt zu sein: 5%
• Fehleinschätzung der Menschen hängt mit den ursprünglich zur Verfügung gestellten Informationen zusammen
(0% und 4.8% Fehlerquoten)
- Angaben zur Genauigkeit eines Testverfahrens:
• Sensitivität:
o Wahrscheinlichkeit der Diagnose „krank“ unter der Bedingung „erkrankt“
o Anteil aller erkrankten Personen, die die richtige Diagnose erhalten; Betrachtet die Teilmenge der erkrankten
Personen
• Spezifität:
o Wahrscheinlichkeit der Diagnose „gesund“ unter der Bedingung „gesund“
o Anteil aller richtig diagnostizierten Personen unter den gesunden Personen; Betrachtet die Teilmenge der gesun-
den Personen
1.2. Beispiel 2: Nationale Herkunft und Schulversagen
- Ökologischer Fehlschluss: Fehlinterpretation beruhen auf aggregierten Daten → Daten wurden auf einer bestimm-
ten Ebene zusammengefasst (z.B. Länder-, Schul- oder Klassenebene)
- Beruht auf einer Studie von Robertson (1950)
• Basierend auf Daten einer Volkszählung von 1930 in den USA
• Berechneter Zusammenhang (von den 48-US-Bundesstaaten) zwischen der Quote an Immigranten (prozentualer
Anteil) und der Quote an Analphabeten
• Fehlinterpretation mit der Schlussfolge: höhere Wahrscheinlichkeit für Analphabetismus unter Immigranten →
Tatsächliche Quote der Analphabeten war bei Immigranten geringer als bei den in den USA geborenen Personen
- Fehlinterpretationen entstehen, wenn Zusammenhänge unzulässigerweise von einer Aggregationsebene auf eine
andere Aggregationsebene übertragen wird
1.3. Beispiel 3: Zulassung zum Studium in Abhängigkeit vom Geschlecht
- Simpson Paradox (Edward Simpson, 1951): Bei statistischen Analysen muss der Einfluss von Drittvariablen be-
rücksichtigt werden. Bestimmte Fragestellung erfordern eine Aufteilung der ursprünglichen Daten in einer bestimm-
ten Weise
• Bsp. Edward Simpson:
o Juristische/Politische Auseinandersetzung aufgrund einer „vermeintlich“ höheren Zulassungsquote für Männer
o Aufteilung bei der Zulassungsquote zum Graduiertenstudium nur nach männlich/weiblich betrachtet, statt die
Aufteilung in die einzelnen Fachbereiche zu berücksichtigen
o Vorwürfe der Diskriminierung nicht haltbar
1.4. Beispiel 4: Studiendauer und Einstiegsgehalt
- Fehlinterpretationen beim Betrachten vom Zusammenhang zweier Merkmale ohne Berücksichtigung des Einflusses
weiterer Merkmale
- Korrelation= gemeinsamer Einfluss zweier Merkmale auf ein Kriterium:
• Bsp. (Krämer, 2009): Vermeintlicher positiver Zusammenhang der Höhe des Einstiegsgehalts in Abhängigkeit zur
Studiendauer; Bei getrennter Betrachtung der einzelnen Studienfächer (BWL, Physik und Chemie) zeigt sich ein
negativer Zusammenhang
• Kriterium (Einstiegsgehalt) = Merkmal (Studiendauer) + Merkmal (Studienfach)
1
,2. Grundbegriffe und Aufgaben der Statistik
2.1. Daten
- Datenmatrix= enthält Ausprägungen der erhobenen Merkmale einer Person (o. anderen statistischen Einheit)
• Z.B. Geschlecht, Körpergewicht, IQ etc.
• Zeile in Datenmatrix: Werte aller erhobenen Variablen für bestimmte statistische Einheiten
• Spalte eine Datenmatrix: enthält die Werte einer Variablen für alle statistischen Einheiten; Reihenfolge der Vari-
ablen ist für jede statistische Einheit identisch
- Einheiten/Untersuchungseinheiten = statistische Einheiten = Merkmalsträger
• In der Psychologie häufig Personen; Auch Organisationen/Organisationseinheiten (z.B. Universitäten oder Fach-
bereiche); Statistische Einheiten können auch Zeitpunkte sein
- Merkmal= z.B. Geschlecht, Körpergewicht, IQ einer statistischen Einheit
• Variable= Ein Merkmal mit unterschiedlichen (mind. zwei) Ausprägungen
• Konstante= Ein Merkmal mit nur einer Ausprägung
- Merkmalsausprägungen = Variablenwerte = Ausprägungen = Werte
- Beobachtungen = an statistischen Einheiten erhobene Merkmalsausprägungen
2.2. Stichprobenziehung
- Population/Grundgesamtheit= bestimmte vorher definierte Menge statistischer Einheiten bei empirischen Studien
• Z.B.: Bewohner einer Stadt, Mitglieder einer Universität
- Vollerhebung= Bei einer kleinen Population können alle Mitglieder einer Population in eine Untersuchung einbe-
zogen werden
• Aus ökonomischen Gründen wenig sinnvoll (Aufwand, Menge an Daten)
- Stichprobe= Eine Auswahl der Mitglieder einer Population; Verschiedene Methoden zur Auswahl der Mitglieder
einer Stichprobe:
• Einfache Zufallsstichprobe= Jedes Mitglied der Population hat die gleiche Chance in die Stichprobe aufgenom-
men zu werden
• Geschichtete Zufallsstichprobe= Population wird in einzelne Schichten (Teilpopulationen) unterteilt → aus die-
sen Teilpopulationen werden einfache Zufallsstichproben gezogen
o Sinnvoll, wenn die einzelnen Teilpopulationen miteinander vergleichen sollen
• Quotenstichprobe= Stichprobe wird hinsichtlich der für die Fragestellung wichtigen Merkmale so zusammenge-
stellt, dass sie ein repräsentatives Abbild der Population darstellt
o Z.B.: Übereinstimmen der Stichprobe hinsichtlich der Merkmale Geschlecht, Alter, Bildung etc. mit der Popu-
lation; Häufig eingesetzt in Marktforschungen
o Die prozentualen Anteile der Kombination aus verschiedenen Merkmalen werden ermittelt und als Quote der
Stichprobe vorgegeben → Erheben so vieler statistische Einheiten bis die Quote erfüllt ist
• Convenience sampling= Einbezug solcher Mitglieder einer Population in die Stichprobe, die relativ einfach zu
erreichen sind
- Repräsentative Stichprobe= Daten der Stichprobe erlauben angemessene Aussagen über die zugrundeliegende
Population; Stichprobe soll für die relevanten Merkmale ein verkleinertes Abbild der Population darstellen
2.3. Deskriptive Statistik
- Deskriptive Statistik= Beschreibung einzelner oder mehrerer Variablen anhand von Tabellen, Grafiken und Koef-
fizienten
• Kennwerte/Maße für:
o Mittlere Ausprägung der Messwerte (z.B. Mittelwert)
o Unterschiedlichkeit bzw. Streuung einzelner Messwerte
- Univariate Statistik= separate Beschreibung einzelner Variablen
- Bivariate Statistik= gemeinsame Betrachtung zweier Variablen
• Für die gemeinsame Darstellung von zwei Variablen gibt es verschiedene grafische und tabellarische Darstel-
lungsformen; Reihe von Koeffizienten zur Erfassung des Grades des statistischen Zusammenhangs zweier Vari-
ablen
2
,- Einfache Regression (Verfahren der bivariaten Statistik): Eine Variable (abhängige Variable, AV) wird durch
eine andere Variable (unabhängige Variable, UV) erklärt und optimal vorhergesagt
• Klärung inwiefern Unterschiede in der abhängigen Variable auf Unterschiede in der unabhängigen Variable zu-
rückzuführen sind
- Lineare Modell= Eine abhängige Variable gleichzeitig durch mehrere unabhängige Variablen zu erklären bzw.
vorherzusagen; Erweiterung der einfachen Regression; Das lineare Modell ist ein Verfahren der multivariaten Sta-
tistik
• Ermittelt in welchem (prozentualem) Ausmaß sich die abhängige Variable durch die einzelnen unabhängigen Va-
riablen erklären bzw. vorhersagen lässt
2.4. Inferenzstatistik
- Inferenzstatistik= Generalisierung der Ergebnisse aus Stichproben auf die Population; Grundlegende Aufgabe der
Inferenzstatistik:
- Schätzung bestimmter Kenngrößen der Verteilung von Merkmalen in der Population (=Parameter); Prozentualer
Anteil der Population stellt dann den Parameter
• Punktschätzung= Schätzung des Parameters aufgrund der Stichprobendaten; Behaftet mit einer gewissen Unsi-
cherheit
• Vertrauensintervalle= Enthalten mit einer bestimmten (vorher festgelegten) Wahrscheinlichkeit die Parameter
- Hypothesentestung:
• Empirische Studien aufgebaut auf vorher aufgestellte Vermutungen bzw. Hypothesen, die es zu überprüfen gilt
• Statistische Testverfahren erlauben anschließend eine Entscheidung über Hypothesen zu treffen: Aufrechterhalten
oder Verwerfen der Gültigkeit einer Hypothese
• Wahrscheinlichkeitstheorie: Unabdingbare Voraussetzung für die Schätz- und Testverfahren
- Statistische Power: Zur Berechnung hinreichend großer Stichproben
3. Klassifikation von Daten
- Wichtiges Kriterium für die Verfahrens-Entscheidung: Informationsgehalt der zu analysierenden Variablen
- Bsp.: Geschlecht und Größe
• Größe:
o Kann anhand eines Zentimetermaßes eine bestimmte Zahl zugeordnet werden
o Unterschiedliche Größen (d.h. verschieden Merkmalsausprägungen) → unterschiedliche Zahlen
o Anhand dieser Zahlen: Größe in Rangfolge bringen, Differenz der Größe zweier Personen bilden
• Geschlecht:
o Besitzt lediglich die beiden Ausprägungen: männlich und weiblich
o Ausprägungen können mit Begriffen (männlich – m, weiblich – w) oder mit Symbolen (z.B. Zahlen: männlich –
1, weiblich – 2) bezeichnet werden
o Anhand der Zahlen können keine Rangreihen oder Unterschiede zwischen den beiden Zahlen interpretiert wer-
den
- Verschiedene Formen der Klassifikation von Variablen:
• Skalenniveau
• Quantitative und qualitative Variablen
• Diskrete und stetige Variablen
3.1. Das Skalenniveau einer Variablen
- Skala= Ergebnis einer Messung und basiert auf Messvorschrift zur Erhebung von Daten
- Skalenniveau= gibt Informationsgehalt eine Messung an
- Messung= (hierbei) gesamter Vorgang von Beobachtung empirischer Sachverhalte → Zuordnung von Symbolen
bzw. Zahlen zu den interessierenden Aspekten der empirischen Sachverhalte
- Skala (Sozial- und Erziehungswissenschaften) = Bereich der Werte einer Variable
- Informationsgehalt der Skalenniveaus (von höchstem zum niedrigsten):
• Ratioskalenniveau > Intervallskalenniveau > Ordinalskalenniveau > Nominalskalenniveau
3
, 3.1.1. Ratioskalenniveau
- Ratioskalierte Variablen haben den höchsten Informationsgehalt; Können fast ohne Einschränkungen für alle sta-
tistischen Kennzahlen und Verfahren verwendet werden
- Wesentliche Merkmale einer Ratioskala
• Für jeden Wert einer Ratioskala lässt sich bestimmen, wie häufig er in einer Stichprobe vorkommt
• Eine Ratioskala hat einen sinnvoll zu interpretierenden absoluten Nullpunkt
• Die Werte einer Ratioskala lassen sich der Größe nach ordnen
• Mit den Werten einer Ratioskala lassen sich sinnvoll Differenzen bilden
• Mit den Werten einer Ratioskala lassen sich sinnvoll Quotienten bilden
• Eine Ratioskala ist eindeutig bis auf Ähnlichkeitstransformationen der Form 𝑓(𝑥) = 𝑏 ∗ 𝑥 (mit b > 0)
• Merksatz: Die Ratioskala kann sich als ein Gummiband vorgestellt werden, das Striche und Zahlen für Messein-
heiten besitzt und an einem Ende an einem festen Punkt (dem Nullpunkt) befestigt ist
3.1.2. Intervallskalenniveau
- Intervallskalen haben den zweit höchsten Informationsgehalt
- Wesentliche Merkmale einer Intervallskala
• Für jeden Wert einer Intervallskala lässt sich bestimmen, wie häufig er in einer Stichprobe vorkommt
• Eine Intervallskala hat KEINEN sinnvoll zu interpretierenden absoluten Nullpunkt
• Mit den Werten einer Intervallskala lassen sich sinnvoll Differenzen bilden
• Mit den Werten einer Intervallskala lassen sich NICHT sinnvoll Quotienten bilden
• Eine Intervallskala ist eindeutig bis auf positive Transformationen der Form 𝑓(𝑥) = 𝑎 + 𝑏 ∗ 𝑥 (mit b > 0)
4
Alle Vorteile der Zusammenfassungen von Stuvia auf einen Blick:
Garantiert gute Qualität durch Reviews
Stuvia Verkäufer haben mehr als 700.000 Zusammenfassungen beurteilt. Deshalb weißt du dass du das beste Dokument kaufst.
Schnell und einfach kaufen
Man bezahlt schnell und einfach mit iDeal, Kreditkarte oder Stuvia-Kredit für die Zusammenfassungen. Man braucht keine Mitgliedschaft.
Konzentration auf den Kern der Sache
Deine Mitstudenten schreiben die Zusammenfassungen. Deshalb enthalten die Zusammenfassungen immer aktuelle, zuverlässige und up-to-date Informationen. Damit kommst du schnell zum Kern der Sache.
Häufig gestellte Fragen
Was bekomme ich, wenn ich dieses Dokument kaufe?
Du erhältst eine PDF-Datei, die sofort nach dem Kauf verfügbar ist. Das gekaufte Dokument ist jederzeit, überall und unbegrenzt über dein Profil zugänglich.
Zufriedenheitsgarantie: Wie funktioniert das?
Unsere Zufriedenheitsgarantie sorgt dafür, dass du immer eine Lernunterlage findest, die zu dir passt. Du füllst ein Formular aus und unser Kundendienstteam kümmert sich um den Rest.
Wem kaufe ich diese Zusammenfassung ab?
Stuvia ist ein Marktplatz, du kaufst dieses Dokument also nicht von uns, sondern vom Verkäufer ArminL. Stuvia erleichtert die Zahlung an den Verkäufer.
Werde ich an ein Abonnement gebunden sein?
Nein, du kaufst diese Zusammenfassung nur für 14,99 €. Du bist nach deinem Kauf an nichts gebunden.