100% satisfaction guarantee Immediately available after payment Both online and in PDF No strings attached
logo-home
Zusammenfassung - Statistik 1 - Wahrscheinlichkeitstheorien und Deskriptive Statistik $16.13
Add to cart

Summary

Zusammenfassung - Statistik 1 - Wahrscheinlichkeitstheorien und Deskriptive Statistik

 123 views  4 purchases
  • Course
  • Institution

Zusammenfassung - Reflexionsaufgaben + Lösungen - Notation - Glossar. Das Dokument fasst die Inhalte aus den Fernlehrbriefen "Statistik 1 -Wahrscheinlichkeitstheorien und Deskriptive Statistik " komprimiert und detailiert zusammen und dient der optimalen Klausurvorbereitung. Die Punkte "Softwa...

[Show more]
Last document update: 7 months ago

Preview 4 out of 194  pages

  • April 16, 2024
  • April 24, 2024
  • 194
  • 2023/2024
  • Summary
avatar-seller
Statistik Ⅰ – Deskriptive Verfahren Ⅰ – Grundlagen

1. Zur Relevanz der Statistik
1.1. Beispiel 1: Die Wahrscheinlichkeit, krank zu sein, bei einer positiven Diagnose eines recht exakten Tests
- Beispiel Test:
• Bei vorliegender Krankheit, besitzt der Test eine 100% Genauigkeit
• Bei keiner vorliegender Krankheit, besitzt der Test eine 95.24% Genauigkeit
- Viele Menschen gehen dabei davon aus, dass bei einer solchen positiven Diagnose eine sehr hohe Wahrscheinlich-
keit besteht erkrankt zu sein → Tatsächliche Wahrscheinlichkeit bei positivem Testresultat erkrankt zu sein: 5%
• Fehleinschätzung der Menschen hängt mit den ursprünglich zur Verfügung gestellten Informationen zusammen
(0% und 4.8% Fehlerquoten)
- Angaben zur Genauigkeit eines Testverfahrens:
• Sensitivität:
o Wahrscheinlichkeit der Diagnose „krank“ unter der Bedingung „erkrankt“
o Anteil aller erkrankten Personen, die die richtige Diagnose erhalten; Betrachtet die Teilmenge der erkrankten
Personen
• Spezifität:
o Wahrscheinlichkeit der Diagnose „gesund“ unter der Bedingung „gesund“
o Anteil aller richtig diagnostizierten Personen unter den gesunden Personen; Betrachtet die Teilmenge der gesun-
den Personen

1.2. Beispiel 2: Nationale Herkunft und Schulversagen
- Ökologischer Fehlschluss: Fehlinterpretation beruhen auf aggregierten Daten → Daten wurden auf einer bestimm-
ten Ebene zusammengefasst (z.B. Länder-, Schul- oder Klassenebene)
- Beruht auf einer Studie von Robertson (1950)
• Basierend auf Daten einer Volkszählung von 1930 in den USA
• Berechneter Zusammenhang (von den 48-US-Bundesstaaten) zwischen der Quote an Immigranten (prozentualer
Anteil) und der Quote an Analphabeten
• Fehlinterpretation mit der Schlussfolge: höhere Wahrscheinlichkeit für Analphabetismus unter Immigranten →
Tatsächliche Quote der Analphabeten war bei Immigranten geringer als bei den in den USA geborenen Personen
- Fehlinterpretationen entstehen, wenn Zusammenhänge unzulässigerweise von einer Aggregationsebene auf eine
andere Aggregationsebene übertragen wird

1.3. Beispiel 3: Zulassung zum Studium in Abhängigkeit vom Geschlecht
- Simpson Paradox (Edward Simpson, 1951): Bei statistischen Analysen muss der Einfluss von Drittvariablen be-
rücksichtigt werden. Bestimmte Fragestellung erfordern eine Aufteilung der ursprünglichen Daten in einer bestimm-
ten Weise
• Bsp. Edward Simpson:
o Juristische/Politische Auseinandersetzung aufgrund einer „vermeintlich“ höheren Zulassungsquote für Männer
o Aufteilung bei der Zulassungsquote zum Graduiertenstudium nur nach männlich/weiblich betrachtet, statt die
Aufteilung in die einzelnen Fachbereiche zu berücksichtigen
o Vorwürfe der Diskriminierung nicht haltbar

1.4. Beispiel 4: Studiendauer und Einstiegsgehalt
- Fehlinterpretationen beim Betrachten vom Zusammenhang zweier Merkmale ohne Berücksichtigung des Einflusses
weiterer Merkmale
- Korrelation= gemeinsamer Einfluss zweier Merkmale auf ein Kriterium:
• Bsp. (Krämer, 2009): Vermeintlicher positiver Zusammenhang der Höhe des Einstiegsgehalts in Abhängigkeit zur
Studiendauer; Bei getrennter Betrachtung der einzelnen Studienfächer (BWL, Physik und Chemie) zeigt sich ein
negativer Zusammenhang
• Kriterium (Einstiegsgehalt) = Merkmal (Studiendauer) + Merkmal (Studienfach)

1

,2. Grundbegriffe und Aufgaben der Statistik
2.1. Daten
- Datenmatrix= enthält Ausprägungen der erhobenen Merkmale einer Person (o. anderen statistischen Einheit)
• Z.B. Geschlecht, Körpergewicht, IQ etc.
• Zeile in Datenmatrix: Werte aller erhobenen Variablen für bestimmte statistische Einheiten
• Spalte eine Datenmatrix: enthält die Werte einer Variablen für alle statistischen Einheiten; Reihenfolge der Vari-
ablen ist für jede statistische Einheit identisch
- Einheiten/Untersuchungseinheiten = statistische Einheiten = Merkmalsträger
• In der Psychologie häufig Personen; Auch Organisationen/Organisationseinheiten (z.B. Universitäten oder Fach-
bereiche); Statistische Einheiten können auch Zeitpunkte sein
- Merkmal= z.B. Geschlecht, Körpergewicht, IQ einer statistischen Einheit
• Variable= Ein Merkmal mit unterschiedlichen (mind. zwei) Ausprägungen
• Konstante= Ein Merkmal mit nur einer Ausprägung
- Merkmalsausprägungen = Variablenwerte = Ausprägungen = Werte
- Beobachtungen = an statistischen Einheiten erhobene Merkmalsausprägungen

2.2. Stichprobenziehung
- Population/Grundgesamtheit= bestimmte vorher definierte Menge statistischer Einheiten bei empirischen Studien
• Z.B.: Bewohner einer Stadt, Mitglieder einer Universität
- Vollerhebung= Bei einer kleinen Population können alle Mitglieder einer Population in eine Untersuchung einbe-
zogen werden
• Aus ökonomischen Gründen wenig sinnvoll (Aufwand, Menge an Daten)
- Stichprobe= Eine Auswahl der Mitglieder einer Population; Verschiedene Methoden zur Auswahl der Mitglieder
einer Stichprobe:
• Einfache Zufallsstichprobe= Jedes Mitglied der Population hat die gleiche Chance in die Stichprobe aufgenom-
men zu werden
• Geschichtete Zufallsstichprobe= Population wird in einzelne Schichten (Teilpopulationen) unterteilt → aus die-
sen Teilpopulationen werden einfache Zufallsstichproben gezogen
o Sinnvoll, wenn die einzelnen Teilpopulationen miteinander vergleichen sollen
• Quotenstichprobe= Stichprobe wird hinsichtlich der für die Fragestellung wichtigen Merkmale so zusammenge-
stellt, dass sie ein repräsentatives Abbild der Population darstellt
o Z.B.: Übereinstimmen der Stichprobe hinsichtlich der Merkmale Geschlecht, Alter, Bildung etc. mit der Popu-
lation; Häufig eingesetzt in Marktforschungen
o Die prozentualen Anteile der Kombination aus verschiedenen Merkmalen werden ermittelt und als Quote der
Stichprobe vorgegeben → Erheben so vieler statistische Einheiten bis die Quote erfüllt ist
• Convenience sampling= Einbezug solcher Mitglieder einer Population in die Stichprobe, die relativ einfach zu
erreichen sind
- Repräsentative Stichprobe= Daten der Stichprobe erlauben angemessene Aussagen über die zugrundeliegende
Population; Stichprobe soll für die relevanten Merkmale ein verkleinertes Abbild der Population darstellen

2.3. Deskriptive Statistik
- Deskriptive Statistik= Beschreibung einzelner oder mehrerer Variablen anhand von Tabellen, Grafiken und Koef-
fizienten
• Kennwerte/Maße für:
o Mittlere Ausprägung der Messwerte (z.B. Mittelwert)
o Unterschiedlichkeit bzw. Streuung einzelner Messwerte
- Univariate Statistik= separate Beschreibung einzelner Variablen
- Bivariate Statistik= gemeinsame Betrachtung zweier Variablen
• Für die gemeinsame Darstellung von zwei Variablen gibt es verschiedene grafische und tabellarische Darstel-
lungsformen; Reihe von Koeffizienten zur Erfassung des Grades des statistischen Zusammenhangs zweier Vari-
ablen

2

,- Einfache Regression (Verfahren der bivariaten Statistik): Eine Variable (abhängige Variable, AV) wird durch
eine andere Variable (unabhängige Variable, UV) erklärt und optimal vorhergesagt
• Klärung inwiefern Unterschiede in der abhängigen Variable auf Unterschiede in der unabhängigen Variable zu-
rückzuführen sind
- Lineare Modell= Eine abhängige Variable gleichzeitig durch mehrere unabhängige Variablen zu erklären bzw.
vorherzusagen; Erweiterung der einfachen Regression; Das lineare Modell ist ein Verfahren der multivariaten Sta-
tistik
• Ermittelt in welchem (prozentualem) Ausmaß sich die abhängige Variable durch die einzelnen unabhängigen Va-
riablen erklären bzw. vorhersagen lässt

2.4. Inferenzstatistik
- Inferenzstatistik= Generalisierung der Ergebnisse aus Stichproben auf die Population; Grundlegende Aufgabe der
Inferenzstatistik:
- Schätzung bestimmter Kenngrößen der Verteilung von Merkmalen in der Population (=Parameter); Prozentualer
Anteil der Population stellt dann den Parameter
• Punktschätzung= Schätzung des Parameters aufgrund der Stichprobendaten; Behaftet mit einer gewissen Unsi-
cherheit
• Vertrauensintervalle= Enthalten mit einer bestimmten (vorher festgelegten) Wahrscheinlichkeit die Parameter
- Hypothesentestung:
• Empirische Studien aufgebaut auf vorher aufgestellte Vermutungen bzw. Hypothesen, die es zu überprüfen gilt
• Statistische Testverfahren erlauben anschließend eine Entscheidung über Hypothesen zu treffen: Aufrechterhalten
oder Verwerfen der Gültigkeit einer Hypothese
• Wahrscheinlichkeitstheorie: Unabdingbare Voraussetzung für die Schätz- und Testverfahren
- Statistische Power: Zur Berechnung hinreichend großer Stichproben

3. Klassifikation von Daten
- Wichtiges Kriterium für die Verfahrens-Entscheidung: Informationsgehalt der zu analysierenden Variablen
- Bsp.: Geschlecht und Größe
• Größe:
o Kann anhand eines Zentimetermaßes eine bestimmte Zahl zugeordnet werden
o Unterschiedliche Größen (d.h. verschieden Merkmalsausprägungen) → unterschiedliche Zahlen
o Anhand dieser Zahlen: Größe in Rangfolge bringen, Differenz der Größe zweier Personen bilden
• Geschlecht:
o Besitzt lediglich die beiden Ausprägungen: männlich und weiblich
o Ausprägungen können mit Begriffen (männlich – m, weiblich – w) oder mit Symbolen (z.B. Zahlen: männlich –
1, weiblich – 2) bezeichnet werden
o Anhand der Zahlen können keine Rangreihen oder Unterschiede zwischen den beiden Zahlen interpretiert wer-
den
- Verschiedene Formen der Klassifikation von Variablen:
• Skalenniveau
• Quantitative und qualitative Variablen
• Diskrete und stetige Variablen

3.1. Das Skalenniveau einer Variablen
- Skala= Ergebnis einer Messung und basiert auf Messvorschrift zur Erhebung von Daten
- Skalenniveau= gibt Informationsgehalt eine Messung an
- Messung= (hierbei) gesamter Vorgang von Beobachtung empirischer Sachverhalte → Zuordnung von Symbolen
bzw. Zahlen zu den interessierenden Aspekten der empirischen Sachverhalte
- Skala (Sozial- und Erziehungswissenschaften) = Bereich der Werte einer Variable
- Informationsgehalt der Skalenniveaus (von höchstem zum niedrigsten):
• Ratioskalenniveau > Intervallskalenniveau > Ordinalskalenniveau > Nominalskalenniveau

3

, 3.1.1. Ratioskalenniveau
- Ratioskalierte Variablen haben den höchsten Informationsgehalt; Können fast ohne Einschränkungen für alle sta-
tistischen Kennzahlen und Verfahren verwendet werden
- Wesentliche Merkmale einer Ratioskala
• Für jeden Wert einer Ratioskala lässt sich bestimmen, wie häufig er in einer Stichprobe vorkommt
• Eine Ratioskala hat einen sinnvoll zu interpretierenden absoluten Nullpunkt
• Die Werte einer Ratioskala lassen sich der Größe nach ordnen
• Mit den Werten einer Ratioskala lassen sich sinnvoll Differenzen bilden
• Mit den Werten einer Ratioskala lassen sich sinnvoll Quotienten bilden
• Eine Ratioskala ist eindeutig bis auf Ähnlichkeitstransformationen der Form 𝑓(𝑥) = 𝑏 ∗ 𝑥 (mit b > 0)
• Merksatz: Die Ratioskala kann sich als ein Gummiband vorgestellt werden, das Striche und Zahlen für Messein-
heiten besitzt und an einem Ende an einem festen Punkt (dem Nullpunkt) befestigt ist




- Beispiele für ratioskalierte Variablen:
• Gewicht
• Geschwindigkeit
• Körpergröße




3.1.2. Intervallskalenniveau
- Intervallskalen haben den zweit höchsten Informationsgehalt
- Wesentliche Merkmale einer Intervallskala
• Für jeden Wert einer Intervallskala lässt sich bestimmen, wie häufig er in einer Stichprobe vorkommt
• Eine Intervallskala hat KEINEN sinnvoll zu interpretierenden absoluten Nullpunkt
• Mit den Werten einer Intervallskala lassen sich sinnvoll Differenzen bilden
• Mit den Werten einer Intervallskala lassen sich NICHT sinnvoll Quotienten bilden
• Eine Intervallskala ist eindeutig bis auf positive Transformationen der Form 𝑓(𝑥) = 𝑎 + 𝑏 ∗ 𝑥 (mit b > 0)




4

The benefits of buying summaries with Stuvia:

Guaranteed quality through customer reviews

Guaranteed quality through customer reviews

Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.

Quick and easy check-out

Quick and easy check-out

You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.

Focus on what matters

Focus on what matters

Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!

Frequently asked questions

What do I get when I buy this document?

You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.

Satisfaction guarantee: how does it work?

Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.

Who am I buying these notes from?

Stuvia is a marketplace, so you are not buying this document from us, but from seller ArminL. Stuvia facilitates payment to the seller.

Will I be stuck with a subscription?

No, you only buy these notes for $16.13. You're not tied to anything after your purchase.

Can Stuvia be trusted?

4.6 stars on Google & Trustpilot (+1000 reviews)

53340 documents were sold in the last 30 days

Founded in 2010, the go-to place to buy study notes for 14 years now

Start selling
$16.13  4x  sold
  • (0)
Add to cart
Added