Samenvatting - Statistiek van de sociale wetenschappen
42 views 2 purchases
Course
Statistiek van de sociale wetenschappen (S0A17E)
Institution
Katholieke Universiteit Leuven (KU Leuven)
'Beknopte' samenvatting/overzicht van de belangrijkste topics uit Statistiek voor sociale wetenschappen. Gedoceerd door Cecil Meeusen, van academiejaar .
Meetniveau Kenmerken
Nominaal Bv: geslacht = {man, vrouw}
- Niet te interpreteren in ‘meer’, ‘minder’, …
- Verschil in waarden is e kwalitatief verschil
- Eindig, exhaustief en exclusief: elke obs hoort in één categorie
o 2 mogelijke cat = dichotome meetschaal
Ordinaal Bv: = {nooit, af en toe, vaak, altijd}
- Kunnen wel geordend w, of geïnterpreteerd w in termen van ‘meer’,
‘minder’, ‘hoger’, ‘lager’, …
- Likert-schaal
Interval Bv: Temperatuurschaal
- Kwantificeerbare meeteenheid
- Nulpunt is arbitrair, waardoor verhoudingen betekenisloos zijn
- Wiskunde bewerkingen zoals optellen en aftrekken kunnen w
uitgevoerd, maar door het arbitrair nulpunt zijn delingen en
multiplicaties niet mogelijk
Ratio Bv: ‘aantal kinderen’
- Kwantificeerbare meeteenheid
- Nulpunt is bepaald: absoluut nulpunt verhoudingen tss waarden
zijn betekenisvol
- Alle wiskundige bewerkingen zijn mogelijk
Data cleaning = fouten worden verwijderd en er wordt een plan bedacht om met missende waarden om te
gaan
Wet van de grote aantallen = hoe groter n, hoe groter de nauwkeurigheid
Symmetrische samenhang = variabelen variëren samen
Assymmetrische samenhang = de verklarende variabele heeft een invloed/effect op de te verklaren
variabele
Geobserveerde manifeste variabele = rechtstreeks waargenomen bij onderzoekseenheid
1
,Latente variabele = niet rechtstreeks waargenomen, wel latent aanwezig, bv nostalgie adhv Likert schaal
Samennemen van manifeste indicatoren om latent construct te meten = operationaliseren ve concept
Hoofdstuk 2: Frequentieverdelingen
Kwalitatief
Cumulatieve frequentie grafisch weergeven via trapfunctie
Kwantielfunctie is de inverse functie van de cumulatieve verdelingsfunctie
Kwantitatief
Discrete variabele = absolute freq bep door aantal keer dat de uitkomst voorkomt
Continue variabele = elke uitkomst is uniek, absolute en relatieve freq zijn zinloos, cumulatieve freq niet
+ kwantielfunctie: zoeken welke uitkomst overeenkomt met de proportie (inverse v cumulatieve functie)
Q(0.25) = 1e kwartiel Q(0.50) = 2e kwartiel/mediaan Q(0.75)= 3e kwartiel
Uitschieters = waarden die ver verwijderd zijn van overige variabelen (kunnen sterke invloed hebben!)
Extreme uitschieters vallen dus buiten het interval:
̂̂
̂̂ [𝑄(0.25) − 3 (𝑄(0.75) − 𝑄(0.25)) , 𝑄(0.75) + 3 (𝑄(0.75) − 𝑄(0.25))]
̂̂̂
Gewone uitschieters kunnen als volgt bepaald worden: ̂̂̂
Groeperen in klassen: we gaan van een kwanti var, een ordinale maken door klassen te creëren
Dia 9 les 4!!! Belangrijk: positie haken bij discrete en continue variabelen!
𝐾𝑙𝑎𝑠𝑠𝑒𝑛𝑏𝑟𝑒𝑒𝑑𝑡𝑒 ∆ = (𝐵𝑜𝑣𝑒𝑛𝑔𝑟𝑒𝑛𝑠 − 𝑜𝑛𝑑𝑒𝑟𝑔𝑟𝑒𝑛𝑠) + 1
(𝐵𝑜𝑣𝑒𝑛𝑔𝑟𝑒𝑛𝑠 + 𝑜𝑛𝑑𝑒𝑟𝑔𝑟𝑒𝑛𝑠) /2
𝐾𝑙𝑎𝑠𝑠𝑒𝑛𝑚𝑖𝑑𝑑𝑒𝑛 𝑚𝑗 =
Histogram: klassenbreedte w gebruikt om discrete var met groot bereik weer te geven in klassen, dus als
klassen niet gelijk verdeeld zijn > verschillende breedtes staven, kijken naar opp (staafdiagram alle staven
gelijk!)
De y-as geeft bij e histogram niet de abs of relatieve freq weer, maar wel de frequentiedichtheid.
fj
Hj =
∆j
Frequentiedichtheid = relatieve frequentie vd klasse/ overeenkomstige klassenbreedte
= de hoogte vd staven geven de frequentiedichtheid weer
Je kan de oppervlakte van de staven gebruiken om een idee te krijgen vh aandeel vd klasse in het geheel:
klassenbreedte X frequentiedichtheid = aandeel (dus uitkomst = …% van … bevindt zich in interval …)
Dichtheidscurve: visuele weergave frequentiedichtheden histogram, opp onder curve is 1
2
, Verdelingen:
Normale verdeling = meest symmetrische verdeling
Asymmetrische verdelingen:
- Rechtsscheef
- Linksscheef
Hoofdstuk 3:
Centrummaten
Modus = waargenomen waarde die het meeste voorkomt
Bij klassen is dit de klasse met de hoogste frequentie (=modale klasse), de modus is dan gelijk aan
het klassenmidden van de hoogste klasse
Mediaan = de waarde vd middelste eenheid bij een geordende steekproef, verschil indien n even of oneven!
Gemiddelde = som van scores gedeeld door aantal onderzoekseenheden (niet robuust, zie dia 53)
Gewogen gemiddelde: elke waargenomen waarde krijgt een gewicht toegewezen (dia 45, les 4!)
Onderzoekers hebben bij een bevraging ontdekt dat mannen gemiddeld 2 uur en 7 minuten per dag hun smartphone
gebruiken, bij vrouwen ligt dat gemiddelde op 2 uur en 28 minuten. De dataset bestaat uit 35% vrouwen
en 65% mannen. Onderzoekers vragen zich nu af wat het totale gemiddelde is voor alle bevraagden in de steekproef.
x¯=127⋅0.65+148⋅0.35=82.55+51.8=134.35
Getrimd gemiddelde: robuuste versie, er wordt een vast percentage van de kleinste en grootste
gegevens weggelaten bij de berekening van het gemiddelde zo hebben uitschieters minder impact
op het gemiddelde
Spreidingkenmerken = drukken uit hoe uitkomsten zich verhouden tot het centrum
Bereik = Xmax – Xmin, bij klassen: bgr hoogste klasse – ogr laagste klasse
Kwantielafstanden = kwantielen verdelen freq verdeling in een aantal gelijke stukken
- Decielen = 10 gelijke delen van 10%
- Kwartielen = 4 gelijke delen van 25%
- Interkwartielafstand = gebied rond mediaan dat 50% vd obs bevat, IQR = Q3 – Q1
- Interdecielafstand = gebied rond mediaan dat 80% vd obs bevat, D = D9 – D1
Variantie s2 = gem vd som vd gekwadrateerde deviatiescores
Deviatiescore = verschilscore; som vd verschilscores is altijd 0 daarom kwadrateren
Variatie v = de soms van de gekwadrateerde deviatiescores
variatie
Variantie =
n–1
Standaardafwijking/-deviatie s = vierkantswortel vd variantie
Veel gegevens of klassen: ( mj−gemiddelde )2∗absolute OF relatieve freq (rf: delen door n-1)
Interpretatie: handig om spreiding tss groepen te vgl & indien normaal verdeeld:
°68% vd geg in interval: [gem – 1 * s ; gem + 1 * s]
°95% vd geg in interval: [gem – 1,96 * s ; gem + 1,96 * s]
Vormmaten
Verdelingsvormen
Obv hoe mediaan en gemiddelde zich tov elkaar verhouden, kan je iets zeggen over de verdeling ve var:
- Symmetrische verdeling: gem en med vallen quasi gelijk
3
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller nonageubbelmans. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $5.98. You're not tied to anything after your purchase.