Alles herhalen
Hoofdstuk 1: meten en meetniveaus
Meetniveau Kenmerken
Nominaal Bv: geslacht = {man, vrouw}
- Niet te interpreteren in ‘meer’, ‘minder’, …
- Verschil in waarden is e kwalitatief verschil
- Eindig, exhaustief en exclusief: elke obs hoort in één categorie
o 2 mogelijke cat = dichotome meetschaal
Ordinaal Bv: = {nooit, af en toe, vaak, altijd}
- Kunnen wel geordend w, of geïnterpreteerd w in termen van ‘meer’,
‘minder’, ‘hoger’, ‘lager’, …
- Likert-schaal
Interval Bv: Temperatuurschaal
- Kwantificeerbare meeteenheid
- Nulpunt is arbitrair, waardoor verhoudingen betekenisloos zijn
- Wiskunde bewerkingen zoals optellen en aftrekken kunnen w
uitgevoerd, maar door het arbitrair nulpunt zijn delingen en
multiplicaties niet mogelijk
Ratio Bv: ‘aantal kinderen’
- Kwantificeerbare meeteenheid
- Nulpunt is bepaald: absoluut nulpunt verhoudingen tss waarden
zijn betekenisvol
- Alle wiskundige bewerkingen zijn mogelijk
Data cleaning = fouten worden verwijderd en er wordt een plan bedacht om met missende waarden om te
gaan
Wet van de grote aantallen = hoe groter n, hoe groter de nauwkeurigheid
Symmetrische samenhang = variabelen variëren samen
Assymmetrische samenhang = de verklarende variabele heeft een invloed/effect op de te verklaren
variabele
Geobserveerde manifeste variabele = rechtstreeks waargenomen bij onderzoekseenheid
1
,Latente variabele = niet rechtstreeks waargenomen, wel latent aanwezig, bv nostalgie adhv Likert schaal
Samennemen van manifeste indicatoren om latent construct te meten = operationaliseren ve concept
Hoofdstuk 2: Frequentieverdelingen
Kwalitatief
Cumulatieve frequentie grafisch weergeven via trapfunctie
Kwantielfunctie is de inverse functie van de cumulatieve verdelingsfunctie
Kwantitatief
Discrete variabele = absolute freq bep door aantal keer dat de uitkomst voorkomt
Continue variabele = elke uitkomst is uniek, absolute en relatieve freq zijn zinloos, cumulatieve freq niet
+ kwantielfunctie: zoeken welke uitkomst overeenkomt met de proportie (inverse v cumulatieve functie)
Q(0.25) = 1e kwartiel Q(0.50) = 2e kwartiel/mediaan Q(0.75)= 3e kwartiel
Uitschieters = waarden die ver verwijderd zijn van overige variabelen (kunnen sterke invloed hebben!)
Extreme uitschieters vallen dus buiten het interval:
̂̂
̂̂ [𝑄(0.25) − 3 (𝑄(0.75) − 𝑄(0.25)) , 𝑄(0.75) + 3 (𝑄(0.75) − 𝑄(0.25))]
̂̂̂
Gewone uitschieters kunnen als volgt bepaald worden: ̂̂̂
[𝑄(0.25) − 1.5 (𝑄(0.75) − 𝑄(0.25)) , 𝑄(0.75) + 1.5 (𝑄(0.75) − 𝑄(0.25))]
Groeperen in klassen: we gaan van een kwanti var, een ordinale maken door klassen te creëren
Dia 9 les 4!!! Belangrijk: positie haken bij discrete en continue variabelen!
𝐾𝑙𝑎𝑠𝑠𝑒𝑛𝑏𝑟𝑒𝑒𝑑𝑡𝑒 ∆ = (𝐵𝑜𝑣𝑒𝑛𝑔𝑟𝑒𝑛𝑠 − 𝑜𝑛𝑑𝑒𝑟𝑔𝑟𝑒𝑛𝑠) + 1
(𝐵𝑜𝑣𝑒𝑛𝑔𝑟𝑒𝑛𝑠 + 𝑜𝑛𝑑𝑒𝑟𝑔𝑟𝑒𝑛𝑠) /2
𝐾𝑙𝑎𝑠𝑠𝑒𝑛𝑚𝑖𝑑𝑑𝑒𝑛 𝑚𝑗 =
Histogram: klassenbreedte w gebruikt om discrete var met groot bereik weer te geven in klassen, dus als
klassen niet gelijk verdeeld zijn > verschillende breedtes staven, kijken naar opp (staafdiagram alle staven
gelijk!)
De y-as geeft bij e histogram niet de abs of relatieve freq weer, maar wel de frequentiedichtheid.
fj
Hj =
∆j
Frequentiedichtheid = relatieve frequentie vd klasse/ overeenkomstige klassenbreedte
= de hoogte vd staven geven de frequentiedichtheid weer
Je kan de oppervlakte van de staven gebruiken om een idee te krijgen vh aandeel vd klasse in het geheel:
klassenbreedte X frequentiedichtheid = aandeel (dus uitkomst = …% van … bevindt zich in interval …)
Dichtheidscurve: visuele weergave frequentiedichtheden histogram, opp onder curve is 1
2
, Verdelingen:
Normale verdeling = meest symmetrische verdeling
Asymmetrische verdelingen:
- Rechtsscheef
- Linksscheef
Hoofdstuk 3:
Centrummaten
Modus = waargenomen waarde die het meeste voorkomt
Bij klassen is dit de klasse met de hoogste frequentie (=modale klasse), de modus is dan gelijk aan
het klassenmidden van de hoogste klasse
Mediaan = de waarde vd middelste eenheid bij een geordende steekproef, verschil indien n even of oneven!
Gemiddelde = som van scores gedeeld door aantal onderzoekseenheden (niet robuust, zie dia 53)
Gewogen gemiddelde: elke waargenomen waarde krijgt een gewicht toegewezen (dia 45, les 4!)
Onderzoekers hebben bij een bevraging ontdekt dat mannen gemiddeld 2 uur en 7 minuten per dag hun smartphone
gebruiken, bij vrouwen ligt dat gemiddelde op 2 uur en 28 minuten. De dataset bestaat uit 35% vrouwen
en 65% mannen. Onderzoekers vragen zich nu af wat het totale gemiddelde is voor alle bevraagden in de steekproef.
x¯=127⋅0.65+148⋅0.35=82.55+51.8=134.35
Getrimd gemiddelde: robuuste versie, er wordt een vast percentage van de kleinste en grootste
gegevens weggelaten bij de berekening van het gemiddelde zo hebben uitschieters minder impact
op het gemiddelde
Spreidingkenmerken = drukken uit hoe uitkomsten zich verhouden tot het centrum
Bereik = Xmax – Xmin, bij klassen: bgr hoogste klasse – ogr laagste klasse
Kwantielafstanden = kwantielen verdelen freq verdeling in een aantal gelijke stukken
- Decielen = 10 gelijke delen van 10%
- Kwartielen = 4 gelijke delen van 25%
- Interkwartielafstand = gebied rond mediaan dat 50% vd obs bevat, IQR = Q3 – Q1
- Interdecielafstand = gebied rond mediaan dat 80% vd obs bevat, D = D9 – D1
Variantie s2 = gem vd som vd gekwadrateerde deviatiescores
Deviatiescore = verschilscore; som vd verschilscores is altijd 0 daarom kwadrateren
Variatie v = de soms van de gekwadrateerde deviatiescores
variatie
Variantie =
n–1
Standaardafwijking/-deviatie s = vierkantswortel vd variantie
Veel gegevens of klassen: ( mj−gemiddelde )2∗absolute OF relatieve freq (rf: delen door n-1)
Interpretatie: handig om spreiding tss groepen te vgl & indien normaal verdeeld:
°68% vd geg in interval: [gem – 1 * s ; gem + 1 * s]
°95% vd geg in interval: [gem – 1,96 * s ; gem + 1,96 * s]
Vormmaten
Verdelingsvormen
Obv hoe mediaan en gemiddelde zich tov elkaar verhouden, kan je iets zeggen over de verdeling ve var:
- Symmetrische verdeling: gem en med vallen quasi gelijk
3