College 2
Stof: hoofdstuk 1 Moore, McCabe, Craig
- Statistiek: gaat over het begrijpen van data, wat je moet doen om dat goed in kaart te kunnen
brengen & hoe je beslissingen kan maken op basis van data
- Datasets bestaan uit:
Case / unit: subjecten( deelnemers onderzoek) of objecten (dingen die je beschrijft) in een
dataset
Variabelen: kenmerk van een case, kan verschillende waarden aannemen voor verschillende
cases of units
Label: speciaal soort variabele, wordt gebruikt om uniek punt deelnemer te beschrijven,
bijvoorbeeld leerling nummer & naam
- Categorische / kwalitatieve variabele
Leeftijdsgroep (kleuter, puber, volwassene)
Plaats in een gezin ( jongste, middelste, oudste)
LVS Citoscore (A t/m D)
- Kwantitatieve variabele, een getal
Leeftijd (1 jaar)
Aantal kinderen in een gezin ( 0 -4 )
Percentage dat toelatingstoets haalt (99%)
IQ-score
Eindscore cito (501-550)
- Binnen categorische variabelen zijn er verschillende meetniveaus
Nominaal (categorisch): geen volgorde, geen meeteenheid en geen nulpunt (bijvoorbeeld
sekse)
Ordinaal (categorisch): wel een volgorde, geen meeteenheid en geen nulpunt (bv. SES as
laag, middel, hoog)
- Binnen kwantitatieve variabele verschillende meetniveaus
Interval (kwantitatief): wel een volgorde, wel een meeteenheid, geen vast nulpunt (gelijke
afstanden tussen de intervallen: bijv. temperatuur)
Ratio (kwantitatief): wel een volgorde, wel een meeteenheid, en een vast nulpunt (bijv.
leeftijd)
- Variabele
Discreet: waarden bestaan uit gehele getallen
Continu: waarden bestaan tussen 2 meetpunten
Nominaal ordinaal interval ratio
Minst precies meest precies
- Data worden gebruikt om onderzoeksvragen te beantwoorden
Datasets: wie, wat , waarom
Verdeling van data (distributions)
- Verdelingen: verschillende weergaven
Bekijk variabelen afzonderlijk. Kijk dan eventueel naar samenhang tussen variabelen
Begin met een grafische weergave. Geef daarna numerieke samenvatting van de data
De verdeling van een variabele geeft aan welke waarden voorkomen en hoe vaak deze
voorkomen
, Verdelingen kun je grafisch weergeven. Deze keuze voor weergave hang af van het soort
variabele
Nominaal / ordinaal niveau: cirkeldiagram & staafdiagram
Interval / ratio: histogram / steelblad
- Bij een verdeling van een nominale / ordinale variabele worden de categorieën aangegeven
plus tellingen of proporties per categorie
Taart diagram (cirkeldiagram) : nadeel je moet alle categorieën kennen
Staafdiagrammen flexibeler
- Kwantitatieve: verschillende weergaven histogram of steelbladdiagram
Je kan ook splitsen bij SBD 2 regels voor 10-tallen
Nadeel SBD: bij grote aantallen al snel onoverzichtelijk daarom histogram gebruiken
Histogram: geeft snel veel informatie over de data
Verdeling van scores, spreiding:
Scheef naar links: relatief veel scores in hoge waardes ( bij links), staart ligt links, vrij
weinig scores aan lage kant
rechts : relatief veel lage scores
Symmetrisch: gaat gelijk op
- Centrummaten: modus, mediaan, gemiddelde
Modus = meest voorkomende score
Mediaan = middelste score
(n+1) / 2
Oneven aantallen: 1 getal
Even aantallen: bv. 5.5 gemiddelde van 5 en 6
Gemiddelde = x1 + x 2 … + xn : n
Alle getallen bij elkaar optellen, delen door aantal deelnemers
Griekse teken : Sigma xgem = 1: n sigmaXi
- Boxplot
- Weergave emperische verdeling (v.a. Ordinaal):
1e kwartiel 25 %
Mediaan = 50 %
3e kwartiel = 75 %
Interkwartiel range (IQR)= verschil 3e en 1e kwartiel (outliers: -1.5 x IQR -- + 1.5 x IQR)
Minimum & maximum
Outlier: Q3 + 1.5*IQR
Outlier: Q1 – 1.5 * IQR
- 5 number summary: min, Q1,M (Q2), Q3, Max
1. Sorteer de data
- Variantie = mate waarin warden onderling verschillen, kan je berekenen voor kwantitatieve
variabelen (interval, ratio)
Standaard deviatie: gemiddelde afwijking of spreiding rondom het gemiddelde
Alleen gebruikt als gemiddelde als centrummaat gekozen is
Beïnvloedbaar door outliers
Formule: in tabel zetten!
1. Gemiddelde berekenen
2. Afwijking berekenen getal – gemiddelde
3. Afwijking in het kwadraat ^2
4. Alle scores stap 3 optellen en delen door aantal scores – 1
5. Standaarddeviatie berekenen: getal stap 4 worteltrekken
- Kansdichtheidsfuncties: kwantitatieve variabels
, Voorbeeld: histogram van taalscores
Over een histogram kan een smooth curve getekend worden van een mathematisch model
Verschillende soorten
- Dichtheidsfunctie
Beschrijft het patroon van de verdeling
Bevind zich op de horizontale as
Oppervlakte onder dichtheidsfunctie is 1
Oppervlakte = proportie (kans)
- Normale verdelingen
Alle normale verdelingen zijn symmetrisch, met een piek en bel-vormig
Dichtheid van normale distributie wordt bepaald door het gemiddelde (u met stokje), en de
standaarddeviatie σ N (u, σ)
Handige eigenschappen van de normaalcurve:
Geeft vaak goede beschrijving van echte data
Geeft een goede benadering van resultaten die worden verkregen op basis van kans
(waar we in de statistiek gebruik van maken)
Statistische conclusies gelden ook voor andere grofweg symmetrische verdelingen
Voor een normale verdeling met een gemiddelde (u) en standaarddeviatie σ
68 % van de observatie bevinden zich tussen sigma σ en u
96 % ligt tussen 2 σ en u (standaarddeviatie
99.7 van observatie ligt tussen 3 σ en u
Scores vergelijken in termen van afwijking van het
gemiddelde (Z-scores, geeft aan hoeveel een getal boven of onder het gemiddelde ligt ) en
bijbehorende kansen ( uitgaande van een normaalverdeling)
Standaarddeviatie: trek een score het gemiddelde van de verdeling af en deel het door de
standaarddeviatie
Z=x–u:σ
Standaard normale distributie is een normale verdeling met u = o en σ = 1 (N=0,1)
Alle nominale verdelingen zijn hetzelfde als we standaardiseren, zo kunnen we oppervlakte (
en ook proporties) bekijken in een tabel
Elke cel van de tabel geeft de oppervlakte aan de linkerkant van de verdeling met een
bepaalde Z-waarde
0.003 % van de gevallen….
Voorbeeld opgave: je haalt voor het M&T onderdeel van de toelatingstoets een 6.7. Het gemiddelde is 5.5
en de SD is 1.481. Wat is de proportie studenten die een 6.7 of lager heeft gehaald als je uitgaat van een
normale verdeling van de scores?
Z -score = (6.7-5.5)/ 1.481 = 0.81
Zie tabel A voor P (z < 0.7910)
Dus 0.791 (79.1 %) van de studenten heeft een 6.7 of lager gehaald
, College 3
Stof: H2 MMC, H5 passer
Relaties tussen variabelen
- Verband / relatie tussen 2 variabelen
Vraag: als X verandert, wat doet Y dan?
Voorbeeld: als je meer bladzijden uit het boek leest, wat doet dat met het cijfer voor de
toets?
- Manieren* om relaties tussen 2 variabelen weer te geven:
Twee-wegs tabel (categorische variabelen)
Scatterplot ( 2 kwantitatieve continue variabelen)
Correlatie
Regressie slaan we over
- Kruistabellen: relatie tussen 2 categorische variabelen (two-way-table)
Two-way tables / crosstabs
Kolommen: van boven naar beneden
Rijen: van links naar rechts
Cellen: voor verschillende waarden
Marginalen: randen van de kolommen of rijen
- 3 soorten verdelingen
- Joint distribution: alle cellen = 100 % .
- Marginal distribution: marginalen per categorie van rij / kolom = 100 %
- Conditional distribution/ verdeling: cellen per rij / kolom = 100%.
Conclusie aan verbinden
Scatterplot
- Relatie tussen 2 kwantitatieve continue variabelen
X-as onafhankelijke variabele (explanatory / predictor / independent)
Y-as afhankelijke variabele (response / dependent)
- De afhankelijke variabele is de variabele waarover je een voorspelling doet of de uitkomst van
je meting.. Een voorbeeld is intelligentie. Je kunt dan onderzoeken welke factoren
(onafhankelijke variabelen) invloed hebben op intelligentie (de afhankelijke variabele). In weze
hangt de uitkomst van de afhankelijke variabele dus af van andere variabelen (vandaar de
naam).
- De onafhankelijke variabele is een factor waarvan je gaat meten of deze een verandering
veroorzaakt bij de afhankelijke variabele.. Als men bijvoorbeeld een onderzoek wilt doen over
de invloed van het drinken van alcohol op tentamenresultaten, is de onafhankelijke variabele de
hoeveelheid alcohol en de afhankelijke variabele het tentamenresultaat.
- Response: meet de uitkomst van een studie = afhankelijk
- Explanatory: legt de oorzaken van de veranderingen van de response uit
- Vragenlijst voor alle mensen om te weten hoeveel uur ze hebben geslapen en welke score ze
hun stemming geven
Explanatory: uren slaap
Response: stemming
- Vorm
Lineair
Hoe dichter de punten bij de lijn liggen, hoe sterker het verband
Richting positief / negatief?
Lage waarde gaat samen met lage waarde op het andere = negatief
Hoge waarde gaat samen met hoge waarde = positief
Sterkte (hoe duidelijk is het verband)?