Statistiek 1A - College Notities
Statistiek 1A
College 1 - 07-09-2020
M&M: §1.1 – §1.3 + § 5.1
Data
› Set met gegevens, dataset
▪ Cases: de objecten/subjecten die beschreven worden in de data
- Klanten, patiënten, bedrijven, personen, etc.
▪ Variabelen: een kenmerk van een case
- Leeftijd, lengte, inkomen, mate van stress, mate van depressie
▪ Verschillende cases kunnen verschillende waardes op de variabelen hebben
Variabelen
▪ Categorische variabele: een case behoort tot een van enkele verschillende groepen of categorieën
- Geslacht: man, vrouw
- Treatment group: controlegroep, behandelgroep
▪ Kwantitatieve variabele: neemt numerieke waardes aan waarbij uitkomsten van berekeningen zinvol te
interpreteren zijn
- Gemiddelde leeftijd
Variabelen
Specifiekere indeling = Meetniveau van een variabele
› Nominale schaal - Wijst waarneming toe aan ongeordende categorieën
▪ Geslacht, groep (controle, behandel), politieke partij
› Ordinale schaal - Wijst waarnemingen toe aan geordende categorieën
▪ Hoe goed ben jij in sport? Kies uit: erg slecht, voldoende, erg goed
Hoeveel sigaretten rook je per dag? Kies uit 0,1-2,3-6. 7 of meer = ordinaal (7 of meer hebt is het een te grote
groep om het toe te voegen bij ratio, dan is het niet zinvol genoeg, net als ‘nooit’, áltijd’, ‘anders’ …
› Interval/ratio schaal - Wijst scores toe op een schaal met kwantitatieve informatie
▪ De uitkomsten van berekeningen zijn zinvol te interpreteren
▪ De gemiddelde score op de test is 5.2
1
,Statistiek 1A - College Notities
Meetniveau’s van variabelen
› De gebruiker/onderzoeker kiest het meetniveau
▪ Algemeen: kies het hoogst mogelijk zinvolle (met betrekking tot de inhoud) meetniveau
› Het gekozen meetniveau bepaalt:
▪ Welke vragen zinvol te stellen zijn over de data
▪ Welke statistics zinvol zijn om te berekenen
▪ Welke grafische weergaven zinvol te maken zijn
Wat is het meetniveau?
› Hoeveel broers en zussen heb je?
▪ Ratio
› Hoeveel sigaretten rook je per dag? Kies uit 0, 1-2, 3-6, 7 of meer
▪ ordinaal
› Wat is je lievelingskleur?
▪ nominaal
› Hoe tevreden ben je over je leven, op een schaal van
extreem ontevreden (0) tot extreem tevreden (9)?
▪ ordinaal , kan ook interval omdat je gemiddeldes hieruit kan maken die zinvol te berekenen kunnen zijn
Discrete vs. continue metingen
› Een ander belangrijk kenmerk is of de data discreet of continu is
› Discrete data:
▪ Getallen “ertussenin” hebben geen betekenis
▪ Voorbeeld: Hoeveel broers en zussen heb je?
- “2” en “3” zijn mogelijke antwoorden, maar “2.5” niet
› Continue data:
▪ Getallen “ertussenin” hebben wel betekenis
▪ Voorbeeld: Hoe lang ben je?
- Alle positieve reële getallen zijn zinvolle antwoorden
Opmerkingen over meten
› Discreet/continu en meetniveaus zijn gerelateerd aan elkaar, maar zijn niet hetzelfde.
▪ Nominaal en ordinaal zijn vaak discreet.
▪ Interval en ratio kunnen beide zijn.
2
,Statistiek 1A - College Notities
Samenvatten van Data
Steekproef
› Een subset van lengtes (cm) van studenten in
een klas:
170 191 178 175 184 176 158 175 167 164 170 160 181 168 170 178 183 166
173 176 166 160 172 170 178 176 180 175 175 178 169 173 183 170 167 174
› Dit wordt een sample/steekproef genoemd.
Data (sample) analyse
› Opsomming van alle punten is niet erg informatief Measurement Scale Plot, e.g.
› Twee (complementary) aanpakken van data analyse
1. Grafische weergave van de data -Qualitative/ Categorical Bar Graph
2. Vat kenmerken van de data numeriek samen (nominal, ordinal) Pie Chart
› De keuze van een bepaalde plot/grafiek is afhankelijk
van het meetniveau van je variabele -Quantitative Histogram
(Interval, ratio) Stemplot
Grafische weergave
› Kijk naar: Algemene patroon en opvallende afwijkingen van dat patroon
▪ Shape/vorm
- Is de verdeling symmetrisch of scheef?
- Zijn er duidelijk afwijkingen van de algemene vorm (outliers)
▪ Center/centrum
- 1 of meer toppen (clustering van data)?
- Waar ligt het centrum van de data?
▪ Spread/spreiding
- Hoe wijd verspreid is de data?
Numerieke samenvatting
› Te stellen vragen bij het bekijken van een grafiek:
▪ Waar ligt het ‘centrum’ van de data?
- Central tendency: median, mean (gemiddelde)
▪ Waar zie je een clustering/ophoping van de data?
- Central tendency: Modus/mode
▪ Hoe is de spreiding van de data?
- Spread (spreiding): range; variantie; standaarddeviatie, interquartile range (IQR)
▪ Is de verdeling symmetrisch?
- Shape: outliers/uitbijters
3
,Statistiek 1A - College Notities
Central tendency
› Waar ligt het ‘centrum’ van de data?
▪ Mediaan: het “middelste” getal
▪ Mean/gemiddelde: het “gemiddelde” getal (is heel gevoelig voor heel hoge en lage variabelen ‘outliers’,
daarom is mediaan soms handiger)
▪ Modus: het meest voorkomende getal
› Hoe deze maten te bepalen/berekenen?
▪ Zie boek en Sapling
Centrum: Mean/gemiddelde
› Steekproefgemiddelde: veel gebruikte centrummaat
▪ Dit is het punt waarbij de som van alle afwijkingen hiervan gelijk is aan 0
▪ Kan gezien worden als een “balanspunt” van de steekproef (wordt beïnvloed door zeer hoge en zeer lage
scores net als een weegschaal)
▪ Het gemiddelde van de waarnemingen wordt vaak weergegeven als 𝑥̅
- Een waarneming is vaak weergegeven als 𝑥𝑖
1
- Formule: 𝑥̅ = 𝛴𝑥𝑖 =
𝑛
Spreiding
› Hoe verspreid is de data?
› Hoe verschillend zijn de waarnemingen van elkaar?
▪ Range = Max – Min (hoe wijd verspreid zijn de scores)
▪ Interkwartielafstand / Interquartile range (IQR) (boxplot)
▪ Variantie & Standaarddeviatie
Conclusie
› Scores van variabele(n) verzameld?
› Inspecteer de data voor elke variabele:
▪ grafisch
▪ numeriek/samenvattingsmaten
- centrum: median, mean, mode
- spreiding: range, variantie, standaarddeviatie, IQR
- vorm: outliers
4
,Statistiek 1A - College Notities
College 2 - 11-09-2020
M&M: §1.1 – §1.3 + § 5.1
Grafische en numerieke weergave
Spreiding: Interquartile range (IQR)
Bepaal kwartielen
▪ 4 gelijke delen van 25%
▪ Eerste kwartiel (Q1) = mediaan van laagste 50%
▪ Tweede kwartiel (Q2) = mediaan
▪ Derde kwartiel (Q3) = mediaan van hoogste 50%
IQR = Q3 – Q1
▪ Middelste 50% van de data
Five number summary
We kunnen elke verdeling weergeven met vijf getallen: de range en de kwartielen
› Five-number summary
▪ Eerste getal: Minimum, kleinste waarneming
▪ Tweede getal: Q1
▪ Derde getal: Q2 = mediaan
▪ Vierde getal: Q3
▪ Vijfde getal: Maximum, grootste waarneming
› Grafisch: boxplot
Boxplots
Waarom boxplots?
▪ snel overzicht van belangrijke kenmerken van de steekproef
▪ veel boxplots weergeven op een klein stukje papier/beeldscherm:
➢ vergelijken groepen eenvoudiger
- Bij histogrammen is dit lastiger
Spreiding: Variantie
Hoe ver, gemiddeld, liggen de waarnemingen af van het gemiddelde?
>Stappen voor de variatie (en standaard dev.) :
▪ Bereken voor elke waarneming 𝑥𝑖 − 𝑥̅ = waarneming - gem
▪ Neem hiervan (waarneming- gem) het kwadraat: (𝑥𝑖 − 𝑥̅ )2
∑(𝑥 −𝑥̅ )2
𝑖
▪ Neem (ongeveer) het gemiddelde van al deze waarnemingen: 𝑛−1
▪ Het resultaat is de steekproefvariantie, 𝑠 2
Nu heb je de variantie. > Als je de standaarddeviatie wilt > de wortel vd variantie
∑(𝐱 𝐢 − 𝐱̅)𝟐
𝐬𝟐 =
𝐧−𝟏
5
, Statistiek 1A - College Notities
Variantie en standaarddeviatie
▪ In dit voorbeeld is de variantie 𝑠 2 = 19 cm2
▪ Gekwadrateerde eenheden???
- Liever oorspronkelijke eenheden: cm
▪ Neem de wortel: √𝑠 2 = √19 ≈ 4,36=
- Steekproefstandaarddeviatie: 𝑠 ≈ 4.36 𝑐𝑚
▪ Standaarddeviatie 𝑠 is de wortel van de variantie
∑(𝑥𝑖 − 𝑥̅ )2
𝑠=√
𝑛−1
Vorm: Outliers
Hoe outliers vinden?
▪ Gebruik histogram en boxplot
▪ 1.5×IQR rule - Een waarneming die verder af ligt dan 1.5xIQR (IQR= Q3-Q1)
- onder het 1ste kwartiel of
- boven het 3e kwartiel is mogelijk een outlier
Modified boxplot
Extra: weergave van outliers o.b.v. 1.5xIQR
LINEAIRE TRANSFORMATIES
formaties
𝑋𝑛𝑖𝑒𝑢𝑤 = 𝑎 + 𝑏𝑋
𝑋: scores van alle proefpersonen op variabele 𝑋
𝑎: optelconstante
𝑏: vermenigvuldigingsconstante
Effecten van lineaire transformaties
• GemiddeldNew = a + b * GemiddeldOud
• SDnew = |b| * SDoud
• VarNew = b² * VarOud (eigenlijk gewoon kwadraat van formule van SD)
• IQRnew = |b| * IQRoud
6