Chapter 1- looking at data- distributions
1.1-data
Statistiek is de wetenschap van het leren over data.
Cases→hetgeen dat je gaat beschrijven met behulp van data
Label→speciale variabele die wordt gebruikt om data te onderscheiden
Variable→kenmerk van de case, de waarden verschillen per case
Catagorical variable→plaatst de case in 1 van de groepen of categorieën
Quantitative variable→heeft verschillende waarden waarvoor rekenkundige bewerkingen
zinvol zijn (+, :, -)
Distribution of a variable→ welke waarden er zijn en hoe vaak ze voorkomen
➢ Kies een passend label voor de cases
➢ Besteed aandacht aan de kwantitatieve variabelen voordat je ermee gaat werken, zet
bijvoorbeeld 3 minuut 32 om in 3,533 minuten of in 212 seconden.
Units of measurement→refereert naar de seconden of minuten (eenheid)
Ga je statistisch te werk met andermans gegevens, stel je dan drie vragen:
1. Who? Welke en hoe veel cases zijn er?
2. What? Hoe veel variabelen zijn er? Wat is de exacte definitie van de variabele?
3. Why? Wat is het doel van de data? Wat ga ik er mee doen?
Spreadsheet→handig voor simpele berekeningen
➢ Wanneer je een spreadsheet maakt voor eventueel statistisch gebruik, dan kun je het
beste spaties en ruimtes is namen van variabelen vermijden. Beter is om alles aan
elkaar te schrijven of om een laag streepje te gebruiken. (exam_1 of exam1)
Instruments→instrumenten om metingen mee uit te voeren, verschillen per variabele.
➢ Wees er zeker van dat elke variabele echt meet wat je wil meten. Een slechte keuze
van variabelen kan leiden tot misleidende conclusies.
Je kunt bijvoorbeeld beter de rate waarmee iets gebeurt meten, dan een simpele
telling van gebeurtenissen. De rate is dan betekenisvoller.
Rate→er zijn 1000 studenten, waarvan 800 geslaagd. De graduation rate is dan
800/1000=0,80 of 80%.
Adjusting one variable to create another→bijvoorbeeld het aantal studenten en het aantal
geslaagden gebruiken om de graduation rate uit te rekenen.
➢ Denk altijd na over de beste manier om je resultaten met het algemene publiek te
communiceren.
1.2-displaying distributions with graphs
Exploratory data analyses→ gegevens onderzoeken om hun belangrijkste kenmerken te
beschrijven. De basisstrategieën daarbij zijn:
• Begin bij het onderzoeken van elke variabele apart, kijk daarna naar de relaties
ertussen
• Begin met een grafiek, voeg dan pas de numerieke samenvattingen van specifieke
aspecten toe
,Categorical variables, bar graphs and pie charts
Distribution of a categorical variable→categorieën in een lijst zetten en de
telling/procenten erbij voegen. Ook is er een groep met totaal.
➢ Als je een groep ‘’other’’ maakt, ga dan zorgvuldig na of je geen belangrijke
informatie mist.
➢ Bedenkt altijd goed wat de beste manier is om iets weer te geven in een staafdiagram
(op alfabet, op procenten)
➢ In een pie chart zet je alle categorieën, dus ook de categorie ‘other’.
Pie chart→cirkeldiagram
Quantitative variables, stem plots
Stemplot→stem-and-leafplot
1. Scheid de observaties in stammen en bladeren(bladeren bevatten maar 1 cijfer)
2. Schrijf de stammen in een verticale kolom van klein naar groot (boven naar onder) en
teken een lijn achter de stam
3. Naast deze lijn schrijf je de bladeren, van klein naar groot
Wil je twee gerelateerde dingen vergelijken, dan is een back-to-back stemplot een optie.
Ook kun je elke stam splijten in twee, zodat je een categorie krijgt met bladeren van 0-4 en
een met bladeren van 5-9 (splitting each stem)
Ook kun je de stam trimmen, als je te veel cijfers hebt.
Histogrammen
Een histogram gebruik je voor grotere datasets. Je ziet alleen de telling of percentrage van
elke categorie. Daarom is het minder nauwkeurig dan de vorige grafieken. Wel kun je er
goed mee vergelijken.
Als je de staven niet met elkaar vergelijkt, maar als losse dingen ziet, doe er dan een beetje
ruimte tussen.
➢ De vorm van een histogram verandert als je de categorieën verandert.
De tails of the distribution→ daarin zitten de extremen.
De behandeling van een verdeling:
- Als je de achtergrond van je data begrijpt, kun je de data plotten
- Als je de plot bekijkt, kijk je naar het overall pattern en ook naar de striking
deviations (opvallende afwijkingen)
- Daarna kun je het overall pattern beschrijven, je kijkt daarbij naar de shape, center
and spread
- Kijk ten slotte naar de outliers, dat zijn de waarden die buiten het patroon vallen
Midpoint→de helft van de waarden is hoger, de helft is lager
Spread→de kleinste en grootste waarden opschrijven
Het beschrijven van de shape/vorm:
- Zijn er modes(grote pieken)? Is er 1 mode, dan is de grafiek unimodal
- Is de grafiek symmetrisch(spiegelen in middelpunt) of skewed on the right (de
rechter tail is groter dan de linker tail, piek dus links)
➢ Het identificeren van de outliers is belangrijk voor het oordeel. Kijk naar de punten
die apart staan van de grafiek. Zoek daarna voor elke outlier een verklaring.
, ➢ Denk altijd aan waarom je een statistische analyse doet. Dat leidt je de goede kant op
voor het kiezen van de juiste analytische strategie
➢ Als er een verandering over de tijd plaatsvindt, kan een grafiek zonder tijd (histogram,
stemplot, etc.) misleidend zijn. Zet daarom altijd de tijd er bij.
Time plot→plot elke observatie tegen de tijd, waarop de meting gedaan is. Hierbij zet je de
tijd op de horizontale as en de variabele die gemeten is verticaal.
1.3- describing distributions with numbers
Mean→gemiddelde waarde
Middle→middelste waarde
𝑥1+𝑥2+⋯+𝑥𝑛 1
Mean: 𝑥 = 𝑛
= 𝑥 = 𝑛 Σ𝑥i
De mean is gevoelig voor de invloed van een paar extreme warden. Het is geen resistant
measure, want het kan de invloed van extremen niet weerstaan.
Een robust measure minimaliseert de invloed van de extreme waarden.
Median M: de helft van de waarden is groter, de helft is kleiner.
1. Zet de observaties van klein naar groot
2. Als het aantal observaties oneven is, dan neem je het middelste getal
3. Als het aantal observaties even is, dan neem je het gemiddelde van de middelste
twee cijfers.
Berekenen van de locatie van de median kan altijd met (n+1)/2
Wil je weten wat het verschil is: www.whfreeman.com/ips8e
Is de grafiek exact symmetrisch, dan is de mean gelijk aan de median.
Spread of variability: de makkelijkste bruikbare numerieke beschrijving van een verdeling
bestaat zowel uit een meting voor het centrum als een meting voor de spreiding.
De median splitst de data in tweeën, het is dus op de 50%. De rest kan je in quartiles
verdelen.
Pth procent van een verdeling is de waarde die p% onder of op die waarde is.
Q1 en Q3 bereken je als volgt:
1. Orden de waarden en bepaal M
2. Q1 is de median van de linker waarden van M
3. Q3 is de median van de rechter waarden van M
De quartiles zijn resistent voor veranderingen.
The five-number summary
1. Minimum
2. Q1
3. Median M
4. Q3
5. Maximum
, Boxplot→grafiek van de five-number summary.
De box zijn de lijnen van Q1 en Q3, in de box de lijn van M en de lijnen buiten de box zijn de
minimum en maximum en worden ook wel whiskers genoemd. De boxplots heten soms dan
ook box-and-whisker plots.
De afstand tussen de Q1 en Q3 is de interquartile range, IQR.
IQR= Q3-Q1
Je hebt te maken met een outlier als deze1,5*IQR onder Q1 of boven Q3 ligt.
Twee soorten boxplots:
- Modified boxplots→de lijnen uit de box gaan alleen naar de kleinste en grootste
observatie, die niet horen tot de IQR regel
- Side-by-side boxplots→2 of meer boxplots in 1 grafiek, om een bepaalde variabele
te vergelijken
Standard deviation→meet de spreiding door te kijken hoe ver de metingen van het
gemiddelde/de mean af liggen.
Variance s2
(𝑥1−𝑥)2 +(𝑥2−𝑥)2 +…+(𝑥𝑛−𝑥)2 )
s2 =
𝑛−1
standard deviation s
1
s= √𝑛−1 Σ(𝑥𝑖 − 𝑥)2
(x1-x) is de afwijking van de mean x. Als deze negatief is, wordt deze weer positief door het
kwadraat.
Opgeteld zijn de positieve en negatieve afwijkingen nul, daarom wordt er kwadraat gedaan,
dan kun je ze wel optellen.
➢ Waarom kwadrateren we deviaties?
o De som van de gekwadrateerde afwijkingen (van een reeks waarnemingen
van hun gemiddelde) is de kleinste som van de gekwadrateerde afwijkingen
die mogelijk is.
Bij gekwadrateerde afstanden is dat niet zo, dus gekwadrateerde afwijkingen
wijzen op een gemiddelde als middelpunt, afstanden zonder kwadraat niet.
o De standaard deviation is de natuurlijke meting van spreiding voor een
belangrijke klasse van symmetrische unimodale metingen (normal
distributions)
➢ Waarom benadrukken we de standaard deviatie meer dan de variantie?
o S is de natuurlijke spreiding voor normale verdelingen
o Variantie is gekwadrateerd en heeft daardoor niet dezelfde meeteenheid als
de originele observaties. De wortel geeft dat weer terug bij de
standaarddeviatie.
➢ Waarom delen we het gemiddelde door n-1 in plaats van door n als we de variantie
berekenen?
o Omdat de deviaties samen nul zijn, kunnen we de laatste afwijking vinden als
we de andere n-1 weten
o N-1 is degrees of freedom