Introduction to the practice of statistics – Moore, McCabe, Craig
Samenvatting
Hoofdstuk 1. Looking at Data – Distributions
1.1 Data
Statistiek: de vraag over hoe je data kan onderzoeken en ervan kan leren
Beschrijvend: data uit steekproef beschrijven
Inferentieel: conclusie(s) trekken op basis van de steekproef
Cases: objecten die beschreven worden in een dataset, ook wel units genoemd, bij mensen
worden het subjects of participants genoemd
Vb. bedrijven, klanten, onderwerpen in een studie, mensen, dieren, etc.
Label: speciale variabele in een dataset om verschillende cases te onderscheiden, unieke
eigenschappen
Variable: kenmerk van een case
Categorical: plaatst een case in één van de meerdere groepen of categorieën,
nominaal (gender, etniciteit) en ordinaal (opleidingsniveau)
Vb. coupon nummer, type restaurant, naam van restaurant, etc.
Quantitative: neemt numerieke waarden waarvoor rekenkundige bewerkingen zinvol
zijn, interval zegt dat er een rangorde is (vb. IQ-scores) en ratio zegt ook dat er een
rangorde is, maar heeft daarnaast een absoluut nulpunt (lengte en gewicht)
Vb. prijsvariabelen
Unit of measurement: beschrijft de waarde van een quantitative variable
Vb. dollars, centimeters, inches, etc.
Vraag jezelf af;
Welke en hoeveel cases zijn er?
Welke variabelen zijn er?
Wat is het doel van de dataset?
! In SPSS kunnen geen spaties gebruikt worden. In plaats daarvan kun je een ‘_’ gebruiken !
Er kan soms onenigheid zijn over de verdeling van cijfers
Vb. A = 4, B = 3, C = 2, D = 1, F = 0
Verschil tussen A en B ≠ verschil tussen D en F
Instrument: om variabelen te meten
Vb. enquete, een mondstuk aan een apparaat om zuurstofgehalte te meten
! Zorg voor goede instrumenten, anders kom je misschien niet tot de juiste conclusie(s) !
Soms worden variabelen aangepast, zodat er een variabele ontstaat waar meer over te
zeggen valt.
Vb. percentages, groeifactors, etc.
1.2 Displaying Distributions with Graphs
Exploratory data analysis: statistische tools en ideeën die ons helpen om data te
onderzoeken en om de belangrijkste kenmerken te beschrijven
Twee strategieën om onze verkenning van een reeks gegevens te organiseren:
1. Onderzoek eerst de variabelen zelf, vervolgens de relaties/verbanden
2. Begin met grafieken, voeg vervolgens rekenkundige samenvattingen toe van
verschillende aspecten van de data
Grafieken zorgen ervoor dat data overzichtelijk wordt weergegeven en
makkelijk te lezen is
Je kan gebruik maken van een staaf- of cirkeldiagram om categorische
variabelen weer te geven
, Distribution of a categorical variable: deelt de categorieën in lijstjes in en geeft de ‘count’,
het percentage of de proportie
Om kwantitatieve variabelen weer te geven:
Stemplot: stam-en-bladweergave
Vb.
Handig om vergelijkingen te maken door simpelweg aan beide zijden van
de stam getallen te noteren.
Gebruik je bij kleinere datasets
Trimming: eenheden, of een ander stuk, weglaten
Splitting: de getrimde stemplot langer maken
Vb. tientallen van 0-4 en van 5-9 apart, onder elkaar noteren
Histogram: deel de data in klassen in, tel hoe vaak alles voorkomt, teken de
histogram
Vb.
Handig bij grote hoeveelheden data, of bij onderzoeken met veel
verschillende numerieke uitkomsten.
Tails: de extreme waardes in de uiteindes van de ‘distribution’
Modes: één of meerdere pieken in de ‘distribution’
Unimodal: een ‘distribution’ met één grote piek
Skewed: als de ene ‘tail’ veel langer is dan de andere
Hoe lezen/bekijken;
Het patroon
De vorm, het centrum, de verspreiding
Deviatie, outliers
Outliers: observaties die buiten het patroon van de ‘distribution’ vallen.
Kijk er naar uit en probeer ze uit te leggen
Scores > Q3 + 1,5 x IQR = outlier
Scores < Q1 – 1,5 x IQR = outlier
! Sommige weergaven van ‘distribution’ zijn misleidend of kunnen misleidend zijn, wanneer
een rangorde in tijd genegeerd wordt !
1.3 Describing Distributions with Numbers
Mean: gemiddelde
Vb. berekening
Mode: waarde die het meest voorkomt
Median: mediaan, het middelpunt van een ‘distribution’, ook wel ‘Q2’
Vb. berekening
(n + 1) / 2 = positie van de mediaan