Introduction to the practice of statistics
Hoofdstuk 1. Looking at data
Data
- Cases/gevallen: objecten die beschreven worden door een set van data, bv. klanten of
bedrijven.
- Label: een speciale variabele die gebruikt wordt in sommige datasets om onderscheid te
maken tussen verschillende cases.
- Variabele: een kenmerk van een case.
Bij het gebruiken van variabele namen in spreadsheets, wordt vaak niet gewerkt met
spaties. Probeer deze dus ook te vermijden!
Er kan gebruik gemaakt worden van onderstrepen (_), bv. Naam_restaurant.
Par. 1.2 Displaying distributions with graphs.
Stemplot (steelbladdiagram)
- Geeft een snel beeld van de vorm van een verdeling.
- Bevat de numerieke waarde in de grafiek.
- Wordt vooral gebruikt bij kleine datasets.
- Voorbeeld pag. 12.
- Back-to-back stemplot: om twee gerelateerde verdelingen te vergelijken (vb. pag. 13).
Histogram
- Bij het gebruik van klassen en geeft alleen het percentage of aantal van de observatie weer,
die in die klasse valt.
- Grafieken waarbij de balken niet tegen elkaar aanzitten worden gebruikt om aan te geven
dat de items niet vergeleken worden.
Grafieken waarbij de balken wel tegen elkaar aanliggen worden gebruikt om aan te geven
dat er een relatie is tussen die items.
- Extreme waarden kunnen uitschieten naar links of naar rechts.
Par. 1.3 Describing distributions with numbers.
Mediaan
- Zet alle getallen eerst in de juiste volgorde van klein naar groot.
- (n + 1)/2 = de locatie van het getal waar de mediaan zit.
Five-number-summary
- Minimum, 1e kwartiel, mediaan, 3e kwartiel en maximum.
- Gebruik je voor het maken van een boxplot.
Uitbijters
- IQR = Q3 – Q1
- Uitbijters
1,5 x IQR
Q3 + (1,5 x IQR) en Q1 – (1,5 x IQR).
, De getallen die niet tussen deze waarden liggen, zijn uitbijters.
- Side-by-side boxplots: twee of meerdere boxplots in één grafiek, om met elkaar te
vergelijken.
Standaarddeviatie (s)
- Variantie: (s²)
- Zie rekenformule pag. 38
Par. 1.4 Density curves and normal distributions.
Dichtheidscurven
- Hoe groter het aantal observaties en klassen, hoe gelijkmatiger de verdeling.
- Probeert te beschrijven hoe de verdeling in de populatie eruit ziet. Niet alleen van de
mensen in je steekproef die jij hebt onderzocht, maar wel over de gehele populatie.
- Is theoretisch probeert de populatie te beschrijven.
Een wiskundige benadering van de werkelijkheid.
Een histogram gaat over gegevens die je daadwerkelijk hebt gemeten.
- De totale oppervlakte onder de curve = 1 of 100%
Oppervlakte = percentage van de populatie.
Normaal verdeling
- “Familie” van dichtheidscurven met een speciale vorm:
Symmetrisch.
Klokvormig.
Unimodaal = eentoppig.
- Kunnen verschillende hoogtes en breedtes hebben.
- Zie aantekeningen wiskunde cursus.
Standaardscore
- Z-score
- Aantal standaarddeviaties dat een individuele score afwijkt van het gemiddelde van de
groep.
Waar bevindt een score zich in de populatie?
- Gekoppeld aan percentage = p-waarde.
- Score omzetten naar een z-score
Trek het gemiddelde af van de score waar je het over hebt (xᵢ).
Deel dit door de standaarddeviatie (σ).
Uitkomst = aantal standaarddeviaties die afwijkt van het gemiddelde.
Standaardnormaalverdeling
- Je hebt een normaal verdeling, waarbij je alle scores omzet in z-scores.
- Verdeling van z-scores van een normaal verdeelde variabele.
Een normaalverdeling met een gemiddelde van 0 en een standaarddeviatie van 1.
- Niet-normaal verdeelde variabele
Z-scores kunnen berekend worden, maar dan geen (standaard)normaalverdeling.
Zijn z-scores dan nog zinvol?
, - Standaardscore is niet hetzelfde als een standaardnormaalverdeling.
Nut van z-scores
- Uitspraken op groepsniveau.
- Bepalen positie van individuele scores in de populatie hoe ‘goed’ is iemand?
Je kunt scores vergelijken uit verschillende populaties.
Cumulatieve verhoudingen
- Het berekenen van bepaalde oppervlaktes van de standaardnormaalverdeling door middel
van de z-score en tabel A (standaardnormaal tabel) (zie boek).
- Z = (X – gem.)/SD
- Bij berekenen van X
X = gem. + (z x SD)
Bijvoorbeeld 10% van de hoogste scores berekenen, met N(500, 120)
Zoek in tabel A de score die het dichtst bij de 0,9 (van 90%) ligt. Dat is
0,8997. De z-score die hoort bij 0,8997 is 1,28.
X = 500 + (1,28)(120)
X= 500 + (120 x 1)+(0,28 x 120)
X = 653,6