The art and science of learning from data
Chapter 1
Statistiek: is de kunst en wetenschap die studies ontwerpen en gegevens analyseert die deze studies
produceren. Het doel is om gegevens te vertalen van de wereld om ons heen naar kennis en begrip.
Statistieke methodes helpen ons te onderzoeken op een objectieve manier.
Drie hoofdaspecten van statistiek:
1. Design: plannen hoe gegevens moeten worden verzameld.
2. Description: (beschrijving) samenvatten van de verkregen gegevens en er en patroon in
herkennen.
3. Inference: (gevolgtrekking/conclusie) beslissingen en voorspellingen maken gebaseerd op de
gegevens. Ik verwacht…
daarnaast belangrijk om te kijken naar probability (waarschijnlijkheid): hoe waarschijnlijk is het
dat de uitkomsten ook daadwerkelijk uitkomen.
Subjects = datgenen wat onderzocht wordt (meestal mensen, maar kan ook een school of een lang
zijn
Populatie = de verzameling van alle potentieel waarneembare waarden waarop een
onderzoeksprobleemstelling (of hypothese) betrekking heeft
Sample = de steekproef, vaak random getrokken
Descriptive statistics: samenvatting van de verkregen data uit de sample d.m.v. tabellen en
grafieken.
Inferential statistics: een methode om een beslissing te maken of een voorspelling te doen over
een populatie, gebaseerd op een steekproef, sample.
Populatie parameter = getal dat een eigenschap van een populatie weergeeft (dit is bijna nooit
geheel te ontdekken, daarom gebruik gemaakt van statistic)
Sample Statistic = getal dat een eigenschap van een steekproef weergeeft
Random sampling = een toevallige keuze van een deel van de populatie, iedereen heeft evenveel
kans. Dit om een krachtige gevolgtrekking te kunnen maken en om het onderzoek te kunnen
presenteren (externe validiteit)
Om statistische analyse makkelijker te maken worden deze georganiseerd in een datafile, vaak in een
spreadsheet. Twee basisregels:
1. Een rij bevat een meting voor een particulier subject (bijv. een student)
2. Een kolom bevat een meting voor een particulier kenmerk (bijv. geslacht, leeftijd)
Een bestaande database kan worden geraadpleegd bij een onderzoek, deze zijn bijvoorbeeld te
vinden op internet. Controleer wel de bron van de database.
Applets = is een kort toepassingsprogramma om bepaalde taken te oefenen.
1
,Chapter 2
Variabelen = elk kenmerk dat wordt geobserveerd in de studie
Kwantitatief (numeriek bijv. leeftijd, temperatuur, gewicht):
Aantallen, hoeveel er van iets zijn.
Kwantitatieve gegevens beschrijven het center (middelpunt) en de variability (spreiding) van
gegevens.
De kwantitatieve gegevens kunnen worden verdeeld in:
1. Discrete gegevens: mogelijke waarde in een set van verschillende nummers met eindigende
waarde (bijv. aantal kinderen in een gezin, aantal dieren)
2. Continue gegevens: mogelijke waarde die een onbeperkte waarde heeft, interval. (bijv.
leeftijd, gewicht, lengte)
Categorisch (bijv. geslacht, geloof, woning):
Ja of nee, gelijkwaardige variabelen.
De categorische gegevens beschrijven het relatieve nummer van de observatie in de
categorie (bijv. hoeveel procent is democratisch?)
Beschrijven de relatieve getallen.
Proportie = één bepaalde meting delen door de totale meting.
Percentage = de proportie x 100.
Relative frequenties = proporties en percentages.
Frequentie tabel = lijst met alle mogelijke waarden voor een variabele, samen met het aantal
observaties voor elk waarde
region frequency proportion percentage
New York 14 0,14 14%
Florida 63 0,63 63%
California 23 0,23 23%
Total 100 1 100%
Grafieken voor een categorieabele variabelen:
1. Taartdiagram.
2. Staafdiagram; flexibeler en preciezer. De staven kunnen naar percentage of categorie
worden geordend.
Het Paretoprincipe, in de volksmond ook wel de 80-20-regel genoemd, is een
economische regel die opgesteld werd door Vilfredo Pareto in 1906. Hij stelde dat 80%
van de economie beheerst werd door 20% van de mensen. Door staven te rangschikken
van groot naar klein kan deze rekensom worden gemaakt.
Grafieken voor een kwantitatieve variabele:
1. Dot plot (geeft vorm aan individuele observaties):
Zet een lijn en noem deze naar de variabelen. Nummer de lijn
met reguliere waarden.
Voor elke observatie zet je een stip bij de juiste waarde.
2. Stem-and-leaf-plots (geeft vorm aan individuele observaties):
Gewoonlijk bestaat de stam uit alle cijfers behalve definitieve, die het blad is.
Sorteer de gegevens van klein naar groot, plaats deze in een kolom. Zet een
verticale lijn, aan de rechterkant komen de definitieve cijfers met aan de
linkerkant de stam.
Het laatste cijfer van een getal komt in het blad en de rest in de steel.
2
,3. Histograms (voor veel gegevens, hierbij niet meer duidelijk wat echte waarde was):
Dit is een grafiek die staven gebruikt om de frequenties, de relatieve frequenties of andere
mogelijkheden te laten zien bij een kwantitatieve variabele.
Bij een discrete variabele kun je per waarde een staaf gebruiken (tenzij er veel verschillende
waarden wordt gemeten), bij continue variabelen gebruik je intervallen.
Dit diagram is flexibeler met het verdelen van intervallen. Gebruik ongeveer 10 intervallen.
Distribution (verdeling van gegevens);
Overall pattern = totaal patroon (of zijn er gaten in de grafiek?).
Unimodal = is er een piek in de gegeven. Hierbij is het hoogste punt de modus
Bimodale = hebben twee hoogste punten.
De vorm van een grafiek noemen we symmetrisch of skewed = schreef naar links (linker kant is
langer dan rechts) of rechts (rechter kan is langer dan links)
Time series = gegevens verzameld over een langere periode. Vast gelegd in een
time-plot. Hierbij wordt gezocht naar een trend.
Het middelpunt beschrijven
Het gemiddelde (mean) x beschrijft de center van de distributie.
Formule = x = x / n
De steekproef grote met n.
Variabelen zijn vaak gesymboliseerd met de laatste letter van het alfabet, zoals x
en y.
Mediaan (median): de middelste observatie als de observaties gerangschikt zijn naar grootte.
Het gemiddelde:
1. Het gemiddelde is het balanspunt van de gegevens.
2. Bij een scheve verspreiding ligt het gemiddelde in de richting van de lange staart, gerelateerd
aan de mediaan.
3. Het gemiddelde kan flink worden beïnvloed door een outlier (uitschieter), een onnatuurlijk
kleine of grote observatie.
4. Bij categorische variabelen is het gemiddelde zinloos, tenzij je maar 2 observaties hebt.
Gemiddelde en mediaan:
1. Bij een symmetrische grafiek zijn het gemiddelde, modus en de mediaan gelijk.
2. Scheef naar rechts, het gemiddelde is groter dan de mediaan
3. Scheef naar links, het gemiddelde is kleiner dan de mediaan
De mediaan wordt niet beïnvloed door een outlier, omdat je op zoek gaat naar het middelste
getal en niet naar hoeveel dat getal is. De mediaan is resistent.
Het gemiddelde gebruikt alle waarden en wordt dus wel beïnvloed. Bij een grote
verspreiding wordt de mediaan meer gebruikt, omdat het beter representeert wat typisch is.
Bij discrete gegevens met een paar waarden kunnen verschillende patronen toch dezelfde
resultaten geven, dan is het te resistent. Bijvoorbeeld bij binaire gegevens (twee soorten
antwoorden 0 of 1).
Bij een kleinere verspreiding of binaire gegevens wordt er eerder gebruikt gemaakt van het
gemiddelde omdat deze alle waarden van de observaties gebruikt.
bij een grote spreiding wordt er eerder gebruik gemaakt van een mediaan
3
, Modus (mode) = de categorie met de hoogste frequentie, deze is beperkt omdat het maar één
aspect laat zien.
De modus hoeft niet dicht bij het centrum van de spreiding te liggen, dus je kunt niet zeggen dat de
modus accuraat de meting van het centrum weergeeft.
De range (bereik) is het verschil tussen de grootste en de kleinste observatie. De range is niet
resistent en het negeert de numerieke waarde.
beter om gebruik te maken van de deviatie van het gemiddelde: hierbij kijk je hoever de
gegevens afliggen van het gemiddelde.
Deviatie:
1. De deviatie (afwijking) van een observatie vind je door observatie x af te trekken van het
gemiddelde x . Rekensom: x - x
2. Elke observatie heeft een deviatie van het gemiddelde
3. De deviatie is positief als de observatie boven het gemiddelde valt. En negatief als hij
eronder valt.
4. De interpretatie van het gemiddelde als het balanspunt zorgt ervoor dat de positieve en
negatieve observatie elkaar opheffen. De som van de deviaties geeft altijd 0.
5. Het gemiddelde van de deviatie noem je variantie. Omdat de variantie gebruik maakt van de
wortel van de metingen voor de oorspronkelijke gegevens is het makkelijker te
interpreteren. Dit noem je de standaarddeviatie SD – wij beschouwen de standaarddeviatie
als de typische afstand van observatie van het gemiddelde. Hoe groter de standaarddeviatie
s, hoe groter de spreiding van gegevens.
6. De standaarddeviatie wordt aangegeven als n – 1 omdat de deviatie n – 1 alleen informatie
geeft over variabiliteit (veranderlijkheid).
7. Hoe groter de spreiding van de gegevens hoe groter de waarde van de deviatie is.
8. S = 0 betekend dat alles observaties hetzelfde zijn.
9. S kan worden beïnvloed door outliners
Empirische (ervarings)regel; als de spreiding van de gegevens een klokvorm heeft, dan bij
benadering:
1. 68% van de observaties valt binnen 1 standaarddeviatie van het gemiddelde dat is tussen x -
s en x + s (genoteerd als x ± s; deze formule berekend het gebied van 68% waarbinnen
deze eerste standaarddeviatie valt).
2. 95% van de observaties valt binnen 2 standaarddeviaties van het gemiddelde
( x ± 2s).
3. 99% van de observaties valt binnen 3 standaarddeviaties van het gemiddelde
( x ± 3s).
De formules die x (gemiddelde) en s (standaarddeviatie) worden het meest gebruikt en refereren
naar steekproef gegevens. Deze noemen we sample statistic.
Er is een onderscheid tussen sample statistic en de parameter value voor de populatie. Het
gemidelde en de standaarddeviatie van de parameter is vaak onbekend en inferential statistiek helpt
om beslissingen en keuzes te maken gebasseerd op de sample statistic.
Centrum van distributie: gemiddelde en mediaan.
Spreiding van gegevens: range en standaarddeviatie.
De pth percentiel is de waarde van p percentage van de observaties beneden of binnen de waarde.
Waarde waarvoor p % van de observaties kleiner of gelijk zijn. De 50th percentiel is meestal de
4