Statistics: The art and science of learning from data
1. Gathering and exploring data
1.1 Using data to answer statistical questions
De informatie die we verzamelen met experimenten en enquêtes wordt gezamenlijk data
genoemd.
Defining statistics
Statistiek (statistics) is de kunst en wetenschap van het ontwerpen van onderzoeken
en het analyseren van de data die uit deze onderzoeken voortkomen. Het ultieme goal is
het vertalen van de data in kennis en het begrijpen van de wereld om ons heen. In het
kort, statistics is the art and science of learning from data.
Het statistisch oplossen van problemen is een onderzoekend proces dat bestaat uit vier
componenten:
1) formuleer een statistische vraag
2) verzamel data
3) analyseer de data
4) interpreteer de resultaten
Reasons for using statistical methods
De drie hoofdonderdelen van statistiek voor het beantwoorden van een statistische
vraag zijn:
1) design plan hoe op een efficiënte manier data verkregen kan worden over de
statistische vraag.
2) Beschrijving (description) ontdekken en samenvatten van patronen in de data.
Bestanden met ruwe data zijn vaak enorm. Daarom is het informatiever om een
aantal getallen of een grafiek te gebruiken om de data samen te vatten.
3) Conclusie (inference) het maken van beslissingen of voorspellingen gebaseerd
op de data. Over het algemeen refereert de beslissing of voorspelling naar een
grote groep mensen, niet alleen naar de mensen die deel hebben genomen aan de
studie.
Infer (concluderen) komen tot een beslissing of voorspelling aan de hand van een
redenering gebaseerd op bestaand bewijs.
Statistical inference (statistische conclusies) doet hetzelfde als hierboven beschreven,
maar gebruikt hiervoor de data als bewijs.
Statistische beschrijvingen (statistical description) zorgt voor handige samenvattingen
en helpt bij het vinden van patronen in de data.
Concluderen (inference) helpt bij het maken van voorspellingen en het beslissen of de
geobserveerde patronen belangrijk zijn.
Waarschijnlijkheid (probability) is een kader om de kans op verschillende mogelijke
resultaten vast te stellen.
Variabele (variable) verwijst naar het kenmerk dat wordt gemeten.
, 1.2 Sample versus population
We observe samples but are interested in populations
Subject the eenheden die we meten in een onderzoek.
Bijvoorbeeld: scholen, landen, dagen.
Populatie (population) is het totale set van subjecten waarin we geïnteresseerd zijn.
Steekproef (sample) de subgroep van de populatie waarvan wie we data hebben of
plannen te verzamelen, vaak willekeurig geselecteerd.
Descriptive statistics and inferential statistics
Beschrijvende statistieken (descriptive statistics) verwijst naar methoden voor het
samenvatten van verzamelde data. De samenvattingen bestaan meestal uit grafieken en
nummers, zoals gemiddelden en percentages.
Inferentiele statistieken (inferential statistics) verwijst naar methoden voor het maken
van beslissingen of voorspellingen over een populatie, gebaseerd op data verkregen door
middel van een steekproef van de populatie.
Sample statistics and population parameters
Parameter is een numerieke samenvatting van de populatie.
Statistiek (statistic) is een numerieke samenvatting van een steekproef van de
populatie.
Randomness and variability
Een steekproef (sample) neigt een goede weerspiegeling van de populatie te zijn
wanneer ieder subject in de populatie evenveel kans heeft om onderdeel uit te maken
van de steekproef.
dat is de basis van een willekeurige steekproef (random sampling) dit is
ontworpen om de steekproef representatief te maken voor de populatie
stelt ons in staat om krachtige conclusies te trekken over de populatie
willekeur is cruciaal voor het goed uitvoeren van een experiment
Estimation from surveys with random sampling
Data van steekproefonderzoeken wordt regelmatig gebruikt om een schatting te maken
van de percentages binnen de populatie.
Hierbij krijgen we te maken met de foutmarge (margin of error) is een meting van de te
verwachten veranderlijkheid tussen de ene willekeurige steekproef en de andere
willekeurige steekproef.
‘Zeer waarschijnlijk’ betekent over het algemeen dat ongeveer 95 van de 100 keer zo’n
uitspraak correct is. We noemen dit ook wel het 95%-zekerheidsinterval.
De te verwachten foutmarge (margin of error) kan als volgt worden berekend:
N = het aantal subjecten in de
steekproef
,Testing and statistical significance
Het te verwachten verschil wat te wijten valt aan normale variatie wordt kleiner bij
grotere steekproeven.
Statistische significant (statistically significant) wanneer het verschil tussen de
resultaten zo groot is, dat het ongewoon zou zijn om zo’n verschil te zien als normale
variatie.
1.3 Using calculators and computers
Using (and misusing) statistics software and calculators
Het probleem is dat een computer de statistische analyse zal uitvoeren zonder er hierbij
rekening mee te houden of het gebruik van deze statistieken valide is of niet voor de
gegeven situatie.
Data files
Data dossier (data file) dit dossier komt meestal in de vorm van een spreadsheet. Het
is de manier waarop statistische software zijn data ontvangt.
Er zijn twee basisregels voor het construeren van een data dossier:
1. elke rij bevat metingen van een bepaald subject (bijvoorbeeld: een persoon).
2. Elke kolom bevat metingen van een bepaald kenmerk.
Databases
Databanken (databases) bestaande gearchiveerde collecties van data dossiers.
Web Apps
Webapps je kunt webapps gebruiken om steekproeven te nemen van kunstmatige
populaties en deze analyseren om eigenschappen van statistische methoden te
ontdekken die zijn toegepast op deze steekproeven.
Dit is een vorm van simulatie een computer gebruiken om na te bootsen wat er
eigenlijk zou gebeuren als je in het echt een steekproef zou selecteren en
statistieken zou gebruiken.
2. Exploring data with graphs and numerical summeries
2.1 Different types of data
Variables
Variabele (variable) is elk kenmerk wat geobserveerd wordt in een onderzoek.
de variabelen (variables) worden over het algemeen genoteerd in de kolommen
van een data set. Waarbij de rijen verwijzen naar verschillende observaties van
een variabele.
Variables can be quantitative (numerical) or categorical (in categories)
Observaties (observations) zijn de datawaarden die we observeren voor een variabele.
Een observatie is categoriaal (categorical) wanneer iedere observatie behoort tot een
set van te onderscheiden categorieën.
, zoals ‘ja’ of ‘nee’ op de vraag of het die dag geregend heeft.
Of een observatie is kwantitatief (quantitative) wanneer iedere observatie behoort tot
een numerieke waarde die verschillende groottes van een variabele voorstellen.
zoals het aantal centimeters of de neerslag op een dag.
Meten ‘hoe veel van iets (dat is kwantiteit of omvang).
Met kwantitatieve variabelen kunnen we aritmetische samenvattingen vinden,
zoals gemiddelden.
!PAS OP!
Een variabele waarvoor nummers als labels worden gebruikt om de categorieën te
definiëren is nog een steeds een categoriale variabele en niet kwantitatief.
Voor kwantitatieve variabelen, zijn belangrijke kenmerken om te beschrijven het
centrum (centre) en de veranderlijkheid (variability) (soms spreiding (spread) genoemd)
van de data.
Voor categoriale variabelen, is een belangrijk kenmerk om te beschrijven het relatieve
aantal observaties in de verschillende categorieën.
Quantitative variables are discrete or continuous
Een kwantitatieve variabele is discreet (discrete) wanneer de mogelijke waarden een
set van aparte nummers vormen, zoals 0, 1, 2, 3, …
Een kwantitatieve variabele is continue (continuous) wanneer de mogelijke waarden
een interval vormen.
Een discrete (discreet) variabele is meestal een telling (‘het aantal van…’).
Een continue (continuous) variabele heeft een continuüm van oneindig veel mogelijke
waarden (zoals tijd, afstand of fysieke metingen, zoals gewicht of lengte).
Elke variabele met een einde nummer van mogelijke waarden is discreet.
Elke variabele met een oneindig nummer van mogelijke waarden is continue.
In de praktijk we zullen zien dat de methode die wordt gebruikt om de data de
analyseren afhankelijk is van de type data die de variabele vertegenwoordigd.
Distribution of a variable
De eerste stap in het analyseren van de verzamelde data van een variabele, is te kijken
naar de geobserveerde waarden, door gebruik te maken van grafieken en numerieke
samenvattingen.
Verdeling (distribution) van een variabele beschrijft hoe de observaties verdeeld zijn
over de reeks van mogelijke waarden.
voor een categoriale (categorial) variabele zijn de mogelijke waarden de
verschillende categorieën en elke observatie valt in een van de categorieën.
de verdeling voor een variabele laat dan alle mogelijke categorieën zien en het
aantal (de proportie) observaties die in elke categorie vallen.
, voor een kwantitatieve (quantitative) variabele is de reeks van alle mogelijke
waarden verdeeld over gescheiden intervallen en het aantal (de proportie) van de
observaties vallen in elk gegeven interval.
De verdeling kan worden weergeven in een grafiek of een tabel.
Een kenmerk om op te letten bij de verdeling van categorische (categorial) variabele is
de modale categorie (modal category) dit is de categorie met de grootste frequentie
Kenmerken om op te letten bij de verdeling van een kwantitatieve variabele zijn:
1. de vorm (shape) bundelen de observaties zich rond bepaalde intervallen en/ of
zijn ze dun verspreid over andere observaties?
2. Het middelpunt (center) waar valt een bepaalde observatie?
3. Veranderlijkheid (variability) hoe dicht bundelen de observaties zich rond een
middelpunt?
Frequency table
Frequentie (frequency) tabel is een lijst van de mogelijke waarden van een variabele,
samen met het aantal observaties van elke waarde.
voor een categoriale variabele staan in een frequentie tabel de categorieën en
het aantal keren dat elke categorie werd geobserveerd
de proportie (proportion) is het aantal observaties dat in de categorie valt, gedeeld
door het totale aantal observaties.
Het percentage (percentage) is de proportie vermenigvuldigd met 100.
Proporties en percentages worden ook wel relatieve frequenties (relative frequencies)
genoemd ze vormen een manier om de verdeling van een categoriale variabele op een
numerieke manier samen te vatten.
Om de verdeling van een discrete kwantitatieve variabele weer te geven moeten we
ook de verschillende waarden en de frequentie van elke waarden weergeven in een
tabel.
Om de verdeling van een continue kwantitatieve variabele weer te geven verdelen we
de numerieke schaal waarin de variabele is gemeten in een set van niet-overlappende
intervallen en tellen het aantal observaties binnen elk interval.
2.2 Graphical summaries of data
Graphs for categorial variables
Een cirkeldiagram (pie chart) is een cirkel, waarvan ieder stuk een categorie voorstelt.
De grootte van het stuk correspondeert met het percentage observaties in de categorie.
Een staafdiagram (bar graph) toont een verticale staaf voor elke categorie. The hoogte
van de staaf is het percentage observaties in de categorie.
Pareto charts
Pareto grafiek (pareto chart) een staafdiagram met categorieen die gerangschikt zijn
op de frequentie.
vernoemd naar de Italiaanse econoom Vilfredo Pareto (1848 – 1923).
De Pareto grafiek wordt meestal gebruikt voor zakelijke toepassingen, om de
meest voorkomende resultaten te identificeren.
,Graphs for quantitative variables
Stip diagram (dot plot) toont een stip voor elke observatie, deze
wordt in de grafiek boven de waarde op de genummerde lijn voor
de observaties geplaatst.
Om een stip diagram samen te stellen:
teken een horizontale lijn, label deze met de naam van de
variabele en schrijf hierbij de regelmatige waarden van de
variabele (bijvoorbeeld: 0, 100, 200, 300).
Plaats voor elke observatie een stip in de grafiek, boven de
genummerde lijn.
!PAS OP!
Continue data worden meestal weergeven als het volgende afgeronde getal. De data ziet
er nu uit alsof deze discreet is, maar moeten nog steeds geanalyseerd en
geïnterpreteerd worden als continue data.
Stem-and-leaf plots
Stam-en-blad diagram (stem-and-leaf plot) geeft individuele observaties weer.
elke observatie wordt weergegeven door een stam en een blad. Meestal bestaat
de stam uit alle cijfers, behalve de laatste, dat is het blad.
Sorteer de data van klein naar groot. Plaats de stammen in een kolom, beginnend
bij de kleinste. Plaats een verticale lijn aan de rechterkant. Aan de rechterkant
van de verticale lijn, geef je elk blad weer (het laatste cijfer) dat een bepaalde
stam heeft.
om een stam-en-blad diagram compacter te maken kunnen we de waarden van
de data afkappen (truncate). Haal het laatste cijfer bijvoorbeeld weg en plot de
data als 0, 34, 7, 14, 20 enzovoort, in plaats van 0, 340, 70, 140, 200.
0 057
1 0344568889
2 001129
3 4
dit kan ook een beetje te compact worden, omdat het niet zo duidelijk
weergeeft waar de data vallen. Daarom kan je er ook voor kiezen om elke
stam twee keer weer te geven, waarbij de getallen van 0 t/m 4 op de eerste
stam vallen en 5 t/m 0 op de tweede stem. Dat zou er als volgt uit zien:
0 0
0 57
1 0344
1 568889
2 00112
2 9
3 4
,Histograms
Een histogram (histogram) is een grafiek die staven gebruikt om frequenties weer te
geven of de relatieve frequenties van de mogelijke uitkomsten voor een kwantitatieve
variabele.
Voor een discrete variabele heeft een histogram meestal een aparte staaf voor
elke mogelijke waarde.
Voor een continue variabele moeten we de mogelijke waarden verdelen over
smallere intervallen van gelijke breedte, net zoals bij een frequentie tabel.
!PAS OP!
De term histogram wordt gebruikt voor grafiek met staven die kwantitatieve variabelen
voorstellen.
De term staafdiagram wordt gebruikt voor een grafiek met staven die categorische
variabelen voorstellen.
Samenvatting voor het maken van een histogram:
verdeel de reeks van data in intervallen met een gelijke breedte. Voor een discrete
variabele met weinig waarden, gebruik je de werkelijke mogelijke waarden.
Tel het aantal observaties (de frequentie) in elk interval en vorm hiermee de
frequentietabel.
Op de horizontale as, label de waarden of de eindpunten van de intervallen. Teken
een staaf voor elke waarde of interval met een hoogte die gelijk is aan de
frequentie (of het percentage), de frequentiewaarden worden weergeven op de
verticale as.
Wanneer een observatie aan het einde van een intervalpunt valt, is het niet duidelijk in
welk interval de observatie terechtkomt. Als we de histogram aflezen laten we normaal
gesproken weten wat het linker eindpunt van de observatie is. Dat ziet er dan uit zoals
hieronder is uitgewerkt in een voorbeeld:
Interval Frequency Proportion Percentage
0 tot 39 1 0.05 5%
40 tot 79 2 0.10 10%
80 tot 119 1 0.05 5%
Met een histogram kan het zo zijn dat we de werkelijke numerieke waarden van de
individuele observaties kwijt raken, wat weer niet het geval is bij een dot plot of een
stem-and-leaf-plot.
Over het algemeen is 5 tot 10 intervallen voldoende. Eventueel kunnen wat extra
intervallen worden toegevoegd wanneer er sprake is van een grote steekproef.
Choosing a graph type
Aangezien er genoeg software bestaat die een histogram kunnen samenstellen, raden we
aan om altijd de histogram te plotten, om een idee te krijgen van de verdeling.
Wanneer er sprake is van een klein aantal observaties, vul de histogram dan aan met een
stam-en-blad diagram (stem-and-leaf plot) of een stip diagram (dot plot) om de
numerieke waarden van de observaties weer te geven.
, The shape of a distribution
Unimodaal (unimodal) wanneer de distributie bestaat uit 1 top.
mode de waarde die het meeste voorkomt
de vorm van de verdeling is meestal symmetrisch (symmetric) of scheef (skewed).
Bimodaal (bimodal) een verdeling met twee verschillende toppen.
kan bijvoorbeeld ontstaan wanneer een populatie verdeeld is bij een
controversieel onderwerp.
Kan ook ontstaan, wanneer de observaties worden gedaan bij twee verschillende
groepen bijvoorbeeld wanneer er een histogram wordt gemaakt voor de lengte
van de studenten van een middelbare school. Je krijgt dan een top voor de lengte
van de mannen en een top voor de lengte van de vrouwen.
Staart (tails) de gedeelten van de verdeling met de hoogste waarden en die met de
laagste waarden.
Scheve verdeling:
scheef (skewed) betekent, zich uitstrekken in 1 richting.
Scheef naar links (skewed to the left) de linker staart is langer dan de rechter
staart.
Scheef naar rechts (skewed to the right) de rechter staart is langer dan de linker
staart
Soms, vooral met kleine data sets, is de vorm van de verdeling niet meteen duidelijk.
Time plots: displaying data over time
Tijd series (time series) een data set die verzameld is in verloop van de tijd.
Tijd diagram (time plot) een manier om de data van tijd series grafisch weer te geven.
brengt elke observatie in kaart, op de verticale schaal, tegen de tijd waarop de
observatie is gedaan, op de horizontale schaal.
Een vaak voorkomend patroon om naar op zoek te gaan is een trend over de tijd,
die wijst op de neiging van de data om te stijgen of te dalen.
2.3 Measuring the center of qunatitative data
Describing the center: the mean and the median
Gemiddelde (mean) de som van de observaties gedeeld door het aantal observaties.
Het wordt ook wel gezien als het balanspunt van de verdeling.
Mediaan (median) is de middelste waarde van de observaties wanneer de observaties
geordend zijn van klein naar groot (of van groot naar klein).
Is het punt dat de data in tweeën verdeeld. De helft van de data ligt boven de
mediaan en helft van de data ligt onder de mediaan.
Wanneer het aantal observaties n oneven is, is de mediaan de middelste
observatie in de geordende steekproef.