Samenvatting Beschrijvende Statistiek
College 1
1.1, 1.2, 1.3, 2.1, 2.2, 2.3
1.1 Using Data to Answer Statistical Questions
Drie onderdelen van statistics (voor beantwoorden van een statistische vraag):
1. Design: plannen hoe de data te verzamelen om de vraag te beantwoorden.
2. Beschrijving: samenvatten en analyseren van de verzamelde data (patronen).
3. Inferentie (toetsen): keuzes en voorspellingen maken gebaseerd op de data voor beantwoorden vraag.
Kans
Fundamenteel voor toetsende statistiek, de basis voor bepalen hoe waarschijnlijk verschillende mogelijke
uitkomsten zijn.
1.2 Sample Versus Population
Kernbegrippen:
• Subjecten: de entiteiten die we meten in een onderzoek (meestal mensen, maar kan ook scholen,
landen, dagen).
• Populatie: de set van alle subjecten waarin je geïnteresseerd bent in je onderzoek.
• Sample: meestal gebruik je alleen data van enkele subjecten uit de populatie, vaak random
geselecteerd.
• Census: als wel alle data van de hele populatie beschikbaar is.
Beschrijvende statistiek
Verwijst naar de methoden voor het samenvatten van de verzamelde data (kan zowel van een sample als van
een populatie zijn). Bestaat vaak uit grafieken en nummers (zoals gemiddelde en percentages).
Toetsende statistiek
Verwijst naar de methoden voor het maken van beslissingen of voorspellingen over een populatie, gebaseerd op
de verzamelde data vanuit een sample.
Parameter
Een numerieke samenvatting van de populatie. Vaak is deze echter onbekend.
Statistic
Een numerieke samenvatting van een steekproef (uit de populatie). Gebruiken om de parameterwaarden te
schatten.
Aselecte steekproef
Een sample is een goede afspiegeling van de populatie wanneer elk subject in de populatie dezelfde kans heeft
om mee te doen in die sample. Wordt gebruikt om de sample representatief te maken van de populatie.
Iedere sample zal weer iets van elkaar verschillen. Maar met een aselecte steekproef kan de hoeveelheid
variabiliteit wel voorspelt worden tussen de verschillende steekproeven.
,1.3 Using Calculators and Computers
Databestanden
Gebruiken om statistische analyses makkelijker te maken. Hierbij twee basisregels (voor opzetten van een
databestand):
1. Rijen: bevatten de metingen van een bepaald subject.
2. Kolommen: bevatten de metingen voor een bepaald kenmerk.
Databases
Als je in je onderzoek gebruik maakt van bestaande archieven van databestanden.
2.1 Different Types of Data
Variabiliteit
Alles en iedereen is anders. Statistische methoden geven een manier om de variabiliteit te meten en begrijpen.
Variabelen
Een kenmerk/eigenschap die geobserveerd is in een onderzoek.
Observatie
De datawaarden die we observeren voor een variabelen, elke observatie kan een nummer zijn of een categorie.
Grafieken en numerieke samenvattingen beschrijven de belangrijkste functies van een variabele.
Categorische variabele
Wanneer elke observatie hoort bij een van een set van categorieën.
Belangrijkste functie: beschrijven van het relatieve aantal observaties in de verschillende categorieën.
Kwantitatieve variabele
Als observaties een numerieke hoeveelheid aannemen, die verschillende magnitudes representeren op
die variabele.
Belangrijkste functies: beschrijven centrum en de variabiliteit (spreiding) van de data.
Discrete kwantitatieve variabele
Als de mogelijke waarden een set van losstaande nummers vormen. Meestal een telling ergens
van.
Continue kwantitatieve variabele
Als de mogelijke waarden een interval vormen. Meestal oneindig veel mogelijke waarden.
Frequentietabel
Eerste stap in numeriek samenvatten van de data is door te kijken naar de mogelijke waarden en tellen hoe vaak
elke zich voordoet.
Voor een categorische variabele:
- De categorie met hoogste frequentie is de modale categorie.
- De proportie van de observaties die vallen in een bepaalde categorie is de frequentie (telling) van
observaties in die categorie, gedeeld door het totaal aantal observaties.
- Het percentage is de proportie keer 100.
➢ Proporties en percentages worden relatieve frequenties genoemd, dienen als manier om de
metingen in categorieën samen te vatten.
, Voor een kwantitatieve variabele:
- De numerieke waarde met de hoogste frequentie is de modus.
- Een frequentietabel hierbij vaak de mogelijke waarden gedeeld in een set van intervallen, en
weergegeven van het aantal observaties in een bepaalde interval.
2.2 Graphical Summaries of Data
Grafieken voor categorische variabelen
1. Pie chart: een taartpunt voor elke categorie, de grootte van de punt correspondeert met het
percentage observaties in de categorie.
2. Staafgrafiek: een verticale staaf voor elke categorie, de hoogte van de staaf is het percentage
observaties in de categorie. Vaak zijn de staven los van elkaar (niet tegen elkaar aan).
3. Pareto chart: een staafgrafiek waarbij de categorieën worden geordend door hun frequentie,
beginnend met de hoogste staaf.
- Pareto principe: een kleine subset aan categorieën bevatten meestal de meeste observaties.
Grafieken voor kwantitatieve variabelen
1. Dot plot: geeft een stip voor elke observatie, geplaatst boven de waarde op de getallenlijn. Geeft dus de
individuele observaties weer. Aantal stippen boven een waarde representeert de frequentie van die
waarde.
2. Stam en blad plot: geeft ook alle individuele observaties weer. Iedere observatie is gerepresenteerd
door een stam en een blad. De data wordt geordend van klein naar groot, alle stammen komen in een
kolom, beginnend met de kleinste. In de andere kolom komen de bladen, noteren in oplopende
volgorde.
- Stam: bevat vaak alle getallen behalve de laatste.
- Blad: het laatste getal.
➢ Lijkt op dot plot, maar dan gedraaid. Met een stam en blad plot is het vaak makkelijker om de
exacte waarden van een observatie af te lezen. Maar over het algemeen krijg je bij beide dezelfde
informatie.
➢ Met beide is het makkelijk om de originele data te reconstrueren (omdat het individuele
observaties weergeeft). Dit wordt echter te veel werk bij grote datasets.
3. Histogram: een grafiek die staven gebruikt om de frequenties (of de relatieve frequenties) van de
mogelijke uitkomsten weer te geven. De waarden van individuele observaties gaan vaak verloren.
- Voor een discrete variabele: de histogram gebruikt dan vaak losstaande staven voor elke mogelijke
waarde.
- Voor een continue variabele: daarvoor de mogelijke waarden opdelen in intervallen. Dan wel de
staven tegen elkaar aan gezet.
Verdeling
Een grafiek voor een dataset beschrijft de verdeling van de data, de waarden die de variabele aanneemt en de
frequentie waarin elke waarde zich voordoet. De dataverdeling kan ook beschreven worden door een
frequentietabel.
Dingen om te bekijken in een dataverdeling:
• Algemene patroon: clustert de data samen, of is er een gat (uitschieters)?
• Is er een heuvel (unimodaal), waarbij de hoogste punt de modus is? Of zijn er twee heuvels (bimodaal)?
• De vorm: is de verdeling symmetrisch of is hij scheef?
,2.3 Measuring the Center of Quantitative Data
Centrum van de verdeling bij kwantitatieve variabelen
• Gemiddelde: de som van de observaties gedeeld door het aantal observaties.
- Het is het balanspunt van de data.
- Bij een scheve verdeling: het gemiddelde wordt getrokken in de richting van de langere staart
(relatief aan de mediaan).
- Het gemiddelde kan sterk beïnvloedt worden door uitschieters.
• Mediaan: de middelste waarde van de observaties, wanneer de observaties van klein naar groot
worden geordend (of andersom). De helft van de observaties zitten onder de mediaan, de andere helft
erboven.
➢ Het gemiddelde neemt alle exacte numerieke waarden mee van alle observaties, dat doet de
mediaan niet. De mediaan is dus resistent voor uitschieters.
• Modus: de waarde die het meest frequent voorkomt, maar bij kwantitatieve variabelen is dit vaak niet
waardevol (zou ook de waarde kunnen zijn die kleinste of grootste is, zou dan geen centrummaat
moeten zijn).
College 2
2.4, 2.5, 2.6
2.4 Measuring the Variability of Quantitative Data
Spreiding van de verdeling bij kwantitatieve variabelen
• Bereik: het verschil tussen de grootste en de kleinste observaties. Gebruikt dus alleen de extreme
waarden, en negeert alles wat er tussenin zit (dus sterk beïnvloedt door uitschieters).
➢ Heeft zowel de slechte eigenschappen van het gemiddelde (niet resistent zijn tegen uitschieters),
en van de mediaan (negeren van alle numerieke waarden van bijna alle data).
• Standaarddeviatie: gebruiken van alle data, beschrijven van de typische afstand van hoeveel de data
valt van het gemiddelde. Doet dit door het samenvatten van de deviaties van het gemiddelde.
- Deviatie van een observatie (x – 𝑥̅ ): verschil tussen een observatie en het steekproefgemiddelde.
o Elke observatie heeft een deviatie van het gemiddelde.
o Een deviatie is positief wanneer hij boven het gemiddelde valt, negatief andersom.
o De interpretatie van het gemiddelde als balanspunt impliceert dat de positieve deviaties
de negatieve deviaties uitmiddelen. De som van de deviaties is daarom altijd 0.
o Samenvattende maten van spreiding van het gemiddelde gebruiken daarom kwadraten of
de absolute waarden.
- Variantie: het gemiddelde van de kwadraten van de eenheden van de meting van de originele data.
Daarom de wortel gebruiken om makkelijker te interpreteren (dit is de standaarddeviatie).
i x x - 𝑥̅ x - 𝑥̅ 2
Deviaties Som
, - Hoe groter de standaarddeviatie, hoe groter de spreiding van de data.
- De standaarddeviaties kan worden beïnvloedt door uitschieters, omdat hij het gemiddelde gebruikt.
Empirische regel (interpreteren magnitude van standaarddeviatie)
Door gebruiken van het gemiddelde en de standaarddeviatie, we kunnen daarmee intervallen vormen die een
bepaald percentage van de data bevatten. Dit kan alleen als de dataverdeling bell shaped is.
• 68% van de observaties vallen binnen 1 s van het gemiddelde (beide kanten).
• 95% van de observaties vallen binnen 2 s van het gemiddelde (beide kanten).
• Alle (of bijna alle) observaties vallen binnen 3 s van het gemiddelde (beide kanten).
2.5 Using Measures of Position to Describe Variability
Recap
Het gemiddelde en de mediaan beschrijven het centrum van de verdeling. Het bereik en de standaarddeviatie
beschrijven de spreiding van de verdeling.
Een andere manier om de verdeling te beschrijven is door het gebruik van posities, voorbeelden:
- De mediaan: geeft aan dat een bepaald deel van de data boven dat punt valt en een deel eronder.
- Het bereik: de minimale en maximale waarde.
- Hoever een observatie valt van een bepaald punt (zoals aantal standaarddeviaties een observatie
van het gemiddelde valt).
Maatstaven van posities
• Percentielen: het 𝑝𝑒 percentiel is een waarde waarbij p procent van de observaties vallen op die waarde
(of lager).
• Kwartielen:
- Eerste kwartiel: p = 25 (dus 25e percentiel), de laagste 25% van de data valt hieronder.
- Tweede kwartiel: p = 50 (dus 50e percentiel), de mediaan.
- Derde kwartiel: p = 75 (dus 75e percentiel), de hoogste 25% van de data valt hierboven.
➢ De kwartielen splitsen de verdeling in vier delen, elke bevat een kwart van de observaties (25%).
Vinden van de kwartielen:
1. Data in volgorde zetten.
2. De mediaan bepalen (Q2).
3. Kijken naar de onderste helft van de observaties (exclusief de mediaan zelf wanneer n oneven is).
De mediaan bepalen van deze observaties (Q1).
4. Kijken naar de bovenste helft van de observaties (exclusief de mediaan zelf wanneer n oneven is).
De mediaan bepalen van deze observaties (Q3).
De kwartielen worden ook gebruikt om te spreiding te bepalen, die meer resistent is dan het bereik en de
standaarddeviatie.
, Meten van variabiliteit
• Interkwartielafstand: deze maat vat het bereik samen voor de middelste helft van de data (middelste
50% van de observaties vallen tussen Q1 en Q3).
- De afstand tussen Q1 en Q3 is de interkwartielafstand (IKA).
➢ Hoe meer de data varieert, hoe groter de IKA is.
➢ Echter, de IKA wordt niet beïnvloed door observaties onder Q1 of boven Q3, dus is resistent tegen
uitschieters. Het is daarom vaak beter om IKA te gebruiken in plaats van het bereik of de
standaarddeviatie om de spreiding van verdelingen te vergelijken die scheef verdeelt zijn of die
extreme uitschieters hebben.
Opsporen van mogelijke uitschieters
Daarvoor kun je de IKA gebruiken. Een observatie is een mogelijke uitschieters als het meer dan ‘1.5 x IKA’ onder
Q1 valt, of boven Q3.
• Q1 – 1.5 x IKA
• Q3 + 1.5 x IKA
Box plot
Grafiek van vijf nummers, samenvatting van de posities. Helpen om het centrum en de spreiding van een
verdeling te beschrijven.
• De vijf nummers: Q1, Q2, Q3, minimale waarde, maximale waarde.
• Construeren van een box plot:
1. Een box tekenen van Q1 tot Q3.
2. Een lijn tekenen in de box op de plek van de mediaan.
3. Een lijn van de laagste kant van de box naar de kleinste observatie (die geen mogelijke uitschieter
is). Hetzelfde aan de bovenkant. Deze lijnen zijn de snorharen.
➢ De uitschieters worden los weergegeven. Deze geven niet veel informatie over de vorm van de
verdeling, zeker bij grote datasets niet.
Vergelijking box plot en histogram
• Een box plot geeft bepaalde eigenschappen van een verdeling niet weer, zoals losse heuvels en
mogelijke gaten (dit doet een histogram wel).
• Een box plot is wel handiger voor het opsporen van mogelijke uitschieters.
• De histogram werkt beter voor grote datasets.