Samenvatting Beschrijvende en Inferentiële statistiek
Deeltentamen 1
Module 1 - H2
Statistiek: de methoden om gegevens te verzamelen, bewerken, interpreteren en presenteren. Die
gegevens noemen we data.
Beschrijvende statistiek: methode om data samen te vatten. Hoe zien de data eruit? Bijv. Wat is de
gemiddelde leeftijd?
Inferentiële statistiek: uitspraken en voorspellingen doen over hele populatie op basis van de
verkregen data. Wat kan ik op basis van de steekproef concluderen over de gehele populatie?
Een variabele is een kenmerk van iets of iemand dat in een studie wordt waargenomen die dienen te
variëren, bijvoorbeeld leeftijd. Cases zijn die dingen of personen. Mocht voor de verschillende cases
een kenmerk hetzelfde zijn, bijv. alle voetbalteams komen uit Spanje, dan is dit kenmerk een
constante i.p.v. variabele.
Verschillende soorten meetniveaus (bepaalt de methode die gebruikt wordt om data te analyseren):
Categorische variabelen: elke waarneming behoort tot een reeks van verschillende categorieën.
Bijvoorbeeld geslacht of godsdienstige overtuiging.
o Nominaal: verschillende categorieën die van elkaar verschillen. Er is echter geen rangorde.
Een categorie is dus niet beter, meer, kleiner dan een ander. Bijv. Nederlands, Duits of
Frans.
o Ordinaal: er zijn verschillende categorieën die van elkaar verschillen, die een rangorde
hanteren. Er zijn echter geen identieke afstanden tussen de verschillende categorieën, zoals
‘elke dag’, ‘nooit’ en ‘meer dan 1 keer per week’. Oftewel, we weten niets over de verschillen
tussen de categorieën.
Kwantitatieve variabelen: waarnemingen nemen numerieke waarden aan die verschillende
groottes van de variabele vertegenwoordigen. Bijvoorbeeld leeftijd. Let op! Een variabele die
getallen gebruikt als labels voor haar categorieën is nog steeds categorisch en niet kwantitatief.
o Interval: verschillende categorieën, een rangorde en vergelijkbare intervallen (identieke
afstanden) tussen de categorieën (bijv. leeftijd)
o Ratio: vergelijkbaar met het interval niveau, maar heeft ook een nulpunt met betekenis. Bijv.
iemands lengte. Er is een rangorde, er zijn vergelijkbare intervallen en we hebben een
nulpunt met betekenis. Een lengte van 0 centimeter betekent dat er helemaal geen lengte is.
Kwantitatieve variabelen kunnen ook als volgt geclassificeerd worden:
- Discreet: de mogelijke waarden vormen een reeks afzonderlijke getallen. Bijv. het aantal
gescoorde doelpunten door een speler. Je kan 1 of 2 doelpunten scoren, maar niet 1,21
doelpunten.
- Continu: de mogelijke waarden vormen een interval. Continue variabelen hebben een oneindig
continuüm van mogelijke waarden. Bijv. de lengte van een voetbalspeler. Je kan 169 centimeter,
170 of 170,246 centimeter zijn.
Grafieken en numerieke samenvattingen beschrijven de belangrijkste kenmerken van een variabele:
Voor categorische variabelen is een belangrijk kenmerk het relatieve aantal waarnemingen in de
verschillende categorieën. Bijv. welk percentage van de dagen was zonnig in een bepaald jaar?
Voor kwantitatieve variabelen zijn de belangrijkste te beschrijven kenmerken: het centrum (mediaan,
gemiddelde, modus) en de variabiliteit (soms spreiding genoemd) van de gegevens. Bijv. wat is een
typische jaarlijkse hoeveelheid neerslag? Is er veel variatie van jaar tot jaar?
1
,Datamatrix: overzicht van je cases (rijen) en variabelen (kolommen). Dit geeft echter geen goed
overzicht van de statistische informatie. Hiervoor worden vaak samenvattingen van data gebruikt, in
de vorm van tabellen en grafieken. Het is een kernelement van elke statistische studie.
De verdeling van een variabele beschrijft hoe de waarnemingen worden verdeeld over het bereik van
mogelijke waarden. Voor een categorische variabele zijn de mogelijke waarden de verschillende
categorieën, en elke waarneming valt in één van de categorieën. De verdeling voor een categorische
variabele toont dan eenvoudigweg alle mogelijke categorieën en het aantal (of aandeel) van de
waarnemingen die in elke categorie vallen. Voor een kwantitatieve variabele wordt het hele bereik van
mogelijke waarden opgesplitst in afzonderlijke intervallen, en wordt het aantal (of aandeel) van de
waarnemingen die in elk interval vallen gegeven.
Een frequentietabel is een lijst van mogelijke waarden voor een variabele, samen met het aantal
waarnemingen voor elke waarde. Voor een categorische variabele bevat een frequentietabel de
categorieën en het aantal keren dat elke categorie is waargenomen. Een frequentietabel kan ook de
verhoudingen of percentages weergeven van het aantal waarnemingen die in elke categorie vallen
(relatieve frequenties of cumulatieve frequenties - de percentages van iedere categorie opgeteld bij de
vorige). Dit wordt veelal gebruikt om een discrete kwantitatieve variabele weer te geven. Voor een
continue kwantitatieve variabele (of wanneer het aantal mogelijke uitkomsten voor een discrete
variabele zeer groot is), verdelen wij de numerieke schaal waarop de variabele wordt gemeten in een
reeks elkaar niet overlappende intervallen (ordinale categorieën) en tellen wij het aantal
waarnemingen dat in elk interval valt. Dit heet recoderen.
2.2 Graphical summaries of data
De twee primaire grafische weergaven voor het samenvatten van een categorische variabele zijn de:
- Taartdiagram: een cirkel met voor elke categorie een schijfje van de taart. De grootte van een
schijfje komt overeen met het percentage van waarnemingen in de categorie.
- Staafdiagram: geeft voor elke categorie een verticale staaf weer. De hoogte van de staaf is het
percentage waarnemingen in de categorie. Gewoonlijk staan de verticale balken voor elke
categorie uit elkaar, niet naast elkaar.
Een pareto-diagram is een type diagram dat zowel staven als een lijngrafiek bevat, waarbij
individuele waarden in aflopende volgorde worden weergegeven door staven (categorieën
gerangschikt volgens hun frequentie), en het cumulatieve totaal wordt vertegenwoordigd door de lijn.
Het diagram helpt om het Pareto-principe weer te geven, dat stelt dat een kleine deelverzameling van
categorieën vaak de meeste waarnemingen bevat.
De drie primaire grafische weergaven voor het samenvatten van een kwantitatieve variabele zijn de:
- Dot plot: toont voor elke waarneming een punt, geplaatst net boven de waarde op de getallenlijn
voor die waarneming. Om een dot plot te construeren, trek een horizontale lijn. Label deze met de
naam van de variabele en markeer er regelmatige waarden van de variabele op. Plaats voor elke
waarneming een punt boven de waarde op de getallenlijn.
- Stengel-en-bladplot: is vergelijkbaar met de dot plot in de zin dat het individuele waarnemingen
weergeeft. Elke waarneming wordt voorgesteld door een stengel en een blad. Gewoonlijk bestaat
de stengel uit alle cijfers behalve het laatste cijfer, dat het blad is. Sorteer de gegevens in volgorde
van kleinste naar grootste. Zet de stengels in een kolom, te beginnen met de kleinste. Zet rechts
van hen een verticale lijn. Geef aan de rechterkant van de verticale lijn elk blad (laatste cijfer) aan
dat een bepaalde stengel heeft. Zet de blaadjes in oplopende volgorde.
- Histogram: In het geval van grote gegevensreeksen is een histogram een veelzijdigere manier
om de gegevens in een grafiek weer te geven en de verdeling in beeld te brengen. Het gebruikt
staven om de (relatieve) frequenties van de mogelijke uitkomsten voor een kwantitatieve variabele
2
, weer te geven. Voor een discrete variabele heeft een histogram gewoonlijk een afzonderlijke staaf
voor elke mogelijke waarde. Voor een continue variabele moeten wij het bereik van mogelijke
waarden verdelen in kleinere intervallen van gelijke breedte. Dit kan o ok worden gedaan wanneer
een discrete variabele, zoals de score op een examen, een groot aantal mogelijke waarden heeft.
Gewoonlijk zijn ongeveer 5 tot 10 intervallen voldoende, met misschien extra intervallen als de
steekproefgrootte vrij groot is. Er is niet één juiste manier om de intervallen te kiezen.
Een histogram (of een stam-en-blad- of puntplot) visualiseert de verdeling van een kwantitatieve
variabele. Er zijn drie kenmerken waar rekening mee gehouden dient te worden:
- Enkele of dubbele piek: wanneer de verdeling een enkele heuvel of piek heeft, wordt deze
unimodaal genoemd. Een verdeling met twee verschillende pieken wordt bimodaal genoemd.
- Vorm:
o Symmetrisch: de zijde van de verdeling onder een centrale waarde is een spiegelbeeld van
de zijde boven die centrale waarde.
o Scheef: één zijde van de verdeling is langer dan de andere zijde / in één richting uitgerekt.
Een verdeling is scheef naar links als de linkerstaart langer is dan de rechterstaart. Een
verdeling is scheef naar rechts als de rechterstaart langer is dan de linkerstaart. Een linkse
scheve verdeling strekt zich naar links uit, een rechtse naar rechts. De delen van de kromme
voor de laagste waarden en voor de hoogste waarden worden de staarten van de verdeling
genoemd.
- Geclusterde gegevens of een kloof waarbij een of meer waarnemingen merkbaar afwijken van de
rest.
Voor sommige variabelen veranderen waarnemingen in de loop van de tijd. Bijv. de dagelijkse
slotkoers van een aandeel. Een gegevensreeks die in de loop van de tijd is verzameld, wordt een
tijdreeks genoemd. We kunnen tijdreeksgegevens grafisch weergeven met behulp van een tijdplot.
Hierin wordt elke waarneming, op de verticale schaal, afgezet tegen het tijdstip waarop ze werd
gemeten, op de horizontale schaal. Vaak wordt gezocht naar een trend/patroon in de tijd, die aangeeft
of de gegevens de neiging hebben te stijgen of te dalen. Om een trend duidelijker te zien, is het nuttig
de gegevenspunten in hun tijdsvolgorde met elkaar te verbinden. Een andere manier om
tijdreeksgegevens weer te geven is met een soort staafdiagram.
2.3 Measuring the Center of Quantitative Data
Een statistiek is een numerieke samenvatting van een steekproef (d.w.z. de voor een variabele
waargenomen gegevens). Een parameter is een numerieke samenvatting van de populatie.
Het gemiddelde is de som van de waarnemingen gedeeld door het aantal waarnemingen. Het wordt
geïnterpreteerd als het evenwichtspunt van de verdeling. Gewoonlijk is het gemiddelde niet gelijk aan
een waarde die in de steekproef is waargenomen. Het gemiddelde kan sterk worden beïnvloed door
een uitschieter (outlier), dat is een waarneming die ver boven of onder de totale massa van de
gegevens valt.
3
, De mediaan is de middelste waarde van de waarnemingen wanneer de waarnemingen worden
gerangschikt van klein naar groot. Het punt dat de gegevens in tweeën splitst, de helft van de
gegevens eronder en de helft erboven. Als het aantal waarnemingen oneven is, is de mediaan de
middelste waarneming in de geordende steekproef. Als het aantal waarnemingen even is, vallen twee
waarnemingen uit de geordende steekproef in het midden, en is de mediaan hun gemiddelde.
Wanneer een verdeling (bijna) symmetrisch is, zijn de mediaan en het gemiddelde gelijk. Hoe schever
de verdeling is, hoe meer het gemiddelde en de mediaan van elkaar verschillen. Dit komt doordat
extreme waarnemingen in een staart van invloed zijn op het evenwichtspunt van de verdeling, dat het
gemiddelde is. De mediaan wordt alleen bepaald door een gelijk aantal waarnemingen erboven en
eronder. De mediaan is daardoor resistent, aangezien extreme waarnemingen weinig of geen invloed
hebben op de waarde ervan. Als een verdeling erg scheef is, wordt meestal de voorkeur gegeven aan
de mediaan boven het gemiddelde, omdat dit beter weergeeft wat typisch is. Als de verdeling bijna
symmetrisch of slechts licht scheef is, wordt meestal de voorkeur gegeven aan het gemiddelde, omdat
dit de numerieke waarden van alle waarnemingen gebruikt.
In het algemeen, als de vorm:
perfect symmetrisch is, is het gemiddelde gelijk aan de mediaan.
scheef naar links is, is het gemiddelde kleiner dan de mediaan.
scheef naar rechts is, is het gemiddelde groter dan de mediaan.
De modus is de waarde die het vaakst voorkomt. Bij kwantitatieve variabelen is de modus het nuttigst
bij discrete variabelen die een klein aantal mogelijke waarden hebben. Voor continue waarnemingen is
het meestal niet zinvol naar een modus te zoeken omdat er meerdere modi (bij een biomodale grafiek)
of helemaal geen modus kunnen zijn. Bij een nominale variabele is het onmogelijk om het gemiddelde
of de mediaan te berekenen. Hier kan alleen de modus berekend worden.
2.4 Measuring the variability of quantitative data
Een meting van het centrum is niet voldoende om een verdeling voor een kwantitatieve variabele
adequaat te beschrijven. Het zegt niets over de variabiliteit of dispersie van de gegevens.
Het bereik is het verschil tussen de grootste (maximum) en de kleinste waarneming (minimum). Het
bereik neemt alleen de extreme waarden mee en negeert de andere waarden. Oftewel, hij wordt sterk
beïnvloed door uitschieters. Het bereik is daarom geen resistente statistiek.
Een betere numerieke samenvatting van de variabiliteit maakt gebruik van alle gegevens, en beschrijft
een typische afstand van hoe ver de gegevens van het gemiddelde afliggen. Dit gebeurt door de
afwijkingen van het gemiddelde samen te vatten.
De deviatie van een waarneming x van het gemiddelde x is ( x - x ) het verschil tussen de waarneming
en het steekproefgemiddelde.
Een afwijking is positief als de waarneming boven het gemiddelde valt en negatief wanneer deze
onder het gemiddelde valt. De interpretatie van het gemiddelde als het evenwichtspunt impliceert dat
de positieve afwijkingen opwegen tegen de negatieve afwijkingen. Hierdoor is de som (en dus het
gemiddelde) van de afwijkingen altijd gelijk aan nul, ongeacht de werkelijke waarden van de
gegevens.
4