Beschrijvende en Inferentiële statistiek (BIS) – Deeltentamen 1
College 1 – Beschrijvende univariate statistiek (H2)
Statistiek gaat over de methoden om gegevens te verzamelen, bewerken, interpreteren en presenteren. Deze gegevens worden
ook wel data genoemd
• Beschrijvende statistiek
Samenvatting van de verkregen data
• Inferentiële statistiek
Uitspraken en voorspelingen doen over de hele populatie op basis van de verkregen data van de steekproef
In dit college gaat het over beschrijvende univariate statistiek. Univariaat betekent dat het over één variabele gaat.
Meetniveaus van variabelen
Een variabele is een meetbaar concept, een eigenschap waarop cases (meestal personen) variëren. Er kunnen verschillende
meetniveaus van variabelen worden onderscheiden:
• Dichotoom (dummy variable)
De classificatie bestaat uit twee elkaar uitsluitende en uitputtende categorieën
Voorbeeld: geslacht, iemand is een man of een vrouw
• Nominaal (nominal variable)
De classificatie bestaat uit meerdere elkaar uitsluitende en uitputtende categorieën
Voorbeeld: met welk vervoersmiddel reis je naar de VU?
• Ordinaal (ordinal variable)
De classificatie bestaat uit elkaar uitsluitende en uitputtende categorieën en heeft een rangordening
Voorbeeld: opleidingsniveau, deze heeft wel een rangorde maar het verschil tussen de categorieën is niet eenduidig
• Interval/ratio (scale variable)
De classificatie bestaat uit elkaar uitsluitende en uitputtende categorieën, heeft een rangordening en heeft gelijke
afstanden tussen de gemeten categorieën
Voorbeeld: gewicht, de opties tussen de verschillende gewichten nemen telkens met hetzelfde aantal toe
Centrummaten
Binnen de beschrijvende statistiek worden diverse centrummaten onderscheiden. Deze beschrijven het centrum van de data
• Gemiddelde (mean, M)
Het gemiddelde wordt ook wel de verwachte waarde genoemd en is de beste gok over een
waarneming als je verder nog niets weet. Het gemiddelde kan worden berekend door de totale som
van observaties te delen door het aantal observaties. De x in deze formule wordt ook wel de x-bar
genoemd
• Mediaan (median, Md)
De mediaan is het middelpunt van de observaties wanneer deze van laag naar hoog worden geordend. Wanneer het
aantal observaties oneven is, is de mediaan het middelste getal. Wanneer het aantal observaties even is, wordt de
mediaan bepaald door het gemiddelde van de twee observaties in het middelpunt
• Modus (mode)
De modus is de waarde die het meest voorkomt
Soorten variabelen in beschrijvende statistiek
Een variabele is elk kenmerk dat wordt waargenomen voor de proefpersonen in een onderzoek. Er kunnen twee typen
variabele worden onderscheiden:
• Categorische variabelen
Een variabele is categorisch wanneer elke observatie bij een van de categorieën hoort. Deze variabelen hebben geen
getallen als waarde, maar kenmerken of categorieën, zoals geslacht, nationaliteit, religie of opleidingsniveau
o Nominaal
De variabele heeft meerdere groepen, maar er is geen rangordening. Een speciaal geval van een nominale
variabele is een dichotoom
o Ordinaal
De groepen hebben een rangordening, maar geen vaste afstand. Deze variabelen worden soms voor het
gemak als kwantitatief behandeld
• Kwantitatieve variabelen
Een variabele is kwantitatief wanneer de observaties de waarde van een getal aannemen die overeenkomt met een
van de verschillende grootten van de variabele, zoals leeftijd, gewicht, lengte of inkomen. Bryman noemde deze
variabelen ook wel interval/ratio (scale)
o Discreet
Een variabele waarbij slechts bepaalde waarden kunnen voorkomen, bijvoorbeeld alleen hele getallen (dit
is onder andere het geval bij het aantal kinderen of het aantal huisdieren)
o Continu
Een variabele waarbij oneindig veel mogelijkheden zijn in waarde, zoals bij afstand. Er is hierbij dus een
kommagetal mogelijk
,Weergave van categorische data
Categorische data kan op verschillende manieren worden weergegeven:
• Frequentietabel
In een frequentietabel is een lijst met mogelijke waarden voor een variabele, samen met het aantal waarnemingen
voor elke waarde. Er worden verschillende getallen weergegeven:
o Frequentie
Het aantal keer dat een observatie is waargenomen (absolute frequentie)
o Proportie
Het aantal keer dat een observatie is waargenomen binnen een bepaalde categorie in verhouding tot het
totale aantal observaties. Deze is altijd tussen de 0 en 1 (relatieve frequentie)
o Percentage
De proportie in procenten, welke berekend kan worden door de proportie x 100 te doen (relatieve
frequentie)
Regio Frequentie Proportie Percentage
Frankrijk 1 0,17 17
België 3 0,5 50
Nederland 2 0,33 33
Totaal 6 1 100
• Taartdiagram (pie chart)
Een taartdiagram is een cirkel waarbij elk stuk taart voor een andere categorie staat. De grootte van het stuk geeft
de grootte van de categorie weer
• Staafdiagram (bar chart)
Bij een staafdiagram wordt voor elke categorie een verticale staaf weergegeven. Om deze reden zit er een stukje wit
tussen. De hoogte van de staaf geeft de grootte van de categorie weer. Wanneer een staafdiagram is geordend op
frequentie wordt dit ook wel een Pareto chart genoemd. Op deze manier is het namelijk gemakkelijk het Pareto-
principe toe te passen, waarbij wordt gesteld dat een klein deel van de categorieën (20%) de meeste observaties
bevat (80%)
Weergave van kwantitatieve data
Kwantitatieve data kan op verschillende manieren worden weergegeven:
• Puntdiagram (dot plot)
Een puntdiagram geeft een punt weer voor elke individuele observatie, geplaatst boven de waarde die op de lijn
wordt weergegeven voor die observatie. Het aantal punten boven een nummer geeft weer hoe vaak de observatie
van die waarde is gedaan. Deze manier van data weergeven is alleen geschikt voor kleine dataset
• Stam-bladdiagram (stem-and-leaf plot)
In een stamdiagram wordt elke observatie individueel weergegeven in de stam en in het blad. De stam blijft daarbij
telkens hetzelfde, terwijl het blad veranderd. Bij de stam 1, horen in onderstaand voorbeeld de bladeren 1, 4, 8 en 8,
Dit betekent dat de volgende getallen zijn geobserveerd: 11,14, 18 en 18, De data wordt hierbij van klein naar groot
weergegeven. Deze manier van data weergeven is alleen geschikt voor kleine datasets
, Stam Blad
1 1488
2 346
3 28
• Histogram
Een histogram is een grafiek waarbij staven worden gebruikt die de frequentie of de relatieve frequentie
weergeven. Hierbij zitten er geen witte stukken tussen de staven. Wanneer een histogram wordt gemaakt voor een
discrete variabele, wordt er een aparte staaf gemaakt voor elke variabele. Wanneer een histogram wordt gemaakt
voor een continue variabele, worden verschillende observaties samengevoegd tot intervallen. Er worden tussen de 5
en 10 intervallen gemaakt
Verdelingen van data
Een grafiek geeft de verdeling van de data weer. De verdeling kan verschillende vormen aannemen:
• Unimodale verdeling
Bij een unimodale verdeling is de data in het midden weergegeven. De spreiding van de data is hierbij laag en
daarom is het bij deze dataverdeling goed mogelijk om het gemiddelde uit te rekenen
• Bimodale verdeling
Bij een bimodale verdeling is de data aan twee kanten verdeeld. Dit kan voorkomen wanneer de respondenten erg
verdeeld zijn over een bepaald onderwerp. De spreiding van de data is hierbij hoog en daarom is het niet handig om
het gemiddelde uit te rekenen of de modus de bepalen. In plaats daarvan kan naar de mediaan worden gekeken
• Scheve verdeling (asymmetrisch)
Een verdeling is scheef wanneer de ene kant van de verdeling langer is dan de andere kant. Een scheve verdeling
kan op twee manieren voorkomen:
o Skewed to the right
Wanneer de linker kant hoger is dan de rechter kant, is de data ‘skewed to the right’. Om dit makkelijk te
onthouden kan je bedenken dat er aan deze kant van de grafiek naar beneden geskied kan worden. In een
dergelijk geval is het gemiddelde altijd het hoogst, daarna de mediaan en tot slot de modus. De meeste
observaties bevinden zich dus aan de linkerkant
o Skewed to the left
Wanneer de rechterkant hoger is dan de linker kant, is de data ‘skewed to the left’. Om dit gemakkelijk te
onthouden kan je bedenken dat er aan deze kant van de grafiek naar beneden geskied kan worden. In een
dergelijk geval is het gemiddelde altijd het laagst, daarna de mediaan en tot slot de modus. De meeste
observaties bevinden zich dus aan de rechterkant