Hoofdstuk 1 – Statische kengetallen
Statistiek is de wetenschap die zich bezighoudt met de waarneming, de bestudering en de analyse van
massaverschijnselen.
Beschrijvende statistiek is dat deel van de statistiek dat zich bezighoudt met de verwerking en weergave van
feiten, zodanig dat een goed overzicht van de gegevens ontstaat. Dus toelichten en verwerken van de
gegevens. Bijvoorbeeld gebruikmaken van een steekproef = bepaald deel van een groep.
Verklarende statistiek is het verklaren van de samenhang tussen bepaalde verschijnselen of het doen van
voorspellingen.
Verschillende doelen voor het gebruik van statisch onderzoek:
• Het bepalen van de totale omvang een massa (bijvoorbeeld woningtelling).
• Het bepalen van de structuur (samenstelling) van een massa.
• Het opstellen van prognoses (voorspellingen).
• Het bepalen van de correlatie (samenhang) tussen twee of meer verschijnselen.
Hieruit blijkt dat de statistiek tot doel heeft het verschaffen van overzicht van en inzicht in
massaverschijnselen.
De verzameling van elementen (veelal personen of zaken) waarop een onderzoeking betrekking heeft, noemt
men een populatie of universum (bijvoorbeeld autobezitters, Griekse restaurants, huishoudens zonder
thuiswonende kinderen, etc.). Wanneer we alle personen uit die groep (uit de populatie) betrekken in het
onderzoek, spreken we van een integraal onderzoek. Wanneer we slechts een gedeelte van de groep (van de
populatie) onderzoeken, spreken we van een steekproef.
In de statistiek is een variabele een kenmerk dat een persoon, een ding, een plaats of idee beschrijft. Een
waarde van een variabele kan verschillende vormen aannemen. Alle waargenomen waarden samen noemt
men de data.
Variabelen kunnen worden ingedeeld naar discreet en continu. Discrete variabele zijn variabele wanneer de
waarden op een rijtje kunnen worden gezet en duidelijk te onderscheiden zijn (dus geslacht, aantal kinderen,
etc.). Continu variabele zijn variabele wanneer de waarde als een oneindig getal kan zijn (dus massa, lengte,
tijdsduur, etc.). De waarden worden bij continu meestal afgerond maar kan een eindeloos getal zijn (iemands
lengte kan 1.785636239 zijn).
Een manier om de verzamelde gegevens te ordenen, is de rangschikking naar grootteklassen (bijvoorbeeld
naar leeftijd, gewicht, bedrag, etc.). Men deelt dan de verschillende groottemogelijkheden in een aantal
klassen. Een verdeling naar klasse noemt met frequentieverdeling. De frequentieverdeling van een variabele
geeft aan hoe vaak de waarde (of klasse) van de variabele voorkomt.
Het aantal waarnemingen per klasse (per waarde) gaat via turven. Het aantal waarnemingen per klasse (per
waarde) wordt de absolute frequentie genoemd. De cumulatief absolute frequentie is het totale aantal
waarnemingen dat in de bedoelde klasse (waarde) en in de lagere klasse valt. (Hoeveel is er kleiner dan?).
,De klassenbreedte is het verschil tussen de laagste waarde in de klasse en de laagste waarde in de daarop
volgende klasse. Dus bij bovenstaand is dat telkens 50.
Hiernaast bestaan er nog de relatieve frequentieverdeling en cumulatieve relatieve frequentieverdeling.
De relatieve frequentieverdeling zorgt ervoor dat verschillende frequentieverdelingen beter met elkaar te
vergelijken zijn. De relatieve frequentieverdeling is te berekenen door elke absolute frequentie te delen door
het totaal aan absolutie frequenties x 100%. Bij onderstaande afbeelding is dat voor de eerste klasse dus 5/200
x 100% = 2,5%.
Bij de cumulatieve relatieve frequentie is het eigenlijk hetzelfde verhaal. Hier wordt alleen de cumulatieve
relatieve frequentie kolom gebruikt. Dus bij onderstaand voorbeeld is dat (rij 2) 16/200 x 100% = 8,0%.
Soms kunnen de klassenbreedtes niet allemaal van gelijke grootte zijn. Het gevolg bestaat dat de frequenties
niet goed met elkaar te vergelijken zijn. Om dit op te lossen kijken we naar de frequentiedichtheid. Eerst
bepaal je de absolute frequentie, deze deel je door de klassenbreedte. Dus bij de laatste rij is dat bijvoorbeeld
52/40 = 1,3. Zie onderstaande tabel.
We kunnen een frequentieverdeling weergeven door middel van:
• Histogram (= kolommendiagram)
• Staafdiagram
• Frequentiepolygoon
• Lijndiagram
• Cirkeldiagram
• Beelddiagram
• Lorenz-curve
,Het histogram of kolommendiagram is de grafische weergave van de frequentieverdeling van een continu
variabele, waarbij de kolommen op elkaar aansluiten. Op de horizontale as staan de verschillende klassen (of
in ieder geval zo verdeeld). Op de verticale as staat de absolute frequentie. Dit gebeurt alleen bij gelijke
breedtes. Bij ongelijke breedtes wordt gebruikgemaakt van de frequentiedichtheid.
Voorbeeld histogram
Een staafdiagram is vrijwel hetzelfde als een histogram. Een staafdiagram geldt alleen voor discrete variabele
(= geslacht, aantal kinderen, etc.). Bij een staafdiagram wordt er ruimte gelaten tussen de staven.
Bij de frequentiepolygoon moet je goed opletten. Dit is eigenlijk een lijndiagram. Je moet ervoor zorgen dat er
eerst stippen komen, deze ga je daarna met elkaar verbinden. De stippen zet je in het midden van de klassen,
de klassen staan zoals bij elke op de horizontale as. Op de verticale as staat gewoon de absolute frequentie of
de frequentiedichtheid.
Voorbeeld frequentiepolygoon
Bij de cumulatieve frequentiepolygoon zet je de stippen niet in het midden van de klassen, maar op de
hoogste waarde van de klassen. Dus heb je een groep tussen 0 en 50, dan gaat de stip boven de 50.
Het cirkeldiagram wordt gebruikt voor de relatieve frequentieverdeling. Dit komt omdat de totaliteit van de
circkel 100% is. Elke stukje is dus een percentage.
Voorbeeld cirkeldiagram
Bij 22% hoort een hoek van: 0,22 × 360° = 79°.
De Lorenz-curve wordt gebruikt voor de cumulatieve relatieve frequentie verdeling. Zowel op de horizontale
as als op de verticale as staat de cumulatieve relatieve frequentie. Van verschillende elementen. Door de
grafiek staat een rechte lijn van 45 graden. Dit houdt een gelijke verdeling in. Hoe verder van de lijn, hoe
bijvoorbeeld onregelmatig een inkomensverdeling is.
, Voorbeeld Lorenz-curve
Soms krijg je zoveel informatie dat het nodig is om selectief te werk te gaan. Er wordt gevraagd om een locatie
van een verdeling. Veelgebruikte maten voor de centrale tendentie (locatie) zijn het gemiddelde, de modus en
de mediaan.
In het gemiddelde bestaat het ongewogen gemiddelde en het gewogen gemiddelde. Bij het ongewogen
gemiddelde kijken we gewoon naar het gemiddelde zonder rekening te houden met iets dergelijks. Het
gewogen gemiddelde is een gemiddelde van een reeks getallen met bijhorende reële positieve gewichten, de
weegfactoren, waarvan de waarde het meest beïnvloed wordt.
Voorbeeld gewogen gemiddelde:
Prijs Aantal verkochte producten
€12,60 120 stuks
€15,80 200 stuks
€17,50 150 stuks
Totaal: 470 stuks
(12,60 x 120) + (15,80 x 200) + (17,50 x 150) = €1512 + €3160 + €2625 = €7297
€ stuks = €15,53 (Je houdt dus rekening met hoeveelheden en invloeden).
Voorbeeld van het gemiddelde bij een frequentie verdeling
De modus is de waarneming die het meeste voorkomt, ofwel die de hoogste frequentie heeft. We bespreken
meestal in de vorm modale inkomen of modale klasse = komt het meest voor en betreft de grootste groep.
De mediaan is de middelste waarneming.
Voorbeeld mediaan
Wat is de mediaan van de volgende getallen: 1, 2, 6, 9, 12, 14?
Je hebt hier 6 getallen, dus de mediaan is het gemiddelde van het 3e en 4e getal. Dit zijn 6 en 9, dus de mediaan
is dan (6+9) / 2 = 7,5.