BEDRIJFSSTATISTIEK – SESSIE 1: BESCHRIJVENDE STATISTIEK
WAT IS STATISTIEK?
In de breedste zin van het woord kunnen we de studie definiëren als de methodologie om nuttige
informatie uit een dataset te halen.
Drie stappen zijn essentieel voor het doen van goede statistieken.
1) Ten eerste moeten we de juiste gegevens vinden, die zowel volledig zijn als geen
verkeerde voorstelling van zaken geven.
2) Ten tweede moeten we gebruik maken van de juiste statistische instrumenten,
afhankelijk van de beschikbare gegevens.
3) Tot slot is een belangrijk ingrediënt van een goed uitgevoerde statistische analyse
het duidelijk communiceren van numerieke informatie in geschreven taal.
We verdelen de studie van de statistieken over het algemeen in twee takken: beschrijvende
statistieken en inferentiële statistieken.
Beschrijvende statistiek: verwijst naar de samenvatting van belangrijke aspecten van een
dataset. Dit omvat het verzamelen van gegevens, het organiseren van de gegevens en vervolgens
het presenteren van de gegevens in de vorm van grafieken en tabellen.
Inferentiële statistiek: heeft betrekking op het trekken van conclusies over een grote set van
data - een populatie genaamd - op basis van een kleinere set van steekproefgegevens. Een
populatie wordt gedefinieerd als alle leden van een bepaalde groep (niet noodzakelijkerwijs
mensen), terwijl een steekproef een deelverzameling is van die bepaalde populatie.
Onderzoekers gebruiken dit steekproefresultaat, dat een steekproefstatistiek wordt genoemd, in
een poging de corresponderende onbekende bevolkingsparameter te schatten.
0. AANTAL BEGRIPPEN
, Populatie versus steekproef (population versus sample)
- Een populatie bestaat uit alle items die van belang zijn voor een statistisch probleem.
Een steekproef is een deelverzameling van de populatie. We analyseren de gegevens
van de steekproef en berekenen een steekproefstatistiek om conclusies te kunnen
trekken over de onbekende bevolkingsparameter.
Dwarsdoorsnede- en tijdreeksgegevens (cross-sectional data and time series
data)
- Dwarsdoorsnede-gegevens bevatten waarden van een kenmerk van veel
proefpersonen op hetzelfde punt of ongeveer hetzelfde tijdstip.
- Tijdreeksgegevens bevatten waarden van een kenmerk van een onderwerp in de tijd.
Gestructureerde gegevens, ongestructureerde gegevens en omvangrijke
gegevens (structured data, unstructured data and big data)
- Gestructureerde gegevens bevinden zich in een voorgedefinieerd rij-kolomformaat,
terwijl ongestructureerde gegevens niet overeenkomen met een voorgedefinieerd rij-
kolomformaat.
- De term big data wordt gebruikt om een enorme hoeveelheid zowel gestructureerde
als ongestructureerde data te beschrijven die uiterst moeilijk te beheren, te
verwerken en te analyseren zijn met behulp van traditionele
gegevensverwerkingstools.
o De beschikbaarheid van big data impliceert echter niet noodzakelijkerwijs
volledige (populatie)data.
1. VARIABELEN EN SOORTEN METINGEN
(Concept of a variable and types of measurement scales)
Een variabele
- Is een algemeen kenmerk dat wordt waargenomen op een set van mensen, objecten
of gebeurtenissen; waarbij elke waarneming in een bepaalde mate varieert.
o Een kwalitatieve variabele : We gebruiken labels of namen om het
onderscheidend vermogen van elke waarneming te identificeren.
Uiteindelijk kunnen deze kenmerken worden gecodeerd in getallen ten
behoeve van de verwerking van de datum.
o Een kwantitatieve variabele gaat uit van betekenisvolle numerieke
waarden; Administratie kan verder worden gecategoriseerd als discreet of
continu.
Een discrete variabele veronderstelt een telbaar aantal waarden
Een continue variabele wordt gekenmerkt door niet-telbare waarden
binnen een interval.
bv. Leeftijd: 19 jaar, 4 maan, 32 uur, 22 min, 11 sec, 18
miliseconden,…etc
Measurement scales
,Alle gegevensmetingen kunnen worden ingedeeld in een van de vier grote categorieën.
1) De nominale schaal:
o Vertegenwoordigt het minst geavanceerde meetniveau. De waarden op een
nominale schaal verschillen alleen van naam. Deze waarden worden dan
eenvoudigweg gecategoriseerd of gegroepeerd op naam.
o Verschillende klasses of categorieën zonder dat de ene belangrijker of groter is
dan de andere
2) Ordinale schaal:
o De waarden op een ordinale schaal kunnen worden gecategoriseerd EN
gerangschikt; verschillen tussen de gerangschikte waarden hebben echter
geen betekenis.
3) De intervalschaal:
o Is een sterkere meetschaal dan de nominale en ordinale schalen.
o Waarden op de intervalschaal kunnen worden gecategoriseerd en
gerangschikt, en verschillen tussen de waarden ZIJN MEANINGFUL.
o Het grootste nadeel van de intervalschaal is dat de waarde van nul willekeurig
wordt gekozen; dit betekent dat verhoudingen die zijn opgebouwd uit
intervalschaalwaarden geen betekenis hebben.
bv. 10 °C en XX farenheit voelt hetzelfde aan maar je hebt geen precies
getal
4) De verhoudingschaal:
o Vertegenwoordigt het sterkste meetniveau.
o Verhoudingsgegevens hebben alle kenmerken van intervalgegevens en ook
het echte nulpunt; dus, zoals de naam al aangeeft, kunnen zinvolle ratio's
worden berekend met kwalitatieve variabelen, en zijn rekenkundige
bewerkingen geldig op kwalitatieve variabelen.
bv. Winst of verlies met 0 het nulpunt
,2. POPULATIE EN STEEKPROEF
(denk aan begrip populatie en steekproef hierboven)
Waarom hebben we een steekproef nodig?
- Vanuit de populatie kunnen we een steekproef, die zo representatief voor de
populatie als mogelijk is, nemen.
, - Hierop kunnen we een analyse uitvoeren en deze analyse-resultaten toepassen op de
populatie.
Sample
Population Subset of items selected from
population
Size = n< N
All items of interest
Size = N
Sampling strategies
Onthoud: een eerste vereiste voor een 'goede' steekproef is dat deze representatief is voor
de populatie die u probeert te beschrijven.
1) Simple random sample
o Een eenvoudige aselecte steekproef is een steekproef van n waarnemingen die
dezelfde waarschijnlijkheid heeft om uit de populatie te worden geselecteerd
als alle andere steekproeven van n waarnemingen.
De waarschijnlijkheid van de keuze is gelijk aan n/N
De meeste statistische methoden gaan uit van eenvoudige aselecte
steekproeven.
bv. Je vraagt de computer om iemand te kiezen uit een volledige lijst met
namen. Dit is dus heel objectief.
Pas op: nog altijd kans van vooringenomenheid/vertekening.
bv. Als je de rijkheid van de populatie wilt meten en de computer neemt
toevallig de rijkste mensen dan is je conclusie dat iedereen zo rijk is vertekent.
2) Systematic sampling
o Niet elke steekproef van grootte n heeft dezelfde kans om gekozen te worden
Het steekproefinterval is gelijk aan N/n
o M.a.w Je ordert de populatie en dan deel je de groep op in groepen. Daarna
kies iemand uit die kleinere groepen. (Zorgt voor ongelijke kans)
3) Stratified random sampling
, o Bij gelaagde aselecte steekproeven wordt de populatie eerst verdeeld in
onderling uitsluitende en collectief uitputtende groepen, de zogenaamde strata
(=subpopulaties)
Je zal zien dat de subpopulaties zo homogeen mogelijk zijn binnen de
groep, maar zo heterogeenmogelijk ten opzichte van elkaar.
bv. Mannen vs vrouwen
Je selecteert uit alle groepen minstens 1 iemand.
o Een gestratificeerde steekproef omvat willekeurig gekozen waarnemingen uit
elk stratum. Het aantal waarnemingen per stratum is evenredig met de
omvang van de populatie.
Als er bv. 75 mensen in stratum 1 zitten en 25 in stratum 2, dan zullen
er 3 mensen gekozen worden van groep 1 en 1 van groep 2.
De gegevens voor elk stratum worden uiteindelijk samengevoegd.
4) Cluster sampling
o Bij clusterbemonstering wordt de populatie eerst opgedeeld in onderling
uitsluitende en collectief uitputtende groepen, clusters genoemd.
Een clustersteekproef omvat waarnemingen van willekeurig gekozen
clusters.
o Lijkt dus veel op het vorige, maar hier wordt niet uit iedere groep gekozen.
Stratified versus cluster sampling
Bij gelaagde bemonstering bestaat de steekproef uit waarnemingen van
elke groep.
Bij clusterbemonstering bestaat de steekproef uit waarnemingen van de
geselecteerde groepen.
!! Gestratificeerde steekproef heeft de voorkeur wanneer het doel is om de
precisie te verhogen, en clustersteekproef heeft de voorkeur wanneer het doel
is om de kosten te verlagen.
ERRORS
Steekproeffouten/ sampling errors
Onvermijdelijk kunnen er zich fouten voordoen als je met een steekproef werkt in de plaats
van de volledige populatie te onderzoeken.
Er is slechts één populatie, maar er kunnen veel mogelijke steekproeven van een bepaalde
omvang uit de populatie worden getrokken. Een populatieparameter is dus een constante,
ook al is de waarde ervan onbekend.
Aan de andere kant is een variabele, zoals de steekproefgemiddelde X of het aandeel van
de steekproef, een willekeurige variabele waarvan de waarde afhankelijk is van de
specifieke steekproef die willekeurig uit de populatie wordt getrokken.