Statistiek 1
Statistiek 1 :
voor de Bedrijfseconomische Wetenschappen
Professor : Luc Hens
Academiejaar : 2018 - 2019
B.Y.D.
B.Y.D.
VUB : Handelsingenieur 1 sur 51
, Statistiek 1
H1 : Gegevens en beslissingen
Hoe kan ik beslissingen nemen ?
Gegevens (of data) :
Waargenomen meetwaarden (cijfers of categorieën) samen met hun context.
(bv. 172 cm ≠ gegeven → de lengte van een student A. is 172 cm = gegeven)
Statistiek :
Een wijze van redeneren m.b.v. bepaalde hulpmiddelen (bv. :/) en methoden
om de wereld beter te begrijpen.
Gegevens
Waargenomen meetwaarden1 samen met hun context2 :
1. Essentieel : Wie ? Wat ?
2. Meta-data (= data over de data (info over de info)) : Waar ? Wanner ? Waarom ? Hoe ?
Gegevenstabel
kolommen = variabelen
rijen = casussen
(p. 31 — Table 1.1 ; fout : geen $-teken voor « prijs »)
De « wie » is hier niet de naam van de klant (we merken dat de naam « Katherine H. » twee keer
voorkomt). De « wie » is hier de bestelling (= Order N°) : elke rij in dit tabel is een bestelling = casus.
- de rijen zijn de casussen = een individu (persoon of zaak) waarover we gegevens hebben.
- de kolommen zijn de variabelen = wat men wil meten van de verschillende casussen.
Soorten variabelen
- Kwalitatief : de waarden zijn de namen van categorieën.
• nominaal = heeft betrekking op een variabele waarvan de waarden enkel gebruikt worden
om categorieën te benoemen. (bv. naam geboortestad).
identificatievariabele (nominaal) = kwalitatieve variabele die een unieke waarde aanneemt
voor elke casus, met de bedoeling om de casus te kunnen benoemen of identificeren. (bv.
studentennummer of Order N°)
• ordinaal = heeft betrekking op een variabele waarvan de kwalitatieve waarden ook een
vorm van ordening hebben. (bv. zeer koud, koud, normaal, warm, zeer warm)
- Kwantitatief : de waarden zijn numerieke hoeveelheden met eenheden. Die hoeveelheden hebben
een betekenis (bv. album van 5,99 $ is goedkoper dan een album van 10,99 $). In het vorige
voorbeeld heeft dus de « Price in dollar » een betekenis, maar de « Area Code », bijvoorbeeld, niet.
De « Area Code » is dus kwalitatief en niet kwantitatief.
B.Y.D. VUB : Handelsingenieur 2 sur 51
, Statistiek 1
Soorten variabelen (2)
a. Dwarsdoorsnede data (cross-section)
= Gegevens verzameld over toestanden die in de tijd veranderen maar die werden gemeten op een
enkel punt in de tijd.
Land # Starbucks vestigingen
(2018)
VS 6031
Zuid-Korea 1231
Mexico 708
VK 653
… …
b. Tijdreeks data (time series)
= Gegevens gemeten doorheen de tijd. Doorgaans zijn de tijdsintervallen even groot of op even
grote afstand van elkaar (vb. elke week, elk trimester, of elk jaar).
Jaar # Starbucks vestigingen
in de wereld
2002 5104
2003 6193
2004 7567
… …
Stel dat ik meer kolommen zou hebben :
jaar … # starbucks vestigingen in de wereld… # starbucks vestigingen in de VS … enz.
→ Dan hebben we de combinatie van beide soorten = dwarsdoorsnede-tijdreeks gegevenstabel.
B.Y.D. VUB : Handelsingenieur 3 sur 51
, Statistiek 1
H2 : Kwalitatieve gegevens beschrijven en weergeven
————————————————————————————————————————————————
H2, H3, H4 = beschrijvende statistiek
• H2 : Kwalitatieve gegevens weergeven en beschrijven (= hoe kunnen we kwalitatieve variabelen
weergeven in een plaatje of samen vatten in een tabel)
• H3 : Kwantitatieve gegevens weergeven en beschrijven (= hoe kunnen we kwantitatieve
variabelen weergeven in een plaatje of samen vatten in een tabel)
• H4 : Correlatie (= hoe kunnen we verbanden tussen kwantitatieve variabelen samenvatten en
beschrijven in een puntenwolk of een (x,y)-assenstelsel)
————————————————————————————————————————————————
Het doel van de beschrijvende statistiek is om te gaan kijken als er in een gegevensset (zeer grote
gegevensset = veel casussen) bepaalde patronen, verbanden en uitzonderingen/uitschieters zitten.
• Voorbeelden van bepaalde patronen : Is het zo dat mensen die blootgesteld zijn aan een bepaalde
advertentie, meer van product X kopen ? Kopen de mensen meer ’s morgens of ’s avonds ?
• Voorbeeld van verbanden : Vrouwen kopen meer make-up dan mannen.
Een kwalitatief variabele samenvatten
Gegevenstabel met alle 226.925 bezoekers van KEEN’s website in februari 2013 :
IP-nummer Tijd Bron ⚠ Voor een decimaal getal :
« komma » in het Nederlands
(= kwalitatief, nominaal, (= kwantitatief : omdat (= kwalitatief) « punt » in het Engels
identificatievariabele) we tijd tot één cijfer
kunnen omvormen)
243.240.221.71 1/feb/2013 13:15:08 Google
196.345.281.51 1/feb/2013 14:56:23 rechtstreeks
… (226.925 rijen = casussen) … …
Bezoekers komen van : rechtstreeks, Facebook, Google, DuckDuckGo*… (= categorieën)
- Bron is een kwalitatieve variabele en kan een aantal waarden aannemen (de categorieën)
- Tel het aantal casussen per categorie (= frequentietabel) :
Ⓡ instructie : table(naam)
Bron Bezoekers Dus niet manueel op R-studio
Google 130.158
EXAMEN : we krijgen een
gegevenstabel en moeten met de
rechstreeks 52.969 hand een frequentietabel maken
… …
andere (als er te veel 6.740
categorieën zijn… +12)
Totaal 226.925
= frequentietabel
- Frequenties (= tweede kolom) uitdrukken als een percentage :
⚠ 57,36% = 0,5736
maar 57,36% ≠ 57,36
a. Bereken de fractie : ≈ 0,5736
(Absolute) frequentie = het absolute
aantal waarnemingen dat in een bepaalde
b. Percentage = fractie x 100% klasse valt
Relatieve frequenties = frequenties
uitgedrukt als een fractie (= absolute
frequentie/totaal aantal waarnemingen) of
0,5736 x 100% ≈ 57,36% als een %
B.Y.D. VUB : Handelsingenieur 4 sur 51
, Statistiek 1
Frequentietabel van KEEN’s website in februari 2013 :
- Som van de absolute frequenties moet
gelijk zijn aan het aantal casussen.
- Som van de relatieve frequenties (in%)
moet gelijk zijn aan 100%
(p. 48 — Table 2.1)
Een kwalitatief variabele weergeven
Sommige mensen houden meer van « plaatjes » dan van tabellen. Er bestaat een zeer eenvoudige manier
om een frequentietabel om te vormen tot een plaatje : een staafdiagram maken.
• Zet de frequentiebel om in een staafdiagram :
Horizontale as = waarde van de variabele
« bron » (= namen van de categorieën)
Verticale as = frequentie (of relatieve frequentie)
⚠
- Respecteer het oppervlakteprincipe = de
oppervlakte van elk staafje is proportioneel aan de
frequentie (soms zijn stokjes zinvoller aangezien
de waarden enkel één dimensie hebben).
- Is de kwalitatieve variabele « bron » hier
nominaal of ordinaal ? Nominaal aangezien er
geen orde bestaat voor de verschillende bronnen,
maar wel voor de frequentie.
→ als je een staafdiagram maakt waar de orde
van de waarden niet uitmaakt (= kwalitatief), zorg
ervoor dat er een gaatje/ruimte staat tussen elk
staafje (bij histogrammen is dat niet (zie later))
(p. 51 — Figure 2.3)
- Let op : de staven zijn gerangschikt (klein naar groot of omgekeerd) → duidelijker !
- Tip : stel dat er lange namen zijn in de horizontale as → beter om de assen om te
draaien, de lange namen zijn dan makkelijker leesbaar in de verticale as.
- Tip 2 : hou uw grafieken eenvoudig = geen 3-D effecten, geen flauwe kul (bv. sandalen
i.p.v staven, p.50 — Figure 2.2).
• Je kan de frequentietabel ook omzetten in een taartdiagram :
(p. 52 — Figure 2.5)
- Een taartdiagram respecteert altijd de oppervlakteprincipe.
- Toch een slecht idee… omdat we het verschil tussen bv. 3 taartdiagrammen niet zo goed
kunnen zien (zie p. 52 — Figure 2.6). Terwijl het met een staafdiagram steeds duidelijk
onderscheidbaar is. Kies dus altijd een staafdiagram tegenover een taartdiagram.
B.Y.D. VUB : Handelsingenieur 5 sur 51
, Statistiek 1
Twee kwalitatieve variabelen : kruistabel
Is er een verband tussen twee kwalitatieve variabelen ? Om deze vraag te beantwoorden, gebruiken we een
enquête uit « Pew Research Center », een Amerikaanse denktank.
Enquête bij 5.039 mensen in 5 landen : « Gebruikt u sociale-netwerk-sites ? » (p.53 — 2.3)
- Gegevenstabel :
Respondent-ID Sociale-netwerk-sites Land Aangezien we met een
enquête iets gaan vragen,
heet de persoon die
antwoord « respondent ».
0001. ja EG → Als je een enquête
afneemt, is uw casus een
0002. geen toegang EG respondent.
… … …
1000 geen toegang EG
1001 ja GB
… … …
5039 ja VS
- Frequentietabel voor variabele « sociale-netwerk-sites » :
Je moet ervoor zorgen dat
Sociale-netwerk-sites Aantal Relatieve frequentie de 3 categorieën elkaar
(%) uitsluiten.
Bv. als er « neen » staat,
betekent het dat men
neen 1249 24,8 toegang heeft, maar geen
sociale-netwerk-sites
gebruikt (anders probleem
ja 2175 43,2 met de totaal
geen toegang 1615 32,1
Totaal 5039 100,1
(p. 53 — Table 2.2)
- Staafdiagram :
44
Ⓡ instructie : bar chart van de
variabele → barplot(x)
33
Rel. freq. (%)
22
11
24,8 43,2 32,1
0
neen ja GT
Sociale-netwerk-sites
B.Y.D. VUB : Handelsingenieur 6 sur 51