Statistiek samenvatting BDK RUG 20/21
Week 1
Populatie vs. Steekproef
• Populatie= de gehele groep waarover we iets willen zeggen
• Parameters= waarden die berekend worden aan de hand van populatiedata
• Steekproef= het deel van de populatie dat daadwerkelijk onderzocht wordt
• Waarden die berekend worden aan de hand van steekproefdata worden statistieken
genoemd.
• Aan de hand van een steekproef, willen we iets kunnen zeggen over een populatie
(hierover meer in week 4)
• Afhankelijk van het soort data zijn bepaalde methoden meer of minder geschikt
• Kwalitatieve data= waarden zijn categorieën
Waarden zijn categorieën waarmee je niet maar zo mag/kan rekenen
Twee volgordes:
Ordinale data= de waarden hebben een hiërarchische volgorde
• Onderwijsniveau: 1- WO, 2-HBO, 3-VO
Nominale data: er is geen logische volgorde van de waarden.
• Kwantitatieve data= waarden zijn getallen waar je mee kunt rekenen
Intervaldata; zowel negatieve als positieve waarden mogelijk (bv.
temperatuur).
Ratiodata; er is een werkelijk nulpunt- :negatieve waarden onmogelijk.
Grafische weergave van data (grafische technieken)
Het type data bepaalt welk type diagram geschikt is (staan meer in het boek).
• Kwalitatieve data
o Frequentieverdeling (frequency distribution)
o Staafdiagram (bar chart)
o Kruistabel (crosstab/ contigency tabel)
• Kwantitatieve data
o Frequentieverdeling
o Histogram
o Spreidingsdiagram (scatter plot)
o Lijndiagram (line chart)
Ratiodata: frequentietabel en histogram
Vuistregels frequentietabel: aantal groepen moet voldoende zijn om de data goed te
beschrijven; voor een kleine dataset (<1000) is 5-10 groepen goed; breedte van groep is
(max-min)/aantal groepen.
Histogram laat zien hoe vaak welke waarden voorkomen, dit noemen we ook wel een
(kans)verdeling. Belangrijke informatie over een kansverdeling is of deze (ongeveer)
symmetrisch is -> een symmetrische verdeling laat zich namelijk makkelijker samenvatten.
Symmetrische verdeling:
Statistiek bedrijfskunde Rijksuniversiteit Groningen
,Van bepaalde data kan je op voorhand al bedenken dat deze niet symmetrisch zal zijn
• Inkomen (minimum is 0, geen maximum)
• Leeftijd (minimum is 0, natuurlijke afname richting maximum)
Asymmetrische verdeling
• Rechts/positief scheef verdeeld (right/ positively skewed)- staart wijst naar rechts
• Links/negatief scheef verdeeld (left/ negatively skewed)- staart wijst naar links
Numerieke technieken
• Grafische weergave is erg nuttig om een intuïtief overzicht te creëren van de data
• Maar voor meer detail hebben we getallen nodig
o Centrale tendens (e.g. gemiddelde)
o Variabiliteit (e.g. standaardafwijking)
o Relatie tussen variabelen (e.g. correlatie)
Maten voor centrale tendens
• Gemiddelde (mean): som van alle waarden, gedeeld door aantal waarden.
o Meest gebruikt
o Som van alle waarden, gedeeld oor het aantal waarden
!
o Populatie gemiddelde: 𝜇 = " ∗ ∑"
#$! 𝑥#
!
o Steekproefgemiddelde: 𝑥̅ = % ∗ 𝑥
o 𝜇 𝑖𝑠 𝑒𝑒𝑛 𝑝𝑎𝑟𝑎𝑚𝑒𝑡𝑒𝑟, 𝑥̅ 𝑖𝑠 𝑒𝑒𝑛 𝑠𝑡𝑎𝑡𝑖𝑠𝑡𝑖𝑒𝑘
o Gevoelig voor extreme waarden/uitschieters
• Mediaan (median): middelpunt van de gesorteerde waarden
o In een gesorteerde lijst, is de mediaan het middelste getal
o Wordt niet beïnvloed door extreme waarden/ uitschieters
%&!
o Locatie mediaan: ' ; positie in gesorteerde lijst
• Modus (mode): meest geobserveerde waarde (als deze bestaat)
o De meest voorkomende waarde
o Wordt niet beïnvloedt door extreme waarden/uitschieters
o Kan ook gebruikt worden bij categoriale data (en is dan dus de meest
voorkomende categorie)
o Komt ieder getal maar één keer voor, is er geen modus
o Ook kunnen er meerdere modussen zijn.
Statistiek bedrijfskunde Rijksuniversiteit Groningen
,Percentielen
• Percentielen en kwartielen geven de positie van een waarde in vergelijking tot de
gehele dataset aan.
• Het Pe percentiel (Pth percentile) is de waarde op positie Lp = (P/100) x (N +1) na het
sorteren van de data.
• Interpretatie: P% van de data heeft een lagere waarde, (100-P) % heeft een hogere
waarde
• De mediaan is dus teven het 50e percentiel- 50% van de observaties is kleiner, 50%
groter.
• VOORBEELD
100 observaties, waar bevindt zich het 10e percentiel?
Lp = (10/100) * (100+1)= 10,1
De waarde die hierbij hoort, is de waarde van positie 10 plus 0,1 keer het verschil
tussen positie 10 en 11
Stel: posititie 10=100 en 11=120
Dan is positie 10,1: 100+ 0,1 * (120-100)= 102
• Kwartielen spiltsen de gesorteerde data in 4 segmenten met een gelijk aantal
waarden per segment
• De breedte van ieder segment kan dus verschillen
• De mediaan is dus hetzelfde als Q2, het tweede kwartiel
• Kwartielen zijn ook percentielen: Q1 is het 25e percentiel, Q3 het 75e
• De vijfgetallensamenvatting vat een dataset samen aan de hand van vijf getallen
• Deze vijf getallen zijn de kwartielen, plus het minimum en het maximum
• Min≤ Q1 ≤ Q2 (mediaan) ≤ Q3 ≤ max
dit wordt een boxplot genoemd (grafische weergave).
Maten van variabiliteit (variability)
• Een gemiddelde alleen vertelt ons niet genoeg over een dataset.
• We willen ook iets weten over in hoeverre de data afwijkt van het gemiddelde.
• Liggen alle observaties dicht bij het gemiddelde, of zijn er juist grote verschillen.
• Deze variatie rondom het gemiddelde kunnen we o diverse manieren in een getal
uitdrukken
o Bereik of spreidingsbreedte (range)
o Interkwartielafstand (interquartile range, IQR)
o Variantie/ standaardafwijking
• Data (n=10): {11,12,13,16,16,17,18,21,22,23}
• Bereik (range): maximum-minimum = 23-11=12
• Interkwartielafstand (interquartile range, IQR): Q3-Q1= 21,25-12,75=8,5
Statistiek bedrijfskunde Rijksuniversiteit Groningen
, • Beide getallen geven een indicatie hoe ruim de data rond het gemiddelde verspreid
is.
• IQR is minder gevoelig voor extreme waarden/uitschieters.
• De variantie is de spreiding rond het gemiddelde
!
o Populatievariantie: 𝜎 ' = " ∗ ∑" #$!(𝑥# − 𝜇)
'
!
o Steekproefvariantie: 𝑠 ' = %(! ∗ ∑%#$!(𝑥# − 𝑥̅ )'
Delen door n-1, door onnauwkeurigheid.
• Standaardafwijking heeft dezelfde eenheid als de originele data
o Populatiestandaardafwijking: 𝜎 = √𝜎 '
o Steekproefstandaardafwijking: s=√𝑠 '
o Interpretatie: hoe ver wijkt een observatie gemiddeld genomen af van het
gemiddelde
• Let op: de standaardafwijking heeft dezelfde eenheid als de data (i.i.g. bij steekproef)
Empirische regel
• De twee meest gebruikte maten om een verdeling te beschrijven zijn het gemiddelde
en de standaardafwijking
• Waarom? Omdat een “bel-vormige” verdeling zeer goed beschreven kan worden
door deze twee getallen
o Hierover meer in week 4
• Zo kan je vrij nauwkeurig zeggen wel % van de data binnen een aantal
standaardafwijkingen van het gemiddelde ligt
• Voor een belvormige verdeling geldt:
o ± 68% van de observaties valt in het interval 𝜇 ± 1𝜎
o ± 95% van de observaties valt in het interval 𝜇 ± 2𝜎
o En vrijwel alle observaties vallen in het interval 𝜇 ± 3𝜎
Relatie tussen twee variabelen
• In veel gevallen zijn we niet alleen geïnteresseerd in één variabele, maar in relaties
tussen variabelen. Voorbeeld:
o Leidt meer marketing ook tot meer verkoop?
o Wat is de relatie tussen salaris en leeftijd?
• Twee maten van relatie tussen variabelen
o Covariantie (covariance)
§ Meet de richting van een lineaire relatie tussen twee variabelen
!
§ De populatiecovariantie: Cov(x,y)=𝜎)* = " ∗ ∑" #$!(𝑥# − 𝜇) )(𝑦# − 𝜇* )
!
§ De steekproefcovariantie: Cov(x,y)=𝑆)* = %(! ∗ ∑%#$!(𝑥# − 𝑥̅ )(𝑦# − 𝑦?)
§ Net als de variantie heeft de covariantie geen makkelijk
interpreteerbare eenheid
§ Cov(x,y)>0 => x en y zijn geneigd in dezelfde richting te bewegen
§ Cov(x,y)<0 => x en y zijn geneigd in tegengestelde richting te bewegen
§ Cov(x,y)=0 => x en y zijn niet geneigd in dezelfde of tegengestelde
richting te bewegen.
o Stappen covariantie berekenen:
Statistiek bedrijfskunde Rijksuniversiteit Groningen