100% satisfaction guarantee Immediately available after payment Both online and in PDF No strings attached
logo-home
Statistiek samenvatting incl voorbeeld en stappenplan $3.21
Add to cart

Summary

Statistiek samenvatting incl voorbeeld en stappenplan

 51 views  7 purchases
  • Course
  • Institution
  • Book

In dit document worden hoofdstuk 1 tm hoofdstuk 11 van het boek "statistics for business and economics" samengevat. Verder zijn er veel voorbeeldopgaven toegevoegd en veel stappenplannen hoe een bepaalde opdracht aan te pakken.

Preview 4 out of 43  pages

  • No
  • Hoofdstuk 1 tm 11
  • March 24, 2021
  • 43
  • 2020/2021
  • Summary
avatar-seller
Statistiek samenvatting BDK RUG 20/21
Week 1
Populatie vs. Steekproef
• Populatie= de gehele groep waarover we iets willen zeggen
• Parameters= waarden die berekend worden aan de hand van populatiedata
• Steekproef= het deel van de populatie dat daadwerkelijk onderzocht wordt
• Waarden die berekend worden aan de hand van steekproefdata worden statistieken
genoemd.
• Aan de hand van een steekproef, willen we iets kunnen zeggen over een populatie
(hierover meer in week 4)
• Afhankelijk van het soort data zijn bepaalde methoden meer of minder geschikt
• Kwalitatieve data= waarden zijn categorieën
Waarden zijn categorieën waarmee je niet maar zo mag/kan rekenen
Twee volgordes:
Ordinale data= de waarden hebben een hiërarchische volgorde
• Onderwijsniveau: 1- WO, 2-HBO, 3-VO
Nominale data: er is geen logische volgorde van de waarden.
• Kwantitatieve data= waarden zijn getallen waar je mee kunt rekenen
Intervaldata; zowel negatieve als positieve waarden mogelijk (bv.
temperatuur).
Ratiodata; er is een werkelijk nulpunt- :negatieve waarden onmogelijk.

Grafische weergave van data (grafische technieken)
Het type data bepaalt welk type diagram geschikt is (staan meer in het boek).
• Kwalitatieve data
o Frequentieverdeling (frequency distribution)
o Staafdiagram (bar chart)
o Kruistabel (crosstab/ contigency tabel)
• Kwantitatieve data
o Frequentieverdeling
o Histogram
o Spreidingsdiagram (scatter plot)
o Lijndiagram (line chart)

Ratiodata: frequentietabel en histogram
Vuistregels frequentietabel: aantal groepen moet voldoende zijn om de data goed te
beschrijven; voor een kleine dataset (<1000) is 5-10 groepen goed; breedte van groep is
(max-min)/aantal groepen.

Histogram laat zien hoe vaak welke waarden voorkomen, dit noemen we ook wel een
(kans)verdeling. Belangrijke informatie over een kansverdeling is of deze (ongeveer)
symmetrisch is -> een symmetrische verdeling laat zich namelijk makkelijker samenvatten.
Symmetrische verdeling:




Statistiek bedrijfskunde Rijksuniversiteit Groningen

,Van bepaalde data kan je op voorhand al bedenken dat deze niet symmetrisch zal zijn
• Inkomen (minimum is 0, geen maximum)
• Leeftijd (minimum is 0, natuurlijke afname richting maximum)

Asymmetrische verdeling
• Rechts/positief scheef verdeeld (right/ positively skewed)- staart wijst naar rechts




• Links/negatief scheef verdeeld (left/ negatively skewed)- staart wijst naar links




Numerieke technieken
• Grafische weergave is erg nuttig om een intuïtief overzicht te creëren van de data
• Maar voor meer detail hebben we getallen nodig
o Centrale tendens (e.g. gemiddelde)
o Variabiliteit (e.g. standaardafwijking)
o Relatie tussen variabelen (e.g. correlatie)

Maten voor centrale tendens
• Gemiddelde (mean): som van alle waarden, gedeeld door aantal waarden.
o Meest gebruikt
o Som van alle waarden, gedeeld oor het aantal waarden
!
o Populatie gemiddelde: 𝜇 = " ∗ ∑"
#$! 𝑥#
!
o Steekproefgemiddelde: 𝑥̅ = % ∗ 𝑥
o 𝜇 𝑖𝑠 𝑒𝑒𝑛 𝑝𝑎𝑟𝑎𝑚𝑒𝑡𝑒𝑟, 𝑥̅ 𝑖𝑠 𝑒𝑒𝑛 𝑠𝑡𝑎𝑡𝑖𝑠𝑡𝑖𝑒𝑘
o Gevoelig voor extreme waarden/uitschieters
• Mediaan (median): middelpunt van de gesorteerde waarden
o In een gesorteerde lijst, is de mediaan het middelste getal
o Wordt niet beïnvloed door extreme waarden/ uitschieters
%&!
o Locatie mediaan: ' ; positie in gesorteerde lijst
• Modus (mode): meest geobserveerde waarde (als deze bestaat)
o De meest voorkomende waarde
o Wordt niet beïnvloedt door extreme waarden/uitschieters
o Kan ook gebruikt worden bij categoriale data (en is dan dus de meest
voorkomende categorie)
o Komt ieder getal maar één keer voor, is er geen modus
o Ook kunnen er meerdere modussen zijn.




Statistiek bedrijfskunde Rijksuniversiteit Groningen

,Percentielen
• Percentielen en kwartielen geven de positie van een waarde in vergelijking tot de
gehele dataset aan.
• Het Pe percentiel (Pth percentile) is de waarde op positie Lp = (P/100) x (N +1) na het
sorteren van de data.
• Interpretatie: P% van de data heeft een lagere waarde, (100-P) % heeft een hogere
waarde
• De mediaan is dus teven het 50e percentiel- 50% van de observaties is kleiner, 50%
groter.
• VOORBEELD
100 observaties, waar bevindt zich het 10e percentiel?
Lp = (10/100) * (100+1)= 10,1
De waarde die hierbij hoort, is de waarde van positie 10 plus 0,1 keer het verschil
tussen positie 10 en 11
Stel: posititie 10=100 en 11=120
Dan is positie 10,1: 100+ 0,1 * (120-100)= 102

• Kwartielen spiltsen de gesorteerde data in 4 segmenten met een gelijk aantal
waarden per segment
• De breedte van ieder segment kan dus verschillen


• De mediaan is dus hetzelfde als Q2, het tweede kwartiel
• Kwartielen zijn ook percentielen: Q1 is het 25e percentiel, Q3 het 75e

• De vijfgetallensamenvatting vat een dataset samen aan de hand van vijf getallen
• Deze vijf getallen zijn de kwartielen, plus het minimum en het maximum
• Min≤ Q1 ≤ Q2 (mediaan) ≤ Q3 ≤ max


dit wordt een boxplot genoemd (grafische weergave).

Maten van variabiliteit (variability)
• Een gemiddelde alleen vertelt ons niet genoeg over een dataset.
• We willen ook iets weten over in hoeverre de data afwijkt van het gemiddelde.
• Liggen alle observaties dicht bij het gemiddelde, of zijn er juist grote verschillen.
• Deze variatie rondom het gemiddelde kunnen we o diverse manieren in een getal
uitdrukken
o Bereik of spreidingsbreedte (range)
o Interkwartielafstand (interquartile range, IQR)
o Variantie/ standaardafwijking

• Data (n=10): {11,12,13,16,16,17,18,21,22,23}
• Bereik (range): maximum-minimum = 23-11=12
• Interkwartielafstand (interquartile range, IQR): Q3-Q1= 21,25-12,75=8,5




Statistiek bedrijfskunde Rijksuniversiteit Groningen

, • Beide getallen geven een indicatie hoe ruim de data rond het gemiddelde verspreid
is.
• IQR is minder gevoelig voor extreme waarden/uitschieters.
• De variantie is de spreiding rond het gemiddelde
!
o Populatievariantie: 𝜎 ' = " ∗ ∑" #$!(𝑥# − 𝜇)
'

!
o Steekproefvariantie: 𝑠 ' = %(! ∗ ∑%#$!(𝑥# − 𝑥̅ )'
Delen door n-1, door onnauwkeurigheid.
• Standaardafwijking heeft dezelfde eenheid als de originele data
o Populatiestandaardafwijking: 𝜎 = √𝜎 '
o Steekproefstandaardafwijking: s=√𝑠 '
o Interpretatie: hoe ver wijkt een observatie gemiddeld genomen af van het
gemiddelde
• Let op: de standaardafwijking heeft dezelfde eenheid als de data (i.i.g. bij steekproef)

Empirische regel
• De twee meest gebruikte maten om een verdeling te beschrijven zijn het gemiddelde
en de standaardafwijking
• Waarom? Omdat een “bel-vormige” verdeling zeer goed beschreven kan worden
door deze twee getallen
o Hierover meer in week 4
• Zo kan je vrij nauwkeurig zeggen wel % van de data binnen een aantal
standaardafwijkingen van het gemiddelde ligt
• Voor een belvormige verdeling geldt:
o ± 68% van de observaties valt in het interval 𝜇 ± 1𝜎
o ± 95% van de observaties valt in het interval 𝜇 ± 2𝜎
o En vrijwel alle observaties vallen in het interval 𝜇 ± 3𝜎

Relatie tussen twee variabelen
• In veel gevallen zijn we niet alleen geïnteresseerd in één variabele, maar in relaties
tussen variabelen. Voorbeeld:
o Leidt meer marketing ook tot meer verkoop?
o Wat is de relatie tussen salaris en leeftijd?
• Twee maten van relatie tussen variabelen
o Covariantie (covariance)
§ Meet de richting van een lineaire relatie tussen twee variabelen
!
§ De populatiecovariantie: Cov(x,y)=𝜎)* = " ∗ ∑" #$!(𝑥# − 𝜇) )(𝑦# − 𝜇* )
!
§ De steekproefcovariantie: Cov(x,y)=𝑆)* = %(! ∗ ∑%#$!(𝑥# − 𝑥̅ )(𝑦# − 𝑦?)
§ Net als de variantie heeft de covariantie geen makkelijk
interpreteerbare eenheid
§ Cov(x,y)>0 => x en y zijn geneigd in dezelfde richting te bewegen
§ Cov(x,y)<0 => x en y zijn geneigd in tegengestelde richting te bewegen
§ Cov(x,y)=0 => x en y zijn niet geneigd in dezelfde of tegengestelde
richting te bewegen.

o Stappen covariantie berekenen:


Statistiek bedrijfskunde Rijksuniversiteit Groningen

The benefits of buying summaries with Stuvia:

Guaranteed quality through customer reviews

Guaranteed quality through customer reviews

Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.

Quick and easy check-out

Quick and easy check-out

You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.

Focus on what matters

Focus on what matters

Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!

Frequently asked questions

What do I get when I buy this document?

You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.

Satisfaction guarantee: how does it work?

Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.

Who am I buying these notes from?

Stuvia is a marketplace, so you are not buying this document from us, but from seller jochemvos. Stuvia facilitates payment to the seller.

Will I be stuck with a subscription?

No, you only buy these notes for $3.21. You're not tied to anything after your purchase.

Can Stuvia be trusted?

4.6 stars on Google & Trustpilot (+1000 reviews)

52510 documents were sold in the last 30 days

Founded in 2010, the go-to place to buy study notes for 14 years now

Start selling
$3.21  7x  sold
  • (0)
Add to cart
Added