100% tevredenheidsgarantie Direct beschikbaar na betaling Zowel online als in PDF Je zit nergens aan vast
logo-home
Statistiek samenvatting incl voorbeeld en stappenplan €2,99   In winkelwagen

Samenvatting

Statistiek samenvatting incl voorbeeld en stappenplan

 48 keer bekeken  7 aankopen

In dit document worden hoofdstuk 1 tm hoofdstuk 11 van het boek "statistics for business and economics" samengevat. Verder zijn er veel voorbeeldopgaven toegevoegd en veel stappenplannen hoe een bepaalde opdracht aan te pakken.

Voorbeeld 4 van de 43  pagina's

  • Nee
  • Hoofdstuk 1 tm 11
  • 24 maart 2021
  • 43
  • 2020/2021
  • Samenvatting
book image

Titel boek:

Auteur(s):

  • Uitgave:
  • ISBN:
  • Druk:
Alle documenten voor dit vak (10)
avatar-seller
jochemvos
Statistiek samenvatting BDK RUG 20/21
Week 1
Populatie vs. Steekproef
• Populatie= de gehele groep waarover we iets willen zeggen
• Parameters= waarden die berekend worden aan de hand van populatiedata
• Steekproef= het deel van de populatie dat daadwerkelijk onderzocht wordt
• Waarden die berekend worden aan de hand van steekproefdata worden statistieken
genoemd.
• Aan de hand van een steekproef, willen we iets kunnen zeggen over een populatie
(hierover meer in week 4)
• Afhankelijk van het soort data zijn bepaalde methoden meer of minder geschikt
• Kwalitatieve data= waarden zijn categorieën
Waarden zijn categorieën waarmee je niet maar zo mag/kan rekenen
Twee volgordes:
Ordinale data= de waarden hebben een hiërarchische volgorde
• Onderwijsniveau: 1- WO, 2-HBO, 3-VO
Nominale data: er is geen logische volgorde van de waarden.
• Kwantitatieve data= waarden zijn getallen waar je mee kunt rekenen
Intervaldata; zowel negatieve als positieve waarden mogelijk (bv.
temperatuur).
Ratiodata; er is een werkelijk nulpunt- :negatieve waarden onmogelijk.

Grafische weergave van data (grafische technieken)
Het type data bepaalt welk type diagram geschikt is (staan meer in het boek).
• Kwalitatieve data
o Frequentieverdeling (frequency distribution)
o Staafdiagram (bar chart)
o Kruistabel (crosstab/ contigency tabel)
• Kwantitatieve data
o Frequentieverdeling
o Histogram
o Spreidingsdiagram (scatter plot)
o Lijndiagram (line chart)

Ratiodata: frequentietabel en histogram
Vuistregels frequentietabel: aantal groepen moet voldoende zijn om de data goed te
beschrijven; voor een kleine dataset (<1000) is 5-10 groepen goed; breedte van groep is
(max-min)/aantal groepen.

Histogram laat zien hoe vaak welke waarden voorkomen, dit noemen we ook wel een
(kans)verdeling. Belangrijke informatie over een kansverdeling is of deze (ongeveer)
symmetrisch is -> een symmetrische verdeling laat zich namelijk makkelijker samenvatten.
Symmetrische verdeling:




Statistiek bedrijfskunde Rijksuniversiteit Groningen

,Van bepaalde data kan je op voorhand al bedenken dat deze niet symmetrisch zal zijn
• Inkomen (minimum is 0, geen maximum)
• Leeftijd (minimum is 0, natuurlijke afname richting maximum)

Asymmetrische verdeling
• Rechts/positief scheef verdeeld (right/ positively skewed)- staart wijst naar rechts




• Links/negatief scheef verdeeld (left/ negatively skewed)- staart wijst naar links




Numerieke technieken
• Grafische weergave is erg nuttig om een intuïtief overzicht te creëren van de data
• Maar voor meer detail hebben we getallen nodig
o Centrale tendens (e.g. gemiddelde)
o Variabiliteit (e.g. standaardafwijking)
o Relatie tussen variabelen (e.g. correlatie)

Maten voor centrale tendens
• Gemiddelde (mean): som van alle waarden, gedeeld door aantal waarden.
o Meest gebruikt
o Som van alle waarden, gedeeld oor het aantal waarden
!
o Populatie gemiddelde: 𝜇 = " ∗ ∑"
#$! 𝑥#
!
o Steekproefgemiddelde: 𝑥̅ = % ∗ 𝑥
o 𝜇 𝑖𝑠 𝑒𝑒𝑛 𝑝𝑎𝑟𝑎𝑚𝑒𝑡𝑒𝑟, 𝑥̅ 𝑖𝑠 𝑒𝑒𝑛 𝑠𝑡𝑎𝑡𝑖𝑠𝑡𝑖𝑒𝑘
o Gevoelig voor extreme waarden/uitschieters
• Mediaan (median): middelpunt van de gesorteerde waarden
o In een gesorteerde lijst, is de mediaan het middelste getal
o Wordt niet beïnvloed door extreme waarden/ uitschieters
%&!
o Locatie mediaan: ' ; positie in gesorteerde lijst
• Modus (mode): meest geobserveerde waarde (als deze bestaat)
o De meest voorkomende waarde
o Wordt niet beïnvloedt door extreme waarden/uitschieters
o Kan ook gebruikt worden bij categoriale data (en is dan dus de meest
voorkomende categorie)
o Komt ieder getal maar één keer voor, is er geen modus
o Ook kunnen er meerdere modussen zijn.




Statistiek bedrijfskunde Rijksuniversiteit Groningen

,Percentielen
• Percentielen en kwartielen geven de positie van een waarde in vergelijking tot de
gehele dataset aan.
• Het Pe percentiel (Pth percentile) is de waarde op positie Lp = (P/100) x (N +1) na het
sorteren van de data.
• Interpretatie: P% van de data heeft een lagere waarde, (100-P) % heeft een hogere
waarde
• De mediaan is dus teven het 50e percentiel- 50% van de observaties is kleiner, 50%
groter.
• VOORBEELD
100 observaties, waar bevindt zich het 10e percentiel?
Lp = (10/100) * (100+1)= 10,1
De waarde die hierbij hoort, is de waarde van positie 10 plus 0,1 keer het verschil
tussen positie 10 en 11
Stel: posititie 10=100 en 11=120
Dan is positie 10,1: 100+ 0,1 * (120-100)= 102

• Kwartielen spiltsen de gesorteerde data in 4 segmenten met een gelijk aantal
waarden per segment
• De breedte van ieder segment kan dus verschillen


• De mediaan is dus hetzelfde als Q2, het tweede kwartiel
• Kwartielen zijn ook percentielen: Q1 is het 25e percentiel, Q3 het 75e

• De vijfgetallensamenvatting vat een dataset samen aan de hand van vijf getallen
• Deze vijf getallen zijn de kwartielen, plus het minimum en het maximum
• Min≤ Q1 ≤ Q2 (mediaan) ≤ Q3 ≤ max


dit wordt een boxplot genoemd (grafische weergave).

Maten van variabiliteit (variability)
• Een gemiddelde alleen vertelt ons niet genoeg over een dataset.
• We willen ook iets weten over in hoeverre de data afwijkt van het gemiddelde.
• Liggen alle observaties dicht bij het gemiddelde, of zijn er juist grote verschillen.
• Deze variatie rondom het gemiddelde kunnen we o diverse manieren in een getal
uitdrukken
o Bereik of spreidingsbreedte (range)
o Interkwartielafstand (interquartile range, IQR)
o Variantie/ standaardafwijking

• Data (n=10): {11,12,13,16,16,17,18,21,22,23}
• Bereik (range): maximum-minimum = 23-11=12
• Interkwartielafstand (interquartile range, IQR): Q3-Q1= 21,25-12,75=8,5




Statistiek bedrijfskunde Rijksuniversiteit Groningen

, • Beide getallen geven een indicatie hoe ruim de data rond het gemiddelde verspreid
is.
• IQR is minder gevoelig voor extreme waarden/uitschieters.
• De variantie is de spreiding rond het gemiddelde
!
o Populatievariantie: 𝜎 ' = " ∗ ∑" #$!(𝑥# − 𝜇)
'

!
o Steekproefvariantie: 𝑠 ' = %(! ∗ ∑%#$!(𝑥# − 𝑥̅ )'
Delen door n-1, door onnauwkeurigheid.
• Standaardafwijking heeft dezelfde eenheid als de originele data
o Populatiestandaardafwijking: 𝜎 = √𝜎 '
o Steekproefstandaardafwijking: s=√𝑠 '
o Interpretatie: hoe ver wijkt een observatie gemiddeld genomen af van het
gemiddelde
• Let op: de standaardafwijking heeft dezelfde eenheid als de data (i.i.g. bij steekproef)

Empirische regel
• De twee meest gebruikte maten om een verdeling te beschrijven zijn het gemiddelde
en de standaardafwijking
• Waarom? Omdat een “bel-vormige” verdeling zeer goed beschreven kan worden
door deze twee getallen
o Hierover meer in week 4
• Zo kan je vrij nauwkeurig zeggen wel % van de data binnen een aantal
standaardafwijkingen van het gemiddelde ligt
• Voor een belvormige verdeling geldt:
o ± 68% van de observaties valt in het interval 𝜇 ± 1𝜎
o ± 95% van de observaties valt in het interval 𝜇 ± 2𝜎
o En vrijwel alle observaties vallen in het interval 𝜇 ± 3𝜎

Relatie tussen twee variabelen
• In veel gevallen zijn we niet alleen geïnteresseerd in één variabele, maar in relaties
tussen variabelen. Voorbeeld:
o Leidt meer marketing ook tot meer verkoop?
o Wat is de relatie tussen salaris en leeftijd?
• Twee maten van relatie tussen variabelen
o Covariantie (covariance)
§ Meet de richting van een lineaire relatie tussen twee variabelen
!
§ De populatiecovariantie: Cov(x,y)=𝜎)* = " ∗ ∑" #$!(𝑥# − 𝜇) )(𝑦# − 𝜇* )
!
§ De steekproefcovariantie: Cov(x,y)=𝑆)* = %(! ∗ ∑%#$!(𝑥# − 𝑥̅ )(𝑦# − 𝑦?)
§ Net als de variantie heeft de covariantie geen makkelijk
interpreteerbare eenheid
§ Cov(x,y)>0 => x en y zijn geneigd in dezelfde richting te bewegen
§ Cov(x,y)<0 => x en y zijn geneigd in tegengestelde richting te bewegen
§ Cov(x,y)=0 => x en y zijn niet geneigd in dezelfde of tegengestelde
richting te bewegen.

o Stappen covariantie berekenen:


Statistiek bedrijfskunde Rijksuniversiteit Groningen

Voordelen van het kopen van samenvattingen bij Stuvia op een rij:

Verzekerd van kwaliteit door reviews

Verzekerd van kwaliteit door reviews

Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!

Snel en makkelijk kopen

Snel en makkelijk kopen

Je betaalt supersnel en eenmalig met iDeal, creditcard of Stuvia-tegoed voor de samenvatting. Zonder lidmaatschap.

Focus op de essentie

Focus op de essentie

Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!

Veelgestelde vragen

Wat krijg ik als ik dit document koop?

Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.

Tevredenheidsgarantie: hoe werkt dat?

Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.

Van wie koop ik deze samenvatting?

Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper jochemvos. Stuvia faciliteert de betaling aan de verkoper.

Zit ik meteen vast aan een abonnement?

Nee, je koopt alleen deze samenvatting voor €2,99. Je zit daarna nergens aan vast.

Is Stuvia te vertrouwen?

4,6 sterren op Google & Trustpilot (+1000 reviews)

Afgelopen 30 dagen zijn er 73091 samenvattingen verkocht

Opgericht in 2010, al 14 jaar dé plek om samenvattingen te kopen

Start met verkopen
€2,99  7x  verkocht
  • (0)
  Kopen