Samenvatting Statistiek 2021 Erasmus Universiteit Rotterdam School of Management Colleges
177 views 12 purchases
Course
Statistiek (BK1211)
Institution
Erasmus Universiteit Rotterdam (EUR)
Book
Custom Managerial Statistics Part 1
In dit document zijn de colleges 1 tot en met 10 van het van statistiek samengevat. Er zitten veel uitgewerkte voorbeelden bij. De colleges zijn gegeven door professor Ben Bode.
Statistiek is een manier om informatie uit gegevens te halen. Het gaat erom dat je
data verzamelt, analyseert en interpreteert. Dat doe je om inzicht in een verschijnsel
te krijgen. Het doel van statistisch onderzoek is om uitspraken over processen in de
werkelijkheid om ons heen te maken.
Een aantal belangrijke basisbegrippen:
- Populatie: het geheel van items (personen, bedrijven, enz.) waar jij als
onderzoeker in geïnteresseerd bent. Dat is waar je je op wilt richten.
- Parameter: een beschrijvende maatstaf van een populatie. Dus populaties
hebben parameters om de populatie te beschrijven. Bijv. een parameter is de
gemiddelde lengte van alle Nederlandse mannen, dan is dat de parameter
van die populatie.
- Steekproef: de tegenhanger van een populatie is de steekproef. Want we
nemen vaak niet een hele populatie waar, dit is kostbaar en tijdrovend.
Daarom wordt er onderscheidt gemaakt. De steekproef is een
deelverzameling van de populatie waar je je in je onderzoek op richt, om
uiteindelijk iets over het grotere geheel te zeggen.
- Statistic: de tegenhanger van een parameter is een statistic. De statistic is
bijv. het percentage voorstanders voor een bepaalde verkiezingskandidaat in
de steekproef. Je hoopt dat het een goede afspiegeling is van het percentage
stemmers op die kandidaat in de populatie.
Het onderscheidt tussen beschrijvende en inferentiële (gevolgtrekkende) statistiek:
- Beschrijvende statistiek: dit kun je toepassen op zowel een populatie als
een steekproef, maar meestal wordt het toegepast op een steekproef en
vormt het een eerste stap naar die tweede fase in statistiek; namelijk
inferentiele statistiek. Beschrijvende statistiek houdt zich bezig met het
presenteren en samenvatten van gegevens op een effectieve manier. Dat
houdt in dat het compact is, inzichtelijk is en dat er juist conclusies op een
snelle manier uit getrokken kunnen worden. Het is ook iets dat je doet met
bijv. frequentietabellen en histogrammen. Maar het kan ook door
samenvattende maatstaven (parameters of statistics), zoals een gemiddelde,
mediaan of standaarddeviatie. Dat zijn samenvattende maatstaven die ook
gegevens op een overzichtelijke manier beschrijven.
- Inferentiële statistiek: dit heeft te maken met het onderscheid met populatie
en steekproef en het feit dat je doorgaans de populatie niet in zijn geheel
verzamelt, je hoopt je te kunnen beperken tot een snellere en goedkopere
manier door je te richten op een handig gekozen deelverzameling van de
populatie; die we steekproef noemen. En dan hoop je dat je de kenmerken
van de populatie die we niet in zijn geheel hebben waargenomen (de
parameters van de populatie) dat je die behoorlijk goed kunt benaderen/
voorspellen m.b.v. het percentage van de steekproef die je handig gekozen
hebt. Je wil de informatie uit het kleinere geheel doortrekken naar het grotere
geheel dat je niet volledig waargenomen hebt. Die stap van het kleine naar
1
, het grote is inferentiele statistiek (gevolgtrekking). In die stap/proces is er
altijd sprake van een stukje onzekerheid, want je weet de volledige populatie
niet, dus zit er altijd een verschil tussen die kleine afspiegeling in de
steekproef en de werkelijke grote populatie. Maar we kunnen gebruikmaken
van de kansrekening in de statistiek om juist die sprong op een verantwoorde
manier te kunnen maken, zodanig dat je weet hoe er rekening gehouden kan
worden met die onzekerheid.
Meetniveaus van variabelen: telkens als je voor een bepaalde keuze staat van
welke techniek moet ik toepassen, wat is het meetniveau of het type variabele waar
ik mee werk. Een variabele is een kenmerk van de populatie waar je onderzoek naar
wil doen. Die kenmerken kunnen op verschillende niveaus gemeten worden, op
meetniveaus. Allereerst kunnen we een tweedeling maken tussen variabelen;
gegevens kunnen kwalitatief of kwantitatief zijn:
- Kwalitatieve meetniveau: deze gegevens zijn kenmerken die gemeten
worden op een manier zodat de uitkomst eigenlijk in een categorie ingedeeld
kan worden. De uitkomst van het kenmerk kun je in een categorie stoppen.
-Het laagste niveau van informatie is een nominaal meetniveau (wederzijds
uitsluitende categorieën, bijv. of iemand wel of niet ergens geboren is en dus
wel of niet in die categorie thuishoort)
-het tweede niveau, nog steeds kwalitatief is: ordinaal of ranked. Het verschil
tussen ordinaal en nominaal; in beide gevallen is sprake van categorische
gegevens (kwalitatief), maar bij ordinale gegevens is er ook een natuurlijke
rangordening nodig. als je bijv. vraagt naar de smaak van een bepaald
product, en je beschrijft het met i dont like it, dan heb je een natuurlijke
rangordening aangebracht, en dan heb je een ordinaal meetniveau.
- Kwantitatieve meetniveau: het kenmerkende verschil tussen kwalitatief en
kwantitatieve gegevens is dat de uitkomsten van kwantitatieve gegevens
numeriek zijn. Dat houdt in dat ze ofwel het resultaat zijn van een
meetproces, ofwel het resultaat van een telproces. Een meetproces is bijv. als
je iemand zijn lengte meet met een meetlat en een telproces is als je bijv. Kijkt
hoeveel boeken je thuis hebt staan. Beide zijn numeriek en kwantitatief. Voor
tellen en meetprocessen geldt dat de gegevens interval of ratio kunnen zijn.
-interval niveau: is een stap hoger dan tweede niveau. Naast de vorige
eigenschappen wordt er nu ook een natuurlijke afstand toegevoegd. Bijv.
temperatuur in Celsius of Fahrenheit. Afstanden hebben hierbij betekenis.
Een ander voorbeeld is schoenmaat, daarvoor geldt ook dat schoenmaat 44
niet 2 keer zo groot is als schoenmaat 22, maar er zijn wel natuurlijke
afstanden
-ratio niveau: dit is het hoogste meetniveau.
Hierbij komt er als extra eigenschap bij dat er
een absoluut 0-punt is bijvoorbeeld leeftijd.
Iemand is bij geboorte 0 (absoluut 0 punt) en
je kunt dan verhoudingen bepalen, dus
iemand die 20 is, is 2 keer zo oud als iemand
die 10 jaar is.
De twee laatste niveaus worden door Keller vaak
samengevoegd. Want vaak kan iets dat op interval
niveau is, ook vaak op rationiveau toegepast
worden.
2
,Beschrijvende technieken voor kwantitatieve gegevens:
Dus gegevens die op het niveau interval of ratio zijn. De geëigende instrumenten
daarbij zijn frequentietabellen en hun grafische voorstellingen die we histogrammen
noemen. Stel dat de directie van een telefoonbedrijf info wil hebben over een groep
nieuwe klanten die nu een maand geabonneerd zijn en ze willen weten hoe hun
belgedrag is en de telefoonrekening is in de eerste maand van lidmaatschap. Eerst
worden de gegevens overzichtelijk gerangschikt en gepresenteerd. Zelfs met deze
simpele technieken kun je al een bepaalde hoeveelheid inzicht verwerven.
Daaronder valt:
- Gegevens worden verzameld door de werknemer
- Er wordt een frequentieverdeling en frequentietabel samengesteld
- Er wordt een grafische weergave, een histogram, van die frequentietabel
gemaakt
Hierbij kun je in Excel XM03-01 gebruiken
Een frequentieverdeling is een tabel waarbij de
waarnemingen in niet overlappende intervallen/
klassen wordt ingedeeld en van elke klassen het
aantal observaties/ frequenties worden vermeld.
Per interval wordt geturfd hoeveel observaties in
die klasse vallen. Wat doe je met
klassengrenzen? Bijv. als er een waarneming
precies op de grens valt, bij welke klasse hoort
die dan? Keller kiest ervoor om de bovengrens bij
de klasse te rekenen en de ondergrens hoort bij
de vorige klasse. Er is 1 uitzondering (blz. 46
boek) namelijk de linker grens van de 1e klasse 0,
deze wordt wel meegenomen bij de 1e klasse.
Als je een frequentieverdeling zelf maakt, hoeveel
klassen gebruiken? Antwoord; niet te veel en niet
te weinig. Dan komt de vraag, als je het aantal
klassen bepaald hebt, wat is dat de
klassenbreedte? De manier om dat te vinden →
Range = variatiebreedte = het verschil tussen de grootste en kleinste uitkomst in de
data set
# classes = aantal gekozen klassen
! in dit voorbeeld staat 119.63 niet op de slide, maar
het voorbeeld klopt wel.
De klassenbreedte is dus 15 hier en zo maak je het
frequentietabel.
Bin staat voor bovengrens van een bepaalde klasse.
Frequentie is aantal observaties in die klasse.
3
, Vormen van histogrammen
- Vorm van symmetrie: dat betekent dat
er een bepaalde balans is. Er kan dan
een verticale lijn getrokken worden, dat
als je het plaatje 180 graden draait en
het alsnog hetzelfde blijft.
- Scheefheid/ skewness. Soms heb je
plaatjes met positieve scheefheid, er is
dan eerst een hoge piek en dan een
lange uitloop naar rechts. Wanneer je
de inkomensverdeling in onontwikkelde
landen bekijkt, ziet het er vaak zo uit.
Scheefheid naar rechts heet het. Het
omgekeerde kan ook voorkomen; negatieve
scheefheid/ scheefheid naar links.
Een piek in zo’n plaatje is heet begrip modale
klasse. Een modale klasse is de klasse met de
hoogste aantal observaties, ervan uitgaande dat je
met gelijke klassenbreedte werkt. Anders zeg je de
klasse met de hoogste concentratie. De modale klasse heeft de grootste aantal
observaties en daar liggen dus de meeste observaties op een gelijk stukje
klassenbreedte. Modaal inkomen is dus ook het inkomen wat het vaakst voorkomt.
Als er slechts 1 piek is, is het een unimodale verdeling. Maar een bimodale verdeling
kan ook voorkomen. Dan zijn er 2 subpopulaties. Je vraagt je dan altijd af wat het
onderscheidt is tussen die twee subgroepen.
Er zijn ook nog bepaalde statistische technieken die
eigenlijk uitgaan van de veronderstelling dat de
populatie waar de gegevens uit verzameld zijn,
waaruit een normale verdeling (of gauss of Bell)
voortkomt. Dit is een verdeling die vaak voorkomt in
de statistiek. Een makkelijke manier om te checken of
een populatie normaal verdeeld is, is door een
histogram te tekenen.
Cumulatieve frequentieverdelingen en ogives
Hiervoor zijn absolute
frequentieverdelingen besproken. Soms is
het ook gewenst om relatieve en
cumulatieve frequentieverdelingen te
bepalen, omdat die op een andere manier
inzichten geven. Ogives is een grafische
weergave van een cumulatieve relatieve
frequentieverdeling.
Voor iedere rechtse klassengrens zet je de cumulatieve
relatieve frequentie totdat je bij 1 uitkomt, het kan ook
een percentage zijn als je alles met 100
vermenigvuldigd. Een van de mogelijkheden die zo’n
4
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller chelseavanvaalen. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $7.61. You're not tied to anything after your purchase.