Deze samenvatting bevat alle aantekeningen van de hoorcolleges tot en met regressie van het vak Statistische Methoden en Technieken voor de studie Bedrijfskunde aan de Erasmus Universiteit Rotterdam. Inclusief afbeeldingen uit de slides en zevenstappenschema uitwerkingen. Zelf een 9.9 voor het tent...
Statische methoden en
technieken
1. Univariate analyse (= 1 variabele)
1.1. Causaal relatieschema
Bedrijfskunde en empirisch onderzoek -> Vooronderstellingen (zulke theorie leren voor toets):
Er bestaat een te kennen werkelijkheid (al is die niet per se onmiddellijk waarneembaar).
Deze werkelijkheid is zodanig gestructureerd en stabiel (dus dat het te begrijpen is) dat deze
zinvol is.
Regelmatigheden in waarnemingsuitkomsten worden verondersteld ‘iets’ te zeggen over de
achterliggende causale mechanismen.
Dus: de werkelijkheid is er, deze is geordend en je veronderstelt dat het verbonden is met de
werkelijkheid.
Methodologisch probleem dat hierbij komt kijken: hoe verhouden observaties en
onderzoeksresultaten zich tot de werkelijkheid, omdat deze onbekend is?
Dit wordt stellenderwijs verkregen met hypothesen, theorieën en modellen.
Theoretische claims worden gemaakt door het meten van empirische regelmatigheden (iets
komt vaak voor dus theorie creëren).
Causale relatieschema: samenvatting van ideeën en gedachten over een lastige voornamelijk
onbekende vraagstelling. Je leidraad van het onderzoek. Stappen:
1. Identificeren van afhankelijke variabele. (2 afhankelijke variabelen in groepsopdracht)
2. Identificeren van grootheden (onafhankelijke variabelen) die daar een waarde aan
toevoegen.
3. Toevoegen indirecte effecten.
Bestaat uit:
1. Directe effecten: Causale verbanden
2. Indirecte effecten: je schoolkeuze heeft ook effect op bijvoorbeeld schoolkosten. De
indirecte effecten zijn van belang voor redeneringen.
Symbolen (verwachte aard van de effecten) hangt af van het meetniveau van de variabele:
+ : positief effect (hoe hoger de kosten van school des te hoger de studieschuld)
- : negatief effect
* : kwalitatieve gegevens, je geeft hiermee wel aan dat het effect zal hebben op een andere
variabele maar niet hoeveel op kwantitatief niveau.
? : je verwacht wel een relatie maar je weet niet precies of het een positief of negatief effect
heeft.
,+ en – kan je alleen gebruiken vanaf ordinaal meetniveau, bij kwantitatieve waarden.
Causaal relatieschema is gebaseerd op analyses kan in twee vormen uitgewerkt worden.
Conceptueel relatieschema: causaal schema op basis van theoretische concepten.
Empirisch relatieschema: causaal relatieschema op basis van waarneembare grootheden (is
voorbeeld hierboven).
Uit datasets kan je nooit causaliteit aantonen, slechts de correlatie. Causaliteit is subjectief.
Model: een formele abstracte verzameling van veronderstelde relaties tussen grootheden met
tegenhangers in de empirie. Kenmerken:
Abstract: Een model is abstract, een abstract model geeft niet alle kenmerken van de
werkelijkheid maar alleen de essentiële.
Formeel: Alle termen binnen een model zijn exact gedefinieerd, niets is vaag.
Subjectief: zowel concepten als relaties zijn verzonnen entiteiten, maar wel tegenhangers in
de empirie.
1.2. Steekproeven
Populatie: De gehele groep mensen waar je onderzoek binnen valt. Het totaal van elementen
waarop het onderzoek betrekking heeft Dit geef je aan in ruimte en tijd. (Bijv. de mensen die op
ZONDAG boodschappen doen in ROTTERDAM.
Frame: Administratieve tegenhangen van de populatie. Een lijst met namen, adressen etc.
Steekproef: deelverzameling van de populatie waar je daadwerkelijk onderzoek naar gaat doen.
Aselect steekproeftrekken: Alle elementen in de populatie hebben dezelfde kans om in de
steekproef terecht te komen.
Gestratificeerd steekproeftrekken: Opzettelijke over- en ondervertegenwoordiging van
deelpopulaties (= strata). Bijv. 90% grote bedrijven en 10% kleine in steekproef.
Getrapt steekproeftrekken: Populatie is georganiseerd in clusters. Dus in delen het
onderzoek uitvoeren. Minder nauwkeurig dan gestratificeerd.
Systematisch steekproeftrekken: Elke 5e in de rij hoort bij de steekproef. Staat alleen vast
hoeveel mensen je in je steekproef moet hebben bijv. N=100.
De benodigde omvang van de steekproef is afhankelijk van:
Gewenste nauwkeurigheid en betrouwbaarheid uitspraken.
, Overwegingen kwaliteit statistische toetsing (fout 2e soort).
Geavanceerd gebruik van statistische methoden en technieken.
Trekkingsverdelingen (inference): heeft als doel het trekken van conclusies over
populatiekenmerken gebaseerd op een steekproef.
Bijvoorbeeld: bereken het populatiegemiddelde op basis van het steekproefgemiddelde.
Komt onzekerheid bij kijken.
Wat is de kans dat X́ (steekproefgemiddelde) dichtbij mu (populatiegemiddelde) ligt?
Trekkingsverdeling van het steekproef gemiddelde uitvoeren. Met groepjes van n aantal
mensen kijken of je uitspraken over populatie kan doen.
Wanneer de steekproefomvang n stijgt, wordt de standaardfout van het steekproefgemiddelde s/√n
kleiner. Als gevolg hiervan wordt het acceptatiegebied kleiner en het verwerpingsgebied groter.
Dit verklaart (gedeeltelijk) waarom analyses van grotere steekproeven eerder significante
resultaten laten zien.
Let op: significantie betekent nog geen relevantie!
Als de steekproefomvang maar groot genoeg is, zullen uiteindelijk zelfs nulhypothesen die
gering afwijken van de echte populatie parameter worden verworpen
1.3. Kansdichtheidsfunctie
Inferentiële statistiek: Uitspraken doen over een populatie doormiddel van een steekproef. Twee
vormen van onzekerheid:
Steekproefvariatie: steekproeven zullen altijd iets van elkaar afwijken. Andere steekproef
had andere uitkomsten voor populatie kunnen geven.
De werkelijke situatie is onbekend in de populatie.
Inferentiële uitspraken zijn ‘niet-logisch’: kennis over een deel van de populatie wordt gebruikt om
uitspraken te doen over de hele populatie
Onderdeel van de statistische theorie zijn begrippen zoals: kans experiment, kansvariabele en
kansdichtheidsfunctie.
Kennis over de kansdichtheidsfuncties van kansvariabelen is nodig om uitspraken over
onzekere gebeurtenissen te kunnen kwantificeren.
Kansvariabelen: Random variabelen. Het deel van het experiment waar jij als onderzoeker in
geïnteresseerd bent. De (X) die een uitkomst geeft aan een bepaald antwoord van je steekproef. Je
kan bij een kop-munt proef bijvoorbeeld het nummer 1 aan kop geven en het nummer 2 aan munt
dat zijn dan de kansvariabelen.
Discrete kansvariabelen: Zijn variabelen wanneer deze eindig zijn of te tellen zijn. Een random getal
is altijd discreet.
Verwachte waarde (E(X)) van een directe kansvariabele is het lange termijn gemiddelde. Wat
is het gemiddelde wanneer je het experiment meerdere keren hebt uitgevoerd.
Variantie: (V(X)) Gewogen gemiddelde van de gekwadrateerde afwijkingen van de mogelijke
uitkomsten van de kansvariabele tot het eigen gemiddelde.
Standaarddeviatie: De wortel van de variantie.
, Continue kansvariabelen: Bijv. normale verdeling. Getallen zijn ontelbaar.
Kansen berekenen doe je met de kansdichtheidsfunctie f(x): Functie die verdeling van de continue
variabele beschrijft. Zijn niet direct de kansen, er zit nog een stap tussen.
F(x) is niet negatief
F(x) kan een waarde boven de 1 aangeven.
De totale oppervlakte onder de “curve”, wat de inhoud van f(x) is, staat gelijk aan 1.
De kans dat de uitkomst binnen een bepaald gedeelte voorkomt bereken je door de
oppervlakte van dat gedeelte te berekenen zoals hier het zwarte gedeelte:
1
Je berekent deze met :
B− A
Voorbeeld: De tijd dat iemand over en bepaalde handeling doet ligt tussen de 100 en 180
1
minuten. Wat is de kansdichtheidsfunctie? Antwoord: =1/80 e
180−100
Wat is dan het aantal orders dat tussen de 120 en 150 minuten geplaatst wordt?
Antwoord: (150-120) x 1/80e = 0.375 = 37.5
1.4. Uitbijteranalyse
Nagaan of de extreme waarneming wel onderdeel is van de beoogde populatie.
Nagaan gevoeligheid steekproefkenmerken voor uitbijters (gevoeligheids- of
robuustheidsanalyse).
Uitbijters spoort je op door: histogram of box-whiskers plot.
Berekenen gestandaardiseerde waarnemingsuitkomsten (Z-scores): Afstand
waarnemingsuitkomst tot steekproefgemiddelde uitgedrukt in steekproefstandaarddeviaties.
Kwartielen:
Q1: 25% punt. (n+1)/4
Q2: 50% punt, de mediaan. 2*(n+1)/4
Q3: 75% punt. 3*(n+1)/4
Boxplot: Box bevat 50% van je waarnemingen.
IQR (interkwartiel range): Q3-Q1
Dal: Q1 – 1,5 * IQR
Top: Q3 + 1,5 * IQR
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller jeremyut. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $4.87. You're not tied to anything after your purchase.