Statistiek voor Bedrijfskunde (E_BK1_STATB)
All documents for this subject (3)
Seller
Follow
LoisCavis
Content preview
Colleges Statistiek voor Bedrijfskunde:
Hoorcollege 7 februari 2023:
Statistiek nodig om weloverwogen beslissingen te nemen. Denk aan influencers die kijkgedrag
analyseren op basis van statistiek.
Drie tentamens:
- 2 midterms. Week 4 en 6.
- 1 schriftelijk. Week 8.
Elke week mogelijkheid om al punten bij te sprokkelen door participatiequizzes. Staat anderhalve dag
open. Mag zelf kiezen wanneer je die maakt. Zodra je begint heb je x tijd: verschilt per week. Gaat
over het materiaal van die week. Voornamelijk de sommen van vrijdag.
Vijf vragen. Iedere vraag één punt. In totaal mogelijk 30 punten, 20 goed dan krijg je een heel
participatiepunt.
Testmogelijkheid voor participatiequiz. Zo vaak oefenen als je wilt.
Maximale kans voor behalen: opgaven voor vrijdag maken, oefentest en dan echte participatiequiz.
R = supergeavanceerde excel. Data analyseren in R. = donderdag.
Vrijdag = sommen maken. Vergelijkbaar met tentamen.
Dit vak is geen wiskundig vak. Zeker niet als wiskunde voor bedrijfskunde. In week drie wordt het
voor veel moeilijker: beslissingen nemen op basis van statistiek; filosofisch (op basis van statistiek
kan je nooit iets zeker weten; altijd een kans dat je fout zit). Gewoon blijven doen. Snap je dat? Dan
hoef je je niet druk te maken voor het tentamen.
Statistiek werkt met data en gegevens. Welke soorten gegevens zijn er?
Start hoorcollege:
De gegevens worden in een datamatrix of dataframe gezet (denk aan excel sheet). Matrix met alle
metingen daarin. Volgorde van cases maakt niet uit. Maar wel goed geordend:
- Kolommen = variabelen (kunnen een identificerende naam hebben zoals views).
- Rijen = individuen/bedrijven/cases (kunnen een identificerende naam hebben zoals IZ68j2J_GOM.)
- Cellen = waarnemingen van een variabele voor dat specifieke individu/bedrijf/case.
Eigenlijk is de eerste kolom altijd: ID.
Gegevens zijn er in verschillende soorten en met verschillende meetniveaus.
Categorieën van variabelen:
- Categorische variabelen: alles met tekst. Kwalitatief.
o Verbaal: letters. Bijv. ‘categorie naam’.
o Gecodeerde tekst. ‘Categorie ID’ als cijfer kan dit zijn: bijvoorbeeld 2 staat voor
comedy. Dus kortere beschrijving van een verbaal iets. Maar denk bijvoorbeeld ook
aan datum.*
- Numerieke variabelen: alles met cijfers. Kwantitatief.
o Discreet: aantal studenten in de zaal, aantal doelpunten in wedstrijd.
o Continu: tijd tussen aankoop van twee aandelen, wachttijd patiënten, wisselkoers.
Discreet aantal milliseconden? Dat zien we dan toch aan continu.
,Je kan niet met iedere variabele alles uitvoeren. Je kunt niet elke actie met zomaar een meetniveau
uitvoeren. Dus daarom nodig dat je de variabelen kunt categoriseren. Numerieke variabelen kunnen
bij elkaar opgeteld worden, categorische variabelen niet.
* Nominale of ordinale categorieën vervangen door getallen bijv. heel klein = 1. R doet dit
automatisch voor je met het commando: factor(variable_name).
Codering heeft geen invloed op het type variabele: als het een categorische variabele was dan blijft
dat zo.
Voeg metagegevens toe aan je dataset, d.w.z. een vocabulaire met alle variabele beschrijvingen en
coderingsschema’s. Maak de meta-gegevens beschikbaar. Maak een goed .Rmd file in R.
Meetniveau:
Elke variabele is een nominale variabelen; frequentie van bepalen. Sommige nominale variabelen zijn
ook ordinaal: zit een volgorde in. Sommige ordinale variabelen hebben een intervalschaal: de
afstand tussen twee verschillende metingen heeft dezelfde interpretatie (denk aan: agree, stronglee
disagree schalen). Sommige intervalschaalvariabelen hebben ook nog weer een ratioschaal: er is een
nulwaarde waar niemand over kan twisten, je kan er niet onder komen (denk aan: 0 keer per jaar
naar de tandarts gaan, leeftijd, aantal views, lengte).
Ratioschaal: aftrekken, optellen, delen.
Intervalschaal: aftrekken en optellen.
Iedere schaal komt met meer dingen die je kan doen.
Ontbrekende waarden (missing values) zijn typisch voor empirische gegevens. Voorbeeld: persoon i
heeft zijn inkomen of geslacht niet ingevuld om privacyredenen.
Ontbrekende gegevens zijn vaak gecodeerd in data (bijv. blanco, 0, 99, NaN…). Wanneer je gegevens
inleest, zorg er dan voor dat je de ontbrekende data op NA zet in R, anders maak je ernstige fouten.
Ontbrekende waarden kunnen bij statistische analyse op verschillende manieren worden behandeld:
- Ontbrekende gevallen verwijderen: gemakkelijk, maar je verliest informatie.
- Imputatie: bijvoorbeeld:
o Door het gemiddelde inkomen in te vullen als het inkomen ontbreekt.
o Door de meest voorkomende videocategorie in te vullen (indien categorie
ontbreekt).
Hierdoor blijven meer waarnemingen/gevallen behouden, maar dit hangt ook af van de
juistheid van de veronderstellingen.
Wegvallen van data kan ervoor zorgen dat je conclusie niet klopt. Afhankelijk van je
onderzoeksvraag.
Oplossingen daadwerkelijk toepassen: zodat je kan zien wat het qua conclusie doet.
Populatie versus steekproef:
Populatie: alle individuen bij elkaar waar je het over wilt hebben.
Onderzoek naar inkomen van studenten. Je kan niet de hele populatie studenten vragen. Dus je
neemt een steekproef aan studenten. Het feit dat je een steekproef neemt, zorgt voor toeval.
De populatie is de verzameling van alle mogelijke datapunten: we willen graag alles weten over de
populatie, maar we hebben de populatie (bijna) nooit.
Een steekproef is een deelverzameling van gegevens uit de populatie. We gebruiken de steekproef
om iets af te leiden over de populatie.
, Een steekproef heeft altijd een aspect van willekeurigheid in zich: het had een andere steekproef
kunnen zijn. Hier komt het element van statistische analyse om de hoek kijken:
- Nodig: een model om te beschrijven wat de steekproef had kunnen zijn (gegeven de
eigenschappen van de populatie en van hoe we de steekproef hebben genomen).
- Nodig: technieken om de mogelijke modeluitkomsten te confronteren met de werkelijke
waarnemingen.
- Als de waarnemingen in strijd zijn met het model, concluderen wij dat het model (de theorie)
door de gegevens wordt verworpen.
Statistiek helpt ons een model te bouwen om te beoordelen wanneer een of meer van deze
uitkomsten verrassend afwijkend zijn.
Samenvatten van gegevens:
Gegevens samenvatten = informatie verliezen. Waarom zou je dat willen? Om de essentiële
gegevenskenmerken in een oogopslag te zien én om interessante onderzoeksvragen te
beantwoorden. Hoe?
- In een getal of een paar getallen (descriptief) of een tabel met getallen.
- In een goed plaatje (vaak overtuigender en sneller te begrijpen).
- Voor categorische variabelen:
Welke samenvattingen je maakt, hangt af van de onderzoeksvragen die je in gedachten hebt:
▪ Wat is het dominante type onder populaire video’s?
▪ Hebben Duitsland en Korea dezelfde voorkeuren voor populaire
videocategorieën?
o Grafieken: let op wat je op de assen z(i)et. Taartdiagrammen, staafdiagrammen.
o Kengetallen: proportie = aantal waarnemingen / totaal aantal cases. Bijvoorbeeld:
aantal muziekvideo’s / totaal aantal video’s. Percentage in steekproef.
Voor steekproefgrootheden gebruiken we gewone letters zoals p, maar voor
populatiegrootheden gebruiken we Griekse letters.
Wij zijn geïnteresseerd in uitspraken over het populatiepercentage, maar we
observeren alleen het steekproefpercentage.
- Voor numerieke variabelen:
Welke samenvattingen je maakt, hangt af van de onderzoeksvragen die je in gedachten hebt:
▪ Hoeveel dagen moet je wachten voordat een geplaatste video populair
wordt?
▪ Wat is het aantal dagen waarna je het kunt opgeven dat je video ooit nog
populair zal worden?
o Grafieken: histogrammen en boxplots. (in één oogopslag)
▪ Boxplots: in het midden de mediaan (middelste); heeft een doos die IQR
(afstand tussen eerste en derde kwartiel) bevat.
▪ Bij grote spreiding ben je onzekerder over waar de uitkomst gaat liggen.
▪ Uitschieters duidelijk zichtbaar via boxplots.
Scheefheid is een maat voor asymmetrie. Voornamelijk gebruikt om afwijkingen van normaliteit of
symmetrie te meten; voor normale verdeling geldt: scheefheid is 0.
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller LoisCavis. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $6.30. You're not tied to anything after your purchase.