100% tevredenheidsgarantie Direct beschikbaar na betaling Zowel online als in PDF Je zit nergens aan vast
logo-home
Hoorcollege aantekeningen Statistiek voor Bedrijfskunde €5,86   In winkelwagen

College aantekeningen

Hoorcollege aantekeningen Statistiek voor Bedrijfskunde

 5 keer bekeken  0 keer verkocht

Aantekeningen van hoorcolleges van Statistiek voor Bedrijfskunde aan de VU.

Voorbeeld 3 van de 21  pagina's

  • 22 juni 2024
  • 21
  • 2023/2024
  • College aantekeningen
  • Andre lucas
  • Alle colleges
Alle documenten voor dit vak (3)
avatar-seller
LoisCavis
Colleges Statistiek voor Bedrijfskunde:
Hoorcollege 7 februari 2023:
Statistiek nodig om weloverwogen beslissingen te nemen. Denk aan influencers die kijkgedrag
analyseren op basis van statistiek.

Drie tentamens:
- 2 midterms. Week 4 en 6.
- 1 schriftelijk. Week 8.
Elke week mogelijkheid om al punten bij te sprokkelen door participatiequizzes. Staat anderhalve dag
open. Mag zelf kiezen wanneer je die maakt. Zodra je begint heb je x tijd: verschilt per week. Gaat
over het materiaal van die week. Voornamelijk de sommen van vrijdag.
Vijf vragen. Iedere vraag één punt. In totaal mogelijk 30 punten, 20 goed dan krijg je een heel
participatiepunt.

Testmogelijkheid voor participatiequiz. Zo vaak oefenen als je wilt.
Maximale kans voor behalen: opgaven voor vrijdag maken, oefentest en dan echte participatiequiz.

R = supergeavanceerde excel. Data analyseren in R. = donderdag.
Vrijdag = sommen maken. Vergelijkbaar met tentamen.

Dit vak is geen wiskundig vak. Zeker niet als wiskunde voor bedrijfskunde. In week drie wordt het
voor veel moeilijker: beslissingen nemen op basis van statistiek; filosofisch (op basis van statistiek
kan je nooit iets zeker weten; altijd een kans dat je fout zit). Gewoon blijven doen. Snap je dat? Dan
hoef je je niet druk te maken voor het tentamen.

Statistiek werkt met data en gegevens. Welke soorten gegevens zijn er?

Start hoorcollege:
De gegevens worden in een datamatrix of dataframe gezet (denk aan excel sheet). Matrix met alle
metingen daarin. Volgorde van cases maakt niet uit. Maar wel goed geordend:
- Kolommen = variabelen (kunnen een identificerende naam hebben zoals views).
- Rijen = individuen/bedrijven/cases (kunnen een identificerende naam hebben zoals IZ68j2J_GOM.)
- Cellen = waarnemingen van een variabele voor dat specifieke individu/bedrijf/case.

Eigenlijk is de eerste kolom altijd: ID.

Gegevens zijn er in verschillende soorten en met verschillende meetniveaus.

Categorieën van variabelen:
- Categorische variabelen: alles met tekst. Kwalitatief.
o Verbaal: letters. Bijv. ‘categorie naam’.
o Gecodeerde tekst. ‘Categorie ID’ als cijfer kan dit zijn: bijvoorbeeld 2 staat voor
comedy. Dus kortere beschrijving van een verbaal iets. Maar denk bijvoorbeeld ook
aan datum.*
- Numerieke variabelen: alles met cijfers. Kwantitatief.
o Discreet: aantal studenten in de zaal, aantal doelpunten in wedstrijd.
o Continu: tijd tussen aankoop van twee aandelen, wachttijd patiënten, wisselkoers.
Discreet aantal milliseconden? Dat zien we dan toch aan continu.

,Je kan niet met iedere variabele alles uitvoeren. Je kunt niet elke actie met zomaar een meetniveau
uitvoeren. Dus daarom nodig dat je de variabelen kunt categoriseren. Numerieke variabelen kunnen
bij elkaar opgeteld worden, categorische variabelen niet.

* Nominale of ordinale categorieën vervangen door getallen bijv. heel klein = 1. R doet dit
automatisch voor je met het commando: factor(variable_name).
Codering heeft geen invloed op het type variabele: als het een categorische variabele was dan blijft
dat zo.
Voeg metagegevens toe aan je dataset, d.w.z. een vocabulaire met alle variabele beschrijvingen en
coderingsschema’s. Maak de meta-gegevens beschikbaar. Maak een goed .Rmd file in R.

Meetniveau:
Elke variabele is een nominale variabelen; frequentie van bepalen. Sommige nominale variabelen zijn
ook ordinaal: zit een volgorde in. Sommige ordinale variabelen hebben een intervalschaal: de
afstand tussen twee verschillende metingen heeft dezelfde interpretatie (denk aan: agree, stronglee
disagree schalen). Sommige intervalschaalvariabelen hebben ook nog weer een ratioschaal: er is een
nulwaarde waar niemand over kan twisten, je kan er niet onder komen (denk aan: 0 keer per jaar
naar de tandarts gaan, leeftijd, aantal views, lengte).

Ratioschaal: aftrekken, optellen, delen.
Intervalschaal: aftrekken en optellen.
Iedere schaal komt met meer dingen die je kan doen.

Ontbrekende waarden (missing values) zijn typisch voor empirische gegevens. Voorbeeld: persoon i
heeft zijn inkomen of geslacht niet ingevuld om privacyredenen.
Ontbrekende gegevens zijn vaak gecodeerd in data (bijv. blanco, 0, 99, NaN…). Wanneer je gegevens
inleest, zorg er dan voor dat je de ontbrekende data op NA zet in R, anders maak je ernstige fouten.
Ontbrekende waarden kunnen bij statistische analyse op verschillende manieren worden behandeld:
- Ontbrekende gevallen verwijderen: gemakkelijk, maar je verliest informatie.
- Imputatie: bijvoorbeeld:
o Door het gemiddelde inkomen in te vullen als het inkomen ontbreekt.
o Door de meest voorkomende videocategorie in te vullen (indien categorie
ontbreekt).
Hierdoor blijven meer waarnemingen/gevallen behouden, maar dit hangt ook af van de
juistheid van de veronderstellingen.

Wegvallen van data kan ervoor zorgen dat je conclusie niet klopt. Afhankelijk van je
onderzoeksvraag.
Oplossingen daadwerkelijk toepassen: zodat je kan zien wat het qua conclusie doet.

Populatie versus steekproef:
Populatie: alle individuen bij elkaar waar je het over wilt hebben.
Onderzoek naar inkomen van studenten. Je kan niet de hele populatie studenten vragen. Dus je
neemt een steekproef aan studenten. Het feit dat je een steekproef neemt, zorgt voor toeval.
De populatie is de verzameling van alle mogelijke datapunten: we willen graag alles weten over de
populatie, maar we hebben de populatie (bijna) nooit.
Een steekproef is een deelverzameling van gegevens uit de populatie. We gebruiken de steekproef
om iets af te leiden over de populatie.

, Een steekproef heeft altijd een aspect van willekeurigheid in zich: het had een andere steekproef
kunnen zijn. Hier komt het element van statistische analyse om de hoek kijken:
- Nodig: een model om te beschrijven wat de steekproef had kunnen zijn (gegeven de
eigenschappen van de populatie en van hoe we de steekproef hebben genomen).
- Nodig: technieken om de mogelijke modeluitkomsten te confronteren met de werkelijke
waarnemingen.
- Als de waarnemingen in strijd zijn met het model, concluderen wij dat het model (de theorie)
door de gegevens wordt verworpen.

Statistiek helpt ons een model te bouwen om te beoordelen wanneer een of meer van deze
uitkomsten verrassend afwijkend zijn.

Samenvatten van gegevens:
Gegevens samenvatten = informatie verliezen. Waarom zou je dat willen? Om de essentiële
gegevenskenmerken in een oogopslag te zien én om interessante onderzoeksvragen te
beantwoorden. Hoe?
- In een getal of een paar getallen (descriptief) of een tabel met getallen.
- In een goed plaatje (vaak overtuigender en sneller te begrijpen).

- Voor categorische variabelen:
Welke samenvattingen je maakt, hangt af van de onderzoeksvragen die je in gedachten hebt:
▪ Wat is het dominante type onder populaire video’s?
▪ Hebben Duitsland en Korea dezelfde voorkeuren voor populaire
videocategorieën?
o Grafieken: let op wat je op de assen z(i)et. Taartdiagrammen, staafdiagrammen.
o Kengetallen: proportie = aantal waarnemingen / totaal aantal cases. Bijvoorbeeld:
aantal muziekvideo’s / totaal aantal video’s. Percentage in steekproef.
Voor steekproefgrootheden gebruiken we gewone letters zoals p, maar voor
populatiegrootheden gebruiken we Griekse letters.
Wij zijn geïnteresseerd in uitspraken over het populatiepercentage, maar we
observeren alleen het steekproefpercentage.

- Voor numerieke variabelen:
Welke samenvattingen je maakt, hangt af van de onderzoeksvragen die je in gedachten hebt:
▪ Hoeveel dagen moet je wachten voordat een geplaatste video populair
wordt?
▪ Wat is het aantal dagen waarna je het kunt opgeven dat je video ooit nog
populair zal worden?
o Grafieken: histogrammen en boxplots. (in één oogopslag)
▪ Boxplots: in het midden de mediaan (middelste); heeft een doos die IQR
(afstand tussen eerste en derde kwartiel) bevat.
▪ Bij grote spreiding ben je onzekerder over waar de uitkomst gaat liggen.
▪ Uitschieters duidelijk zichtbaar via boxplots.

Scheefheid is een maat voor asymmetrie. Voornamelijk gebruikt om afwijkingen van normaliteit of
symmetrie te meten; voor normale verdeling geldt: scheefheid is 0.

Voordelen van het kopen van samenvattingen bij Stuvia op een rij:

Verzekerd van kwaliteit door reviews

Verzekerd van kwaliteit door reviews

Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!

Snel en makkelijk kopen

Snel en makkelijk kopen

Je betaalt supersnel en eenmalig met iDeal, creditcard of Stuvia-tegoed voor de samenvatting. Zonder lidmaatschap.

Focus op de essentie

Focus op de essentie

Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!

Veelgestelde vragen

Wat krijg ik als ik dit document koop?

Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.

Tevredenheidsgarantie: hoe werkt dat?

Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.

Van wie koop ik deze samenvatting?

Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper LoisCavis. Stuvia faciliteert de betaling aan de verkoper.

Zit ik meteen vast aan een abonnement?

Nee, je koopt alleen deze samenvatting voor €5,86. Je zit daarna nergens aan vast.

Is Stuvia te vertrouwen?

4,6 sterren op Google & Trustpilot (+1000 reviews)

Afgelopen 30 dagen zijn er 75759 samenvattingen verkocht

Opgericht in 2010, al 14 jaar dé plek om samenvattingen te kopen

Start met verkopen
€5,86
  • (0)
  Kopen