100% tevredenheidsgarantie Direct beschikbaar na betaling Zowel online als in PDF Je zit nergens aan vast
logo-home
Samenvatting van het vak 1.3 Statistics I: An Introduction (P. 1-7) €5,99   In winkelwagen

Samenvatting

Samenvatting van het vak 1.3 Statistics I: An Introduction (P. 1-7)

 2 keer bekeken  0 keer verkocht

Deze samenvatting bevat de problemen 1 tot en met 7. Met behulp van deze samenvatting ben je helemaal klaar voor het tentamen.

Voorbeeld 4 van de 36  pagina's

  • 14 januari 2022
  • 36
  • 2019/2020
  • Samenvatting
Alle documenten voor dit vak (3)
avatar-seller
lucaanthonisse
Probleem 1
1.1 data
Cases  Wat je wil onderzoeken, de beschreven objecten v/d data bv. bedrijven of klanten.
Label  Speciale variabele om cases te onderscheiden.
Variabele  Karakteristiek van een case, bv. lengte, gender of salaris. Variabelen kunnen
verschillende waardes hebben.

Categorical variable  Stopt een case in een of meerdere groepen of categorieën, bv. man of vrouw.
Quantitative variable  Gebruikt numerieke waardes waarbij je dingen als plus en gemiddeldes van
kan berekenen.
 Unit of measurement is hier heel belangrijk, bv. dollar of cm.
 Je kan hier dus gebruik maken van gemiddeldes. Vaak doe je dan ook A=1, B=2, 3=C, zodat je
goed een gemiddelde kan zien.

Spreadsheet  Het overzicht wat je in SPSS of Excel ziet.

! Gebruik een duidelijke naam, dus niet de naam van het restaurant alleen zodra deze op meerde
plaatsen zit of meerder coupons heeft.
! Gebruik van spaties kan niet, gebruik de _.

Who?
- Welke cases beschrijft de data?
- Hoeveel cases bevat de data?
what?
- Hoeveel variabelen bevat de data?
- Wat zijn de definities van de data?
- Wat is de unit of measurement?
Why?
- Welk doel heeft de data?
- Willen we een specifieke vraag beantwoorden?
- Willen we een conclusie over cases waar we geen data van hebben?
- Zijn de variabelen bruikbaar voor het gewilde doel?

Key characteristics  Hiermee kan je de who, what, why beantwoorden.

!Zorg ervoor dat de variabelen ook echt meten wat je wil weten, zodra je slechte variabelen kiest kan
dit voor slechte antwoorden zorgen. Vaak is de verhouding (rate) meer betekenisvol dan tellen hoe
vaak iets voorkomt.
!Let op de instrumenten die worden gebruikt om te meten.

Adjusting one variable to create another  Universiteit A heeft 1000 eerstejaars en binnen 6 jaar
800 geslaagden. 800/1000 = 80%. Universiteit heeft 2000 eerstejaars en binnen 6 jaar 1200
geslaagden. 1200/2000 = 60%

,1.2 displaying distributions with graphs
Exploratory data analysis twee manieren om de zoektocht te beginnen:
- Begin met elke variabele individueel te onderzoeken, daarna de relatie tussen de variabelen.
- Begin met grafieken, voeg daarna numerieke samenvattingen toe of specifieke aspecten van
de data.

Distribution of a categorical variable  Geeft alle categorieën aan dus bv. google,
bieb of wikipedia en geeft daarbij de verhouding (tellen) of het percentage van alle
cases die in een categorie vallen. Kan ook in een histogram.

!Je hebt vaak nog een categorie ‘other’ nodig, deze geeft ook veel informatie.
!Grafische methode laat ons overzichtelijk naar data kijken.

Categorical variables
Bar graph  Staafdiagram, maakt niet uit in welke volgorde de variabele staan. De staven liggen een
stukje uit elkaar.
Pie chart  Werkt alleen met percentages, geeft makkelijk weer hoeveel een variabele van het
geheel uitmaakt. Alle variabele moeten hierin, uiteindelijk moet je 100% hebben.

Quantitative variables
Stemplot  Goed zicht op de distributie waarbij numerieke waarden worden
getoond. Werkt voor data groter dan 0, alleen kleine hoeveelheid data. Je ziet snel
outliers. Voor de lijn is stems erachter de leaves.
Back-to-back stemplot  Wanneer je meerdere distributies wil vergelijken. Neem
gelijke stems en
- Splitting  Je verdeeld stems in twee, dus 4 komt 2x voor. Het eerste deel van de 4 is van 0
tot 4 en het tweede deel van 5 tot 9.
- Trimming  Het verwijderen van de laatste cijfers voordat je een stemplot maakt, je rond de
getallen dus af. Bv. 5.69 wordt 5.6.
Histogram  Breekt alle waardes van de variabelen op in klassen en geeft de verhouding (tellen) of
percentages weer v/d observaties die in een bepaalde klasse vallen. Staven aan elkaar. De counts
noem je frequenties, deze kan je ook in een tabel zetten.
1. Maak classes van waardes, let er hierbij op dat elk cijfertje ergens in valt.
2. Tel hoeveel individuen in elke klasse vallen, dit noem je de frequentie (tabel).
3. Maak het histogram.
4. Hoeveel stafen je maakt is jouw keuze.
!Met een histogram kan je maar één variabele laten zien, een staafdiagram laat die van
meerdere zien.
!Plot je data om te zien of er een patroon te vinden is.

Bestuderen van een distributie
- Kijk naar het duidelijke patroon en de uitschieters.
- Beschrijf een patroon door vorm, centrum en spreiding.
- Een outlier is een uitschieter.

Beschrijven van de vorm
- Heeft hij één of meerder pieken? Pieken = modes
- Is het symmetrisch of skewed in één richting. Symmetrisch als het te spiegelen valt. Skewed
to the right als de rechter staart (hogere waardes) langer is dan de linker staart.
- Unimodal distribution  Zodra er één piek is.
- Trimodal distribution  Zodra er drie pieken zijn.

, - Bimodal distribution  Zodra er twee pieken zijn.

Outlier  Dit kan komen door een fout in de data bijvoorbeeld, of de apparatuur.
Time plot  Wanneer data over langere tijd wordt verzameld. Stemplots
en histogrammen nemen de tijd niet mee, dit kan verwarren zijn als er een
systematische verandering is over de tijd. Tijd op de horizontale as,
variabele op de verticale as.
Numerical summary  Beschrijven van het centrum, de spreiding of
variability.


1.3 describing distributions with numbers (numerical)
Measuring the center
- Mean  Gemiddelde waarde, x̄ is het gemiddelde van alle waardes. De sigma
staat hier voor alles opgeteld, dus alle x’en opgeteld.
x̄ = x1 + x2 + x3 … / n
- Het gemiddelde is gevoelig voor outliers en skewed tails. Je zegt dus dat het geen resistant
measure of center is.
- Robust measure  Verzet zich tegen outliers en skewed tails.

- Median  De middelste waarde, helft v/d data is groter en helft v/d data is kleiner, schrijf als
M.
- De locatie van M vindt je door (n+1)/2. Let op dit is alleen de plek v/d mediaan, niet de
werkelijke mediaan.
- Oneven  M is het centrum van de observaties.
- Even  M is het gemiddelde van de twee centrum observaties.
!De mediaan geeft alleen de plaats aan, niet het getal.

Mean vs median
De mediaan is een meer resistant measure of center, zodra er een outlier is, is dit gewoon een
waarde voor de mediaan. Het gemiddelde neemt de werkelijke waarde mee, waardoor een hoge
waarde het gemiddelde zal veranderen. Zodra een distributie symmetrisch is (normaal verdeeld) zijn
mediaan en het gemiddelde gelijk. Als een distributie skewed (scheef) is, zal het gemiddelde verder
in de staart liggen dan de mediaan.

Measuring the spread
- Quartiles  Deelt de data in 4, 25% per kwartiel. Voordat je met kwartielen kan werken
moet je ze eerst opstellen van laag naar hoog.
- De mediaan deelt het geheel door 2, dus Q1 is de mediaan van het gedeelte links van de
werkelijke mediaan.
- Q3 is de mediaan van het gedeelte rechts van de werkelijke mediaan.
- Kwartielen zijn resistent, ze geven altijd dezelfde waardes.
- Percentiel  De waarde die p procent v/d observaties heeft die in die waarde vallen of lager
zijn.
o Five number summary  Minimum Q1 M Q3 Maximum

Boxplot  Een weergave van de Five Number Summary.
- De centrale box heeft een spanwijdte van Q1 en Q3.
- De lijn in de box is de mediaan.
- De lijnen vanuit de box zijn minimum en maximum, whiskers.
Interquartile range IQR  Afstand tussen Q1 en Q3.

, - IQR = Q3 – Q1. Dit is resistent.
- Met de IQR kan je outliers achterhalen door 1.5 x IQR, alle getallen die boven of onder de
gevonden waardes vallen zijn outliers.
- Geen een nummerieke meting van spreading, zoals de IQR, is handig om een skewed
distributie te beschrijven.

Variaties op de boxplot
- Modified boxplot  De whiskers zijn aangegeven door 1.5 x IQR. De getallen die dus outliers
zijn, zijn individueel aangegeven.
- Side-by-side boxplots  Twee of meer boxplotten naast elkaar om groepen die getest zijn
op dezelfde variabele te vergelijken.


Standaard deviatie meten v/d spreiding Meet de spreiding door te kijken naar hoe ver de
observaties van het gemiddelde af liggen. Schrijf je als s.
- S meet de spreiding en moet je alleen gebruiken als het gemiddelde is gekozen om het
centrum te meten.
- S=0 als er geen spreiding is, dit is alleen als alle observaties dezelfde waardes hebben. S > 0.
- Is niet resistent.

Variantie s2  s2 = (x1 - x̄ )2 + (x2 - x̄ )2 + … + (xn - x̄ )2 / n-1
Standaarddeviatie  Is de wortel van de variantie. Bij een normaal verdeling.
Degree of freedom  n-1
!De som van de deviaties van de observaties van het gemiddelde zal altijd 0 zijn.


Choosing measure of center and spread
- Five numer summary  Bij skewed distributie met sterke outliers.
- Gemiddelde en s  Vrij symmetrische distributie zonder outliers.

!Een grafiek geeft de beste over all view van een distributie.
!Numerieke metingen van het centrum en de spreiding geven feiten over de distributie, niet over de
vorm.
!Plot altijd je data

Changing unit of measurement  Dezelfde variabele kan op verschillende manieren gemeten
worden, bv. km of miles. Een verandering in de meting unit is een lineaire transformatie van de
metingen.

Linear transformation  Veranderd de originele variabele x in de nieuwe variabele xnew.
Xnew = a + bx
De a zal x hoger of lager maken, a wordt hoger x wordt hoger. De b zorgt voor het veranderen van de
grootte van de unit of metingen.
Vb. op bladzijde 44.

!Lineaire transformaties veranderen de vorm van een distributie niet. Als de distributie eerst
symmetrisch was dan blijft dat zo. Het centrum en de spreiding zullen wel veranderen.

- Elke observatie x een positieve waarde b doen vermenigvuldigt de metingen van het
gemiddelde en de mediaan (center) en metingen van de Q en s bij b.
- Hetzelfde nummer a optellen (pos of neg) bij elke observaties telt mee bij het centrum en de
Q en andere percentielen, maar verandert niet de meting v/d spreiding.

Voordelen van het kopen van samenvattingen bij Stuvia op een rij:

Verzekerd van kwaliteit door reviews

Verzekerd van kwaliteit door reviews

Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!

Snel en makkelijk kopen

Snel en makkelijk kopen

Je betaalt supersnel en eenmalig met iDeal, creditcard of Stuvia-tegoed voor de samenvatting. Zonder lidmaatschap.

Focus op de essentie

Focus op de essentie

Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!

Veelgestelde vragen

Wat krijg ik als ik dit document koop?

Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.

Tevredenheidsgarantie: hoe werkt dat?

Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.

Van wie koop ik deze samenvatting?

Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper lucaanthonisse. Stuvia faciliteert de betaling aan de verkoper.

Zit ik meteen vast aan een abonnement?

Nee, je koopt alleen deze samenvatting voor €5,99. Je zit daarna nergens aan vast.

Is Stuvia te vertrouwen?

4,6 sterren op Google & Trustpilot (+1000 reviews)

Afgelopen 30 dagen zijn er 81113 samenvattingen verkocht

Opgericht in 2010, al 14 jaar dé plek om samenvattingen te kopen

Start met verkopen
€5,99
  • (0)
  Kopen