100% tevredenheidsgarantie Direct beschikbaar na betaling Zowel online als in PDF Je zit nergens aan vast
logo-home
Samenvatting statistiek Patrick Wessa €10,46
In winkelwagen

Samenvatting

Samenvatting statistiek Patrick Wessa

 0 keer verkocht

Examendocument voor het examen van statistiek voor het schakeljaar en bachelor handelswetenschappen. Alles staat erin en ook wanneer je wat gebruikt bij de uitvoering in rstudio.

Voorbeeld 5 van de 9  pagina's

  • 6 januari 2025
  • 9
  • 2024/2025
  • Samenvatting
Alle documenten voor dit vak (3)
avatar-seller
imanvandeperre
Distributies
 Arithmetic mean: de mean or average die je bekomt door de som van alle observaties te delen
door het aantal observaties
 Median: middelste observatie wanneer deze is gesorteerd, niet beinvloed door grote of kleine
values
 Variance: hoog betkent dat de observaties heel verschillend zijn van elkaar en het gemiddelde



Bernoulli distributie
Voor binominale distributies -> 0 & 1
Gaat over experimenten
2 uitkomsten: succes or failure
Mean = probability of having a success


Uniforme distributie
Alle uitkomsten binnen een bepaald interval zijn even waarschijnlijk, geen bepaalde voorkeur
Continu: kans is gelijk verdeeld over een continu interval
Discreet: elk van een eindig aantal uitkomsten heeft dezelfde kans


Normale distributie
Gemiddelde u bepaalt het centrum vd verdeling
Standaardafwijking sigma bepaalde de spreding (breedte)
Coefficient skewness g1=0
Coeficicent kurtosis g2= 3
De beste functie kan je vinden met de maximul likelihood procedure
-> ML fitting-> show the best fitting mean and standard deviation
-> histogram


Chi distributie
Niet symmetrisch
Skewness= 2*vierkantswortel 2/n
Kurtosis= 3+ 12/n
De beste functie kan je vinden door de degrees of freedom (n) te berekenenen met maximum
likelihood
->QQ plot

,Descriptive statistics
Qualitative
Frequency plot / bar plot
Toont de absolute frequencies voor verschillende items of categoriën
Gebruikt voor te bekijken hoe vaak een categorie voorkomt
Voor qualitative data
Van hoog naar laag
Enkel de hoogte is meaningfull
X as= verschillende categorie
Y= frequency
Alternatieven: cleveland dot plot, frequency plot based on plot (streepjes)


Frequency table
toont de relatieve ( absolute/n) and absolute frequencies (kolom) voor verschillende items of
categorieën (row)
voor qualitative
de rijen zijn hetzelfde als bij frequency plot
zelfde gebruik


contigency table
twee dimensionaal
voor twee qualitatieve variabelen
vooral in de chi squared test voor count data of voor confusion matrix


Quantitative
stem-and-leaf plot
beschrijft de distributie en behoud opteminst twee digits van de origenele observaties
trekt de leaf ( laatste cijfer) & stem (de eerste cijfers) uit elkaar voor elke observatie
alle observaties met dezelfde stem komen in de zelfde rij
gebruikt om de distributie van de data te bekijken: central tendency, variability, skewness,
modality, outliers


Histogram
bins -> intervallen waar de observaties tussen liggen
midpoint-> central value of the bin, is de waarde waardoor elke observatie in de bin wordt vervangen
abs frequenty -> the count of numbers that are in the bin
relative freq -> abs freq/n
cumul rel freq -> toont het % van observaties die kleiner zijn dan de grootste waarde van de interval
gebruikt om de distributie van de data te bekijken: central tendency, variability, skewness,
modality, outliers



Harell-davis Quantiles
Heel effectief, beter dan andere zeker wanneer er een kleine sample size is
Gebruikt om de distributie van een random var te beschrijven
Ook voor QQ plot, Normal probability plot, PPCC plot
Midden 95? -> Q0,025 en 0,975
Als deze er niet exact staat doe je de twee die er het dichts bij liggen / 2
Die twee waardes zijn dan je interval

,Central tendency
Gebruikt om een summary te maken van de variabelen
Voor bootstrap plots, mean plots, hypothese testen
Arithmetic mean: som van alle waarden in de dataset/ aantal ,niet gebruiken bij outliers
Median: is robust en niet aantastbaar door outliers, van klein naar groot ordenene en dan het middelste
Trimmed mean: gesorteerde observaties en de extremen (kleinste en grooste worden weggelaten)
Windsorized mean: gesorteerde observaties , ?



Skewness & kurtosis
Om te kijken of de data normaal verdeeld is
H0= normaal verdeeld, als 1 van de twee iets anders aangeeft is dit niet zo
Geeft geen info over type II error waar je in geintereseerd bent als je diagnotische testen doet
Sensitive to outliersLong format: observations van vrouwen en mannen in dezelfde kolom


Notched box plot
Geven summaries over de distributies, en over outliers
Ook gebruikt om medianen te vergelijken en de verschillen tussen median te zien
De notches zijn confidence intervallen van de mediaan als deze niet overlappen dan zijn de medianen
verschillend
Long format: observations van vrouwen en mannen in dezelfde kolom


Scatter plot
Gebruikt om een datset die bivariaat is ( twee variabelen, x & y)
Toont ook de histogram van beide variabelen en de pearson coeficient
Gebruikt om de relatie tussen twee quantitative variabelen te visualiseren
Toont de shape van de relatie ertussen (linear of niet)
Niet voor discrete variabelen


Pearson correlatie
De determinatie coef is de proportie of de variantie van Y dat kan verklaard worden door x
t-test mag enkel gebruikt worden als beide variabelen normaal verdeeld zijn en niet voor binaire data
gebruikt om lineare relaties te identificeren tussen pairs van variabelen met een continu
verdeling
toont aan tot hoever de punten van de scatterplot op een rechte lijn liggen
als deze coef = -1 of 1 dan liggen ze exact op de lijn als dicht bij 0 dab zijn het independent
dicht gaat enkel voor data in wide format en dus twee aparte kolommen

Rank order correlatie: identify associations between pairs of variables, gebruiken hypothese testen dus
distributie assumpties worden niet gebruikt (normaal verdeeld) en ze zijn niet sensitive voor outliers, voor
bivariate data

Partial: test of de relatie van twee variabelen afhankelijk is van een andere, voor 3+ var, multivariate
data en om schijncorrelaties op te lossen, je schakelt de effecten van minstens 1 andere variabele uit

,Simple linear regression
Voorspeld de endogene y door de exogene x variabele
Assumpties:
1) De predictie fouten hebben een voorspelling van 0
2) De predicitie fouten zijn niet gecorreleerd
3) De predictie fouten hebben een fixed variance of sigma kwadraat
4) De vector van de predictie fouten heeft een normale distributie met een mean van 0 en diagonal
covariance


QQ plot
Om de vormen van twee emperische distributies te vergelijken
Voor 1 sample en een theoretische distributie
Ml fitting gebruikt deze automatisch
Als deze uit de confidence interval vallen dan zijn ze niet normaal verdeeld


Probability plot correlation coefficient plot (PPCC plot)
Gebruikt om de shape parameter te vinden die de beste fit (highest correletion) vind
Als de turkey lambda PPCC plot berekend word, dan zal de value van lamda informatie geven over de
symmetrische distributie die het best fit met de data
Heeft een process: de paramater die de vorm weergeeft wordt op een waarde gezet, QQ plot wordt
berekend tegen deze distributie, pearson correlatie coef is berekend, vorige twee stappen worden
herhaald, plot is gemaakt die alle pearson correlatie coef toont tegenover hun shape parameter values
Niet voor non symmetrische distributies
Lamda = -1: cauchy distribution
Lambda = -0 distributie is exactly logistic
Lambda= 0,14 distribution is approximately normal
Lambda = 0,5 distributie is U-shaped
Lambda = 1 distributie is exactly uniform


Kernel density
Om de dichtheidsfunctie van een univariate dataset te benaderen, geeft de verdeling van de
variabele weer




Bootstrap plot (central tendency)
Random sampling die de sample beschouwd alsof het de hele populatie is
Ze gaan ervan uit dat je de emperische distributie verkrijgt als je herhaardelijk een sample neemt
Gebruikt voor het berkenenen en vergelijken van central tendency data met de emperische
betrouwbaarheids intervallen
Sommige gebruiken zoals de mediaan hebben geen theoretische distributie dus dan kan je de bootstrap
methode gebruiken om confidence intervallen te verkrijgen
Kan niet gebruikt worden voor time series
Mag niet gebruikt worden bij serial correlatie


Cronbach alpha
Gebruikt als een lowerbound estimate for de betrouwbaarheid dat gebaseerd is op survey scores
Als a> 0,7 dan is dit een acceptable interval
Geeft aan hoe goed een set vragen samenhangt en in hoeverre ze hetzelfde meten
Bij een hoge waarde hangen de items goed samen en ze meten hetzelde

, Time series
Time series plot
Scatter plot
Gebruikt om de time serie die je onderzoekt te visualiseren en om non seasonal en
seasonal trends te identificer
Gevoelig voor outliers
Trend: opwaartse of neerwaartse lijn over een lange periode
Trends bepalen met ARIMA


Mean plot
Om te kijken of de arthimetric mean varieert tusssen seasonal groups van data
Geeft info over non-seasonal en seasonal trends in time series
Geeft de gemiddelden van een variabele weer voor verschillende groepen of categorieen


Blocked bootstrap plot (central tendency)
Deze wordt gebruikt voor central tendency die enkel gebruikt wordt bij correlated time
series
Gebruikt om central tendency data te vergelijken met emperische betrouwbaarheids
intervallen
Ook om de kwaliteit van een model te bekijken op basis van de errors door te kijken of de central
tendency voorspellingen in de range van acceptabele levels liggen
Als meer dan 95% van de samples gemiddeld niet = 0 dan heeft het voorspeld model biased
forecasts


Standard deviation-mean plot
Is een scatterplot van de standaard diviatie sigma vs de arthimetic mean u
Om te identificeren of de variabiliteit van een tijdreeks wel of niet verklaard word door
hun local level (arthimetic mean). Als de lineaire relatie is bevestigd kan het zijn dat de tijdreeks
moet getransformeerd worden en geeft waarde voor lambda, Sensitive voor outliers
Het laat de gebruiker toe om de parameter van de box-cox transformatie te verkrijgen
 Identificeert of een transformatie nodig is voor tijdreeksen om ze stationair te maken
 Maakt twee regressies op basis van std deviation en arthimetic mean, H0= 0 -> geen box-cox
transf nodig
Variance reduction matrix
Gebruikt om te identificeren of de variantie kan worden verkleind door een differentiatie
uit te voeren
Table die de variantie en de range van een tijdreeks toont na het toepassen van differentiatie
D=d=0 geen transformatie, we gebruiken de orignele time series
d=1 D=0 de lange termijn trend is verwijderd door ordinaire differentiatie toe te passen
d=0 D=1 het seasonale patroon is reduced door seasonale differentiatie toe te passen
d=D=1 de lange termijn trend en het seasonale patroon is reduced door de twee differentiaties toe
te passen
gevoelig voot outliers, goed idee om de trimmed variance of the range te gebruiken
zie stationarity
 je kijkt waar de trimmed variance het kleinst is in de tabel


Autocorrelatie
Toont de autocorrelatie
Identificeert non-seasonal en seasonal trends
Identificeert types van typische patronen die overeenkomen met welgekende forecasting modellen
Checks the independence assumptie van de resttermen bij regressive en forecasting modellen

Voordelen van het kopen van samenvattingen bij Stuvia op een rij:

√  	Verzekerd van kwaliteit door reviews

√ Verzekerd van kwaliteit door reviews

Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!

Snel en makkelijk kopen

Snel en makkelijk kopen

Je betaalt supersnel en eenmalig met iDeal, Bancontact of creditcard voor de samenvatting. Zonder lidmaatschap.

Focus op de essentie

Focus op de essentie

Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!

Veelgestelde vragen

Wat krijg ik als ik dit document koop?

Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.

Tevredenheidsgarantie: hoe werkt dat?

Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.

Van wie koop ik deze samenvatting?

Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper imanvandeperre. Stuvia faciliteert de betaling aan de verkoper.

Zit ik meteen vast aan een abonnement?

Nee, je koopt alleen deze samenvatting voor €10,46. Je zit daarna nergens aan vast.

Is Stuvia te vertrouwen?

4,6 sterren op Google & Trustpilot (+1000 reviews)

Afgelopen 30 dagen zijn er 62774 samenvattingen verkocht

Opgericht in 2010, al 15 jaar dé plek om samenvattingen te kopen

Start met verkopen
€10,46
  • (0)
In winkelwagen
Toegevoegd