Je hebt maar 30min examentijd voor Statistiek van P. Wessa. Dit korte document omvat alle nodige info die je nodig hebt en snel kan opzoeken indien nodig! Geslaagd in eerste zit zonder problemen.
CH2 Inleiding tot waarschijnlijkheid
- Bayes Theorum
Voorbeeld: Geblinddoekte man die gouden munt trekt uit twee zakken munten A & B
Multinomial Naïve Bayes Classifier:
Voorbeeld: Woordcombinaties die voorkomen in real/fake news (Royal)(family)
CH3 Waarschijnlijkheidsverdelingen
- Discrete verdelingen
Bernoulli verdeling
Voorbeeld: Slechts 2 opties ‘succes’ of ‘failure’ VB: jongen = succes meisje = failure
Binomiale verdeling (1 uitkomst)
Voorbeeld: Wat is de kans dat we succes krijgen als we Bernoulli experiment n keer
onafhankelijk van elkaar herhalen
- Continue verdelingen
Uniforme verdeling (X gelegen tussen twee gegeven getallen)
Wordt gebruikt voor simulatie zoals willekeurige nummers genereren in digitale pc’s altijd
uniform. Ook T-verdelingen altijd van uniforme vertrekken.
Skewness = 0 Kurtosis is 9/5
Normaal verdeling
Skewness = 0 Kurtosis = 3
Naive Bayes Classifier (nog onder normaal verdeling)
RFC: Classification Naive Bayes (ML)
Voorbeeld: Model dat ons diabetes laat voorspellen op basis van enkele kenmerken
die al dan niet relevant zijn (glucose predictief & bloeddruk niet mean dicht bij elkaar
bij wel en niet zieken)
Chi squared verdeling (1 parameter)
RFC: Distributions ML Fitting – Chi Squared Dist
Skewnes 2wortel2/N Kurtosis = (3+12)/N
CH4 Beschrijvende statistiek en exploratieve data analyse
- Kwalitatieve data
Frequency Plot (Table)
Hoe vaak komt iets voor AF. (Zelfde maar zonder grafiek in bakjes)
- Kwantitatieve data
Stem-and-Leaf Plot
Vroeger toen men nog niet grafisch kon tekenen gewoon reeks cijfers. Minstens twee cijfers
vooraan (stem) de rest is in verandering.(leaf(s). BVB Resolutie Pc, uren bushalte
Histogram
Kwantitatieve data kwalitatief maken want gaan in categorieën steken en freq grafisch
voorstellen. Ook Likert kwantitatief maken.
Harrel-Davis Quantiles(EXAMEN)
Zelf stapgrootte bepalen. Betrouwbaarheidsinterval 5%. 2,5% langs beide kanten duizenden.
BVB kans dat leeftijd is onder 50 ja want 30% is onder 50.
Central Tendency
Algemeen gebruik : Foutenmarge evalueren best zo dicht mogelijk tegen 0. Normaal
verdeling rek gem. Uniform heeft midrange. Mediaan, midhinge,tukey robuust.
Betrekking op het gemiddelde hoe gaat die veranderen kijken of robuust bvb of niet
Variability
Risicomaatstaf om onzekerheid uit te drukken. Foutenmarge/veiligheidsmarge in
voorspellingsfouten die we voorzien. (variantie, standaardafwijking). Enkel normaal verd.
Skewness & Kurtosis
Testen of normaal verdeeld. Test (cijfers) Plot (simulatie)
Skewness 0 dan symmetrisch als negatief links scheve verdeling positief
rechtsscheve verdeling.
, Notched Boxplot(EXAMEN)
Medianen en gegevens verschillende sets vergelijken bvb bij examengroepen wel of niet
les gevolgd. Is ROBUUST. Onderkant outliers linksscheef lage waarden en andersom.
Scatterplot
Relatie twee variabelen. Positief/negatief geen kijk naar elips. Vb negatief verband
statistiek scores slecht wiskunde ook slecht.
Pearson Correlation (Correlatie belangrijk niet deze want dagdagelijkse)
Sterkte relatie tussen 2 lineaire variabelen. Colignaliteit. -1 en 1 colignair 0 is
scattered. Moeten continue verdeling hebben.
Phi Coefficient : Uizondering binaire variabelen (0/1)
Spearman en Kendall Rank Correlation
Verbanden eerst rangschikken groepen verbanden zoeken.
Partial Pearson Correlation ( BELANGRIJK)
Minstens 3 variabelen. Gecorrigeerde Pearson rekeninghouden met andere
elementen die kunnen beïnvloeden zoals Z.(controlevariabele) vb ooievaar welvaart
Sterk gelinkt aan Multiple Regression. Simple Regression met gewone Pearson.
Correlatie Matrix
Alle mogelijke correlaties berekenen meerdere datasets.
Simple Lineair Regression (minder belangrijk)
Hoe waarde binnen verband de waarde van afh variabele veranderen waneer
onafhankelijke verandert. Y as wat wil je verklaren X as met wat verklaren. Verband
zien om voorspellingen te maken. Asumpties ! (wisk verw 0,normaalverd, onafhank).
Verschil met correlatie daar wordt naar sterkte verband gekeken.
QQ Plot (Quantile-Quantile) plot (BELANGRIJKE TECHNIEK)
Scatterplot tussen 2 reeksen van kwartielen bij normaalverdeling. Combo correlatie
en regressie. Beter alternatief histogram.
Tukey Lambda PPCC Plot (Probability Plot Correlation Plot)
Wordt gebruikt om beste match te vinden met data (hoogste correlatie) met lambda
als aangever.
Kernel Density Estimation
Komt weinig voor, Resultaat is een kameel vorm wat wijst op bimodale dichtheid (twee
maxima) waarbij linkse is groter dan rechtse.
Bivariate Kernel Density Plot
Verbetering Scatter Plot. Kleuren rond cirkels bepalen hoogte dichtheid. Betere indicatie
onderlinge relaties.
Bootstrap Plot (Central Tendency) EXAMEN
Willekeurige testtechniek welke maatstaf gebruiken bvb mediaan, mean, midrange. Zo
verdeling inschatten. Niet zeker verdeling doe Bootstrapping!
Survey Scores Rank Order Comparison
Mogen Likert scores als kwantitatieve variabelen behandeld worden. Anders gewoon
kwalitatieve data. Kijke Kendall of rond +1 ligt.
Cronbach Alpha
Als Likert scores kwantitatief wil je kijken of vragenlijst goed is opgesteld/representatief.
Interpreteren als correlatie. Evt een waarde uithalen meestal hoogste/laagste ivm alpha
- Kwantitatieve data met Tijdreeksen OOK vorige methoden kunnen gebruikt worden niet andersom!
Time Series Plot (Run Sequence Plot) Eerste kritische blik op tijdsreeks je kan zien:
Stijgend verloop/stijgende trend. Door evolutie tijd wordt de spreiding groter en
groter. (heteroskedastaticiteit). Regelmatige pieken en dalen (periodiciteit) seizonaal
(trend, toenemende variantie, uitgesproken seizonaliteit)
Mean Plot
Tijdsreeks in jaren indelen en streepjes (stellen gem voor) aan elkaar zo seizonaliteit
kan zien. Beter met Notched Bloxplots werken. Gaat Rek gemiddelde variëren tussen
data?
Blocked Bootstrap Plot (Central Tendency)
Kan je altijd gebruiken MAAR bij tijdsreeksen GEEN GEWONE bootstrap gebruiken.
Gemiddeldes vergelijken met elkaar.
Standard Deviation-Mean Plot
Voordelen van het kopen van samenvattingen bij Stuvia op een rij:
√ Verzekerd van kwaliteit door reviews
Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!
Snel en makkelijk kopen
Je betaalt supersnel en eenmalig met iDeal, Bancontact of creditcard voor de samenvatting. Zonder lidmaatschap.
Focus op de essentie
Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!
Veelgestelde vragen
Wat krijg ik als ik dit document koop?
Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.
Tevredenheidsgarantie: hoe werkt dat?
Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.
Van wie koop ik deze samenvatting?
Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper olivierrooman. Stuvia faciliteert de betaling aan de verkoper.
Zit ik meteen vast aan een abonnement?
Nee, je koopt alleen deze samenvatting voor €5,48. Je zit daarna nergens aan vast.