Beschrijvende statistiek
Hoorcollege 1
Statistiek is een middel om aan de hand van data uitspraken te doen
Leerdoelen: begrip van fundamentele begrippen
Steekproef = getrokken uit populatie
Variabele = onderzocht construct
Statistic en parameter = statistic steekproefwaarde parameter
populatiewaarde
Beschrijvende en toetsende statistiek =
Fundamentele begrippen
- Categorische variabele
- Kwantitatieve variabele
o Discreet (vaste waarden, zonder tussenliggende waarden) aantal
huisdieren
o Continu (alle mogelijke waarden, met tussenliggende waarden)
lengte, maar we rekenen vaak met discrete waarden!
Type waarde bepaalt welke analyses je mag toepassen
- Statistic (= steekproefwaarde) en parameter (= populatiewaarde, weet je
niet)
- Beschrijvende statistiek (patronen ontdekken in je data, samenvattingen
maken)
- Toetsende statistiek (het gebruiken van statistic om iets te zeggen over
parameter, met hoeveel zekerheid kun je dit stellen? Inferenties maken,
generaliseren)
Beschrijvende statistiek voor één variabele
- Grafische weergave
- Centrummaten (mediaan, gemiddeld, modus)
- Spreidingsmaten
Categorische variabele: meest voorkomende categorie = modale categorie
Cirkeldiagram Staafdiagram Frequentietabel
,Kwantitatieve variabele: modus = meest voorkomende frequentie
Hoe meer waarden, hoe minder de modus zegt (omdat er geen extremen zijn)
daarom gebruik je modus niet veel, liever mediaan of gemiddelde.
Bij mediaan ga je eerst ordenen op volgorde *van klein naar groot* middelste
waarde is de mediaan. Of gemiddelde van twee middelste waarden.
Direct kijken in cumulatieve percentages. (alles tm 52%.)
Van i (eerste observatie) naar n (laatste observatie, totale steekproef)
à Sneller: gemiddelde van frequentieverdeling
Beginnen bij i (eerste observatie) eindigen bij k (aantal verschillende
uitkomsten in je data, hoeveel verschillende frequenties)
Alle frequenties x valid gedeeld door N*total* 7,25
,Mediaan vs gemiddelde.
Normaalverdeling: gelijk aan elkaar
Scheve verdeling, staart LINKS
Mediaan hoger dan gemiddelde
Gemiddelde niet representatief
Scheve verdeling, staart Rechts
Mediaan lager dan gemiddelde
Gemiddelde niet representatief
Uitzondering:
Bij weinig discrete waarden, is gemiddelde representatiever
Zoals 0 0 0 0 10 10 10, mediaan = 0 gemiddelde = 4.3
Bij categorische variabele: staafdiagram (staven los van elkaar)
Bij kwantitatieve variabele: histogram met klassen(staven tegen elkaar aan) of
dotplot en stem en leaf (staat in boek)
Hoorcollege 2
Outliers geven vertekend beeld bij gebruiken van gemiddelde, dan is mediaan
beter.
Centrummaten zijn niet genoeg, daarom passende spreidingsmaat kiezen ,
berekenen en interperteren. En gebruiken om te bepalen wat een normale
score is.
, Het bereik = range. Het verschil tussen maximale en minimale score. Binnen
welke waarden vallen de geobserveerde waarden.
Percentiel = het pde percentiel is de waarde waarvoor geldt dat p procent van
de waarnemingen kleiner is, of er gelijk aan is. Het 50%ste percentiel is
mediaan. P50
Interkwartielafstand is IQR = de spreiding rondom de mediaan
waarbij Q3 overenkomt met P75 en Q1 met P25
Andere manier om dit te berekenen: tentamenvraag dit met de hand doen
Mogeljike uitschieters identificeren: LEREN!
- Q1 – 1.5 x IKA (IQR)
- Q3 + 1.5 x IKA (IQR)
-0-22,5 je kunt nietminder dan 0 glazen drinken
-iqr = 9 x 1,5 = 13,5, + Q3=9 is 22.5, alles daarboven mogelijk uitschieters,
Als waarden nog dichtbij andere waarnemnigen zijn, kun je ook interpreteren
dat het geen outlier is.
Boxplot = makkelijk quartielen aflezen.