Beschrijvende statistiek 1 - Standaarddeviatie: heeft dezelfde meetschaal als de originele waarden, wel
(geel=formule, blauw=pagina formuleboek, groen=theorie, roze=begrip) te interpreteren als een representatieve deviatie van het gemiddelde
Hoorcollege 1 Hoe geef je een verdeling het beste weer?
Begrippen: - Klokvormige verdelingen:
- Kwantitatieve variabelen: Numerieke waarde representeert grootte van o Grafische weergave: geen figuur nodig
de variabele, zoals lengte of leeftijd. o Centrummaten: gemiddelde
o Grafische weergave: histogram, boxplot o Spreidingsmaten: standaarddeviatie
o Centrummaten (F 9): modus (meest voorkomende waarde), - Andere verdelingen:
gemiddelde (x_=Ex:n), mediaan (middelste waarde), o Five number summary: minimum, Q1, mediaan/Q2, Q3,
gemiddelde frequentieverdeling (x_=Efx:n) maximum
o Spreidingsmaten (F 10): standaarddeviatie s=wortelE(x-x_)2:n-1
(F 9), variantie s2=E(x-x_)2:n-1, percentielen (kleiner dan of Empirische regel bij normale verdeling:
gelijk aan, dus linkerdeel), interkwartielafstand - 68% valt binnen x_+- 1S
- Categorische variabelen: Waarden zijn categorieën, zoals sekse. - 95% valt binnen x_ +- 2S
o Grafisch weergave: frequentietabel, cirkeldiagram, staafdiagram - Bijna alles valt binnen x_ +- 3S
o Centrummaten: modus/modale categorie - x_=o, s=1
- Continu: Waarden kunnen onbeperkt weinig van elkaar verschillen, zoals
lengte of gewicht. Outliers opsporen kan met:
- Discreet: Beperkt aantal mogelijke waarden, zoals aantal kinderen per - Interkwartielafstand en boxplot: Een observatie is een potentiele outlier als
gezin, aantal opgaven goed. het meer dan 1.5xIQR onder het eerste kwartiel of meer dan 1.5xIQR
- Populatie: De verzameling van alle potentieel waarneembare elementen boven het derde kwartiel
waarop een onderzoeksvraag betrekking heeft. - Histogram
- Steekproef: De groep elementen die wordt getrokken uit de populatie. - z-scores (z=x-x_:s) (F 10), hoeveel standaarddeviaties een observatie van
- Statistic: Getal dat een eigenschap van een steekproef weergeeft. Heeft het gemiddelde afligt. Bij klokvormige verdelingen liggen potential
een variabele en bekende waarde. outliers meer dan 3 standaarddeviaties van het gemiddelde, dus bij z meer
- Parameter: Getal dat een eigenschap van een populatie weergeeft. Heeft of minder dan 3 is het een outlier
een vaste en onbekende waarde.
- Beschrijvende statistiek: Methoden om geobserveerde gegevens mee Hoorcollege 2
samen te vatten. Type relaties tussen twee variabelen:
- Toetsende statistiek: Methoden om op basis van geobserveerde gegevens - Verklarende variabele afhankelijke variabele
uitspraken of voorspellingen te doen over een populatie. - Afhankelijke variabele afhankelijke variabele
- Verklarend = onafhankelijk = explanatory, zoals geslacht of
Welke centrummaten zijn handig? persoonlijkheid, x, predictor
- Bij een scheve verdeling en outliers: mediaan - Afhankelijk = response, zoals roken of beroepskeuze, y
- Bij een symmetrische verdeling: gemiddelde
Derde variabelen:
Welke spreidingsmaten zijn handig? - Lurking variables: Wanneer twee variabelen een verband hebben, kan
- Het bereik: gevoelig voor outliers, gebruikt slechts 2 waarden, handig om een derde niet-geobserveerde variabele invloed hebben op dat verband
te checken of je data geen onverwachte waarden bevat - Cofounders: Wanneer twee verklarende variabelen beide een verband
- Variantie: heeft andere meetschaal dan variabele, moeilijk te interpreteren hebben met een afhankelijke variabele, maar ook met elkaar.
1