Statistiek en Dataeanalysse
Deel 1: statstei
Sessie 1:
Er zijn 2 soorten statistieken:
1. Descriptive statstei (eschrijivendee), hier wordeen geen conclusies uit getroiien
2. Inferental statstei inferentële), hier wordeen prognoses en/of toeiomst(eeldeen ivan
gemaait wel conclusies getroiien)
Variabelen:
Een ivaria(ele is een meet(aar ienmeri deat iverschilt ivoor iverschillendee ondeerwerpen.
Meetbare schalen:
- Nominaal: geen ivolgordee of raniing
- Ordeinaal: er is een raniing, maar geen exact iverschil tussen ranien
- Interival: een raniing, waar(ij er wel een exact iverschil is tussen ranien, maar geen
(eteienisivol nulpunt
- Rato: een raniing, waar(ij er wel een exact iverschil is tussen ranien en wel een (eteienisivol
nulpunt
- Angular richtngaangeivende): metngen he((en een richtng aanwijzende component
- Countng-scale: deit houdeen “oudeerwetse”) tellingen in
Statistiek verssis paraueter:
Een statstei is een ienmeri of metng ivoortgeiomen uit een “sample” steeiproef), waar(ij een
parameter een numerieie hoeiveelheide is deie een aspect ivan dee populate meet.
Central tendencys (centrsiuuaat):
Mean: het gemidedeeldee ivan dee metng
Let (ij gemidedeeldees op, deat je op dee juiste manier het gemidedeeldee uitreient.
Medeian: dee medeiaan, ofewel het midedeelpunt ivan dee metng
Modee: dee modeus, ofewel dee waardee deie het ivaaist ivooriomt in dee metng
1
,Bij dee centrummaat hoort natuurliji dee (oxplot, hierin wordeen iveel centrummaten weer gegeiven.
Maar worde ooi deeels spreideing geivisualiseerde.
Freqsiencys distribsition (freqsientie distribsitie) of histograu:
Bij het analyseren ivan deata is het (elangriji om dee deata te ivisualiseren en deaar(ij een frequente
deistri(ute of histogram te maien.
Ou een freqsientie distribsitie en csiusilatieve freqsientieplot te uaken, uoet je:
1. De hoogste en laagste waardees ivindeen
2. Het (ereii ivan dee waardees ivindeen
3. Het aantal ilassen selecteren meestal ivoldeoen 5 tot 20 ilassen)
4. Vinde dee (reedete ivan dee ilassen deoor het (ereii te deelen deoor het aantal ilassen en af te
rondeen)
5. Selecteer je (eginpunt ivan je histogram meestal je laagste waardee, ivan je statstei)
6. Vinde je (oiven ilas limiet
7. Vinde je ilas grenzen
8. Maai dee deata iloppende
9. Vinde dee frequente
10. Vinde dee cumulateive frequente
Met het maien ivan meer ilassen in je histogram, ian het (eelde ivan je histogram steri iverandeeren.
2
,(ij dee afeeldeing hier(oiven zou nummer 3 het (este zijn.
De maiielijiste manier om te weten, wat het ideeaal aantal ilassen is, deat je moet iiezen, om een
deuideeliji histogram te irijgen. Is deoor dee wortel te nemen ivan je aantal o(serivates.
De csiusilatieve freqsientie distribsitie, ook wel ogive genoeud:
Frequente deistri(utes iunnen dean wel het exacte aantal o(serivates ivisualiseren, of het percentage
ivan dee o(serivates deit is dee relateive frequente deistri(ute). Hetzelfdee geldet ivoor dee ogiive.
Metingen van spreiding:
Het (ereii, dee iwartelafstande, dee ivariante iverandeering) en standeaarde deeiviate zijn ienmerien ivan
deistri(ute. Je ian het maiielijist het (ereii (ereienen deoor dee hoogste waardee minus dee laagste
waardee.
Ositliers (siitbijters):
Dit zijn metngen deie steri deeiviëren afwijien) ivan dee meerdeerheide ivan dee metngen/o(serivates.
Uit(ijters zijn per deefnite ileiner dean Q 1−1,5∗IQR , of groter dean Q 3+1,5∗IQR . Hier(ij staat
IQR ivoor InterQuartle Range. Hier(ij is IQR Q3 – Q1.
Variantie in ongegroepeerde data:
De ivariante is dee meest ge(ruiite metng ivan spreideing ronde het gemidedeeldee ivan een deistri(ute. Het
is (ereiende als dee gemidedeeldee geiwaderateerdee deeiviate ivan eli aantal ivan het gemidedeeldee. Deze
wordet aangegeiven met s2, maar met σ2 wanneer er spraie is ivan een populate ivariante.
Dit wisiundeig als ivolgt aangegeiven
3
, s2=∑ ¿ ¿¿ ¿ 2
en σ = ∑ ( X −µ)2
N
Wanneer dee ivariante groot is, zal dee deata ooi iver iverspreide zijn ivan het gemidedeeldee mean),
deaarentegen (ij een ileine ivariante, zal dee deata deicht(ij het gemidedeeldee zijn.
Standaard deviatie bij singrosiped data wordt wisksindig als volgt weergegeven:
s=
√ n−1 √
∑ ( X− X́)2 en σ = ∑ (X −µ)2
N
Wanneer deata normaal is gedeistri(ueerde
iverdeeelde) ivalt 68% (innen 1 standeaardedeeiviate
ivan het gemidedeeldee, waar(ij 95% (innen 2
standeaardedeeiviates ivan het gemidedeeldee ligt.
Voor gegroepeerde data geldt de volgende wisksindige forusiles:
Van (oiven naar (enedeen, formule ivoor gemidedeeldee, ivariante en standeaarde deeiviate.
Binnen dee formule is ‘f’ dee geteldee
frequente geivondeen ivoor elie ilas en Xm
representeert dee ilas midedeelpunt.
4