Statistiek I
College 2
Statistiek en data
- Recognize the patterns & the randomness: the variability in
data… “the science of understanding data and making decisions in
face of variability”
- Datasets bestaan uit:
o Case of unit: subjecten of objecten in een dataset
o Variabelen: kenmerk van een case, kan verschillende waarden
aannemen voor verschillende cases of units
o Label
Variabelen
- Categorisch/kwalitatief geen numerieke waarde of arbitraire numerieke
waarde
o Leeftijdsgroep (kleuter, volwassene)
o Plaats in gezin (jongste, middelste, oudste)
o LVS Citoscore (A t/m D)
- Kwantitatief getallen vertegenwoordigen betekenisvolle waarde
o Leeftijd (1-10 jaar)
o Aantal kinderen in gezin (0-4)
o Percentage die toets haalt
o IQ-score
o Eindscore cito
Meetniveaus
- Nominaal (categorisch): geen volgorde, geen meeteenheid en geen nulpunt
(bijv. sekse)
- Ordinaal (categorisch): wel een volgorde, geen meeteenheid en geen nulpunt
(bijv. SES as laag, middel, hoog)
- Interval (kwantitatief): wel een volgorde, wel een meeteenheid en geen vast
nulpunt (gelijke afstanden tussen de intervallen: bijv. temperatuur (Fahrenheit en
Celsius hebben een ander nulpunt))
- Ratio (kwantitatief): wel een volgorde, wel een meeteenheid en een vast nulpunt
(bijv. leeftijd, aantal vragen correct)
Verdelingen: verschillende weergaven
Pie chart & Bar graph (nominal & ordinal)
- Bij een verdeling van een
nominale/ordinale variabele
worden de categorie-en
aangegeven plus tellingen of
proporties per categorie.
, 2
o Taart diagram nadeel: je moet alle categorie-en kennen (100%)
o Staafdiagrammen flexibeler.
Stem-plot/steelblad en histogram (interval & ratio)
- Steelbladdiagram
o Gebruik je alleen bij kleine
steekproeven
o De laatste cijfers vormen het blad, en
die daarvoor vormen de steel
o De laatste cijfers zijn eenheden, en
die daarvoor honderdtallen en
tientallen
140 is 14 + 0, 143 is 14 + 3…
In de 160 zitten best wat scores, daarna vlakt de verdeling af, en
daarna stijgt deze verdeling
weer
o Soms heb je te veel cijfers per
steel, dus soms trim je
Bv: scores 0-4 komen bij
één stil, en 5-9 van de
andere steel
- Histogram
o Geeft snel veel informatie over de
data
o Verdeling van scores, spreiding:
Scheef naar links/rechts of
juist symmetrisch,
Outliers
Verschillende vormen van een histogram
Verdelingen: beschrijven met cijfers
Centrummaten
- Modus en mediaan
o Modus = meest
voorkomende score
(kunnen er meerdere zijn)
o Mediaan = middelste
score (50e percentiel, Q2
(2e kwartiel))
, 3
Boxplot
- Weergave empirische verdeling
o 1e kwartiel (Q1) = 25e percentiel
o Mediaan (Q2) = 50e percentiel
o 3e kwartiel (Q3) = 75e percentiel
o Interkwartiel range (IQR) = verschil 3e en
1e kwartiel
(Outliers: < Q1 – 1,5 x IQR; > Q3
+ 1,5 x IQR)
- Kwartielen
o Maximum (Whiskers (T) niet outlier)
T rijkt niet naar maximum, maar
naar eerste score die geen outlier
is
o Q3
Q2 (=mediaan)
Q1
o Minimum (Whiskers (T) niet outlier)
T rijkt niet naar minimum, maar naar
eerste score die geen outlier is
Five number summary
- Min, Q1, M, Q3, Max
o Eerst data sorteren
o Q1 is midden van de eerste helft
o Q3 is midden van de tweede helft
Centrummaten
- Gemiddelde (x̄ )
Variantie en standaarddeviatie (SD of S)
- Variantie maat voor spreiding rondom gemiddelde
- Standaarddeviatie à ook maar voor spreiding
rondom gemiddelde
o Alleen gebruikt als gemiddelde als centrummaat
is gekozen
o Beïnvloedbaar door outliers
, 4
Kansdichtheidsfunctie (density curves)
- Voorbeeld: histogram taalscores van
947 studenten
- Over een histogram kan een smooth
curve getekend worden aan de hand
van een mathematisch model
- Dichtheidsfunctie
o Beschrijft patroon van verdeling
o Bevindt zich op horizontale as
o Oppervlakte onder de curve is 1
o De oppervlakte = proportie
Normale verdelingen
- Alle normale verdelingen zijn
symmetrisch, met een piek en bel-
vormig
- De functie van een normale verdeling
wordt bepaald door het gemiddelde μ en
de standaarddeviatie σ N(μ, σ)
- Handige eigenschappen van de
normaalcurve
o Geeft soms een redelijk goede beschrijving van echte data
o Geeft een goede benadering van de resultaten die worden verkregen op
basis van kans
o Statistische conclusies gelden ook voor andere grofweg symmetrische
verdelingen
Vorm van de normale verdeling
68% van de observatie bevinden zich
tussen σ en μ
95% van de observatie bevinden zich
tussen 2σ en μ
99.7% van de observatie bevinden zich
tussen 3σ en μ
Standaardiseren
- Scores vergelijken in termen van afwijking van het gemiddelde (Z-scores) en
bijbehorende kansen (uitgaande van een normaalverdeling)
- Standaardisatie: trek een score van het
gemiddelde van de verdeling af en deel door de
standaarddeviatie
Voordelen van het kopen van samenvattingen bij Stuvia op een rij:
√ Verzekerd van kwaliteit door reviews
Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!
Snel en makkelijk kopen
Je betaalt supersnel en eenmalig met iDeal, Bancontact of creditcard voor de samenvatting. Zonder lidmaatschap.
Focus op de essentie
Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!
Veelgestelde vragen
Wat krijg ik als ik dit document koop?
Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.
Tevredenheidsgarantie: hoe werkt dat?
Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.
Van wie koop ik deze samenvatting?
Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper jaimievermeule. Stuvia faciliteert de betaling aan de verkoper.
Zit ik meteen vast aan een abonnement?
Nee, je koopt alleen deze samenvatting voor €15,49. Je zit daarna nergens aan vast.