Statistiek I
College 2
Statistiek en data
- Recognize the patterns & the randomness: the variability in
data… “the science of understanding data and making decisions in
face of variability”
- Datasets bestaan uit:
o Case of unit: subjecten of objecten in een dataset
o Variabelen: kenmerk van een case, kan verschillende waarden
aannemen voor verschillende cases of units
o Label
Variabelen
- Categorisch/kwalitatief geen numerieke waarde of arbitraire numerieke
waarde
o Leeftijdsgroep (kleuter, volwassene)
o Plaats in gezin (jongste, middelste, oudste)
o LVS Citoscore (A t/m D)
- Kwantitatief getallen vertegenwoordigen betekenisvolle waarde
o Leeftijd (1-10 jaar)
o Aantal kinderen in gezin (0-4)
o Percentage die toets haalt
o IQ-score
o Eindscore cito
Meetniveaus
- Nominaal (categorisch): geen volgorde, geen meeteenheid en geen nulpunt
(bijv. sekse)
- Ordinaal (categorisch): wel een volgorde, geen meeteenheid en geen nulpunt
(bijv. SES as laag, middel, hoog)
- Interval (kwantitatief): wel een volgorde, wel een meeteenheid en geen vast
nulpunt (gelijke afstanden tussen de intervallen: bijv. temperatuur (Fahrenheit en
Celsius hebben een ander nulpunt))
- Ratio (kwantitatief): wel een volgorde, wel een meeteenheid en een vast nulpunt
(bijv. leeftijd, aantal vragen correct)
Verdelingen: verschillende weergaven
Pie chart & Bar graph (nominal & ordinal)
- Bij een verdeling van een
nominale/ordinale variabele
worden de categorie-en
aangegeven plus tellingen of
proporties per categorie.
, 2
o Taart diagram nadeel: je moet alle categorie-en kennen (100%)
o Staafdiagrammen flexibeler.
Stem-plot/steelblad en histogram (interval & ratio)
- Steelbladdiagram
o Gebruik je alleen bij kleine
steekproeven
o De laatste cijfers vormen het blad, en
die daarvoor vormen de steel
o De laatste cijfers zijn eenheden, en
die daarvoor honderdtallen en
tientallen
140 is 14 + 0, 143 is 14 + 3…
In de 160 zitten best wat scores, daarna vlakt de verdeling af, en
daarna stijgt deze verdeling
weer
o Soms heb je te veel cijfers per
steel, dus soms trim je
Bv: scores 0-4 komen bij
één stil, en 5-9 van de
andere steel
- Histogram
o Geeft snel veel informatie over de
data
o Verdeling van scores, spreiding:
Scheef naar links/rechts of
juist symmetrisch,
Outliers
Verschillende vormen van een histogram
Verdelingen: beschrijven met cijfers
Centrummaten
- Modus en mediaan
o Modus = meest
voorkomende score
(kunnen er meerdere zijn)
o Mediaan = middelste
score (50e percentiel, Q2
(2e kwartiel))
, 3
Boxplot
- Weergave empirische verdeling
o 1e kwartiel (Q1) = 25e percentiel
o Mediaan (Q2) = 50e percentiel
o 3e kwartiel (Q3) = 75e percentiel
o Interkwartiel range (IQR) = verschil 3e en
1e kwartiel
(Outliers: < Q1 – 1,5 x IQR; > Q3
+ 1,5 x IQR)
- Kwartielen
o Maximum (Whiskers (T) niet outlier)
T rijkt niet naar maximum, maar
naar eerste score die geen outlier
is
o Q3
Q2 (=mediaan)
Q1
o Minimum (Whiskers (T) niet outlier)
T rijkt niet naar minimum, maar naar
eerste score die geen outlier is
Five number summary
- Min, Q1, M, Q3, Max
o Eerst data sorteren
o Q1 is midden van de eerste helft
o Q3 is midden van de tweede helft
Centrummaten
- Gemiddelde (x̄ )
Variantie en standaarddeviatie (SD of S)
- Variantie maat voor spreiding rondom gemiddelde
- Standaarddeviatie à ook maar voor spreiding
rondom gemiddelde
o Alleen gebruikt als gemiddelde als centrummaat
is gekozen
o Beïnvloedbaar door outliers
, 4
Kansdichtheidsfunctie (density curves)
- Voorbeeld: histogram taalscores van
947 studenten
- Over een histogram kan een smooth
curve getekend worden aan de hand
van een mathematisch model
- Dichtheidsfunctie
o Beschrijft patroon van verdeling
o Bevindt zich op horizontale as
o Oppervlakte onder de curve is 1
o De oppervlakte = proportie
Normale verdelingen
- Alle normale verdelingen zijn
symmetrisch, met een piek en bel-
vormig
- De functie van een normale verdeling
wordt bepaald door het gemiddelde μ en
de standaarddeviatie σ N(μ, σ)
- Handige eigenschappen van de
normaalcurve
o Geeft soms een redelijk goede beschrijving van echte data
o Geeft een goede benadering van de resultaten die worden verkregen op
basis van kans
o Statistische conclusies gelden ook voor andere grofweg symmetrische
verdelingen
Vorm van de normale verdeling
68% van de observatie bevinden zich
tussen σ en μ
95% van de observatie bevinden zich
tussen 2σ en μ
99.7% van de observatie bevinden zich
tussen 3σ en μ
Standaardiseren
- Scores vergelijken in termen van afwijking van het gemiddelde (Z-scores) en
bijbehorende kansen (uitgaande van een normaalverdeling)
- Standaardisatie: trek een score van het
gemiddelde van de verdeling af en deel door de
standaarddeviatie
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller jaimievermeule. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $16.64. You're not tied to anything after your purchase.