Aantekeningen college 2:
Cases: de objecten die worden omschreven door de data. -> bijv. studenten of bedrijven.
Variabelen: eigenschappen/karakteristieken van de case.
Label: speciale/unieke variabel om onderscheid te maken tussen de verschillende cases.
Categorisch/kwalitatief: waarde wordt niet uitgedrukt in een getal -> bijv. kleuters
Kwantitatief: waarde wordt uitgedrukt in een getal -> bijv. leeftijd van 0-4 jaar
Meetniveaus :
• Nominaal (categorisch): de waarden hebben geen volgorde, geen meeteenheid en geen
nulpunt -> bijv. geslacht
• Ordinaal (categorisch): wel een volgorde, geen meeteenheid en geen nulpunt -> bijv. SES
(laag, middel, hoog)
• Interval (kwantitatief): wel een volgorde, wel een meeteenheid, maar geen vast nulpunt ->
bijv. temperatuur. (Gelijke afstanden tussen de intervallen.)
• Ratio (kwantitatief): wel een volgorde, wel een meeteenheid en een vast nulpunt -> bijv.
leeftijd (Deling kan worden toegepast, bijv. iemand die 10 jaar oud is, is 2x zou oud als
iemand van 5 jaar)
➔ Nominaal is het minst precieze meetniveau en ratio is het meest precieze meetniveau.
Grafische weergave van de verdeling: aangeven welke variabelen er voorkomen en hoe vaak deze
voorkomen.
• Nominaal/Ordinaal:
o Pie chart -> nadeel: je moet alle categorieën kennen
o Bar graph -> flexibeler (ruimte tussen de staven)
• Interval/Ratio:
o Histogram (geen ruimte tussen de staven)
o Stemplot (steelblad) -> bij grote aantallen kan een steelbladdiagram onoverzichtelijk
worden.
Verdelingen beschrijven met cijfers:
• Modus: meest voorkomende score (nominaal, ordinaal, interval, ratio)
• Mediaan: middelste score -> hiervoor heb je een rangorde nodig (ordinaal, interval, ratio)
➔ (n + 1) / 2 -> geeft de positie aan, niet het getal
➔ Bij een outlier kan je beter de mediaan gebruiken dan het gemiddelde, want deze is
resistenter.
• Gemiddelde: is een getal (interval, ratio)
,Five-number summary -> de grafiek hiervan heet een boxplot.
IQR (Interkwartiel range): het verschil tussen Q3 en Q1. (Q3 - Q1)
Outliers: Q3 + 1,5*IQR en Q1 – 1,5*IQR. Een individuele waarde die valt buiten het overall pattern.
Variantie (interval, ratio): de mate waarin waarden onderling verschillen.
Standaarddeviatie: gemiddelde afwijking of spreiding rondom het gemiddelde.
Standaarddeviatie = √𝑣𝑎𝑟𝑖𝑎𝑛𝑡𝑖𝑒
➔ Hoe groter de variantie of standaarddeviatie, hoe groter de spreiding.
➔ De standaarddeviatie is niet resistent, outliers kunnen S sterk beïnvloeden.
➔ Gebruiken bij symmetrische verdelingen zonder outliers. (anders kan je beter de
five-number summary gebruiken)
S2 = 10 / (6-1) = 2 (variatie)
S = √2 = 1.41 (standaarddeviatie)
Kansdichtheidsfunctie: een model (benadering) van de werkelijkheid.
Eigenschappen van een dichtheidsfunctie:
• Beschrijft het patroon van de verdeling
• Bevindt zich op de horizontale as
• Het oppervlakte onder de dichtheidscurve is 1
• De oppervlakte = proportie -> zegt iets over kans. De oppervlakte onder de curve duidt een
bepaalde kans aan
De mediaan verdeeld de oppervlakte onder de functie in 2 gelijke helften.
, Normale verdelingen: (een soort kansdichtheidsfucntie)
• Symmetrisch, een piek, belvormig
• Geeft vaak een goede beschrijving van echte data.
• Geeft een goede benadering van resultaten die worden verkregen op basis van kans.
• Z-score (standaardisatie): Z = (x - µ) / σ
µ = het gemiddelde
σ = de standaarddeviatie
x = μ + zσ
➔ De Z-score geeft aan hoeveel standaarddeviaties jouw score boven of onder het
gemiddelde ligt. Is handig bij standaard normale verdelingen.
• Voor een normale verdeling met gemiddelde (µ) en standaarddeviatie (σ) geldt:
o 68% van de observatie bevinden zich tussen σ en µ
o 95% van de observatie bevinden zich tussen 2σ en µ
o 99,7% van de observatie bevinden zich tussen 3σ en µ