Nominaal: je kan onderscheid maken, maar niet ordenen
Ordinaal: onderscheid en wél ordenen
Metrische meetniveaus
Interval: er is een bepaald interval tussen de waarden, je hebt een meeteenheid
nodig
Ratio: er is een bepaald interval tussen waarden en een nulpunt (het nulpunt is
de afwezigheid van waarde)
Discreet en continu
Discreet: eindige verzameling, je kan niet werken met kommagetallen (BV:
hoeveel tv’s heb je? Je kan geen 3.5 tv’s hebben)
Continu: je kan altijd een waarde berekenen tussen twee waarden: je kan werken
met kommagetallen oneindige verzameling (BV: lichaamslengte: je kan 167.36
cm lang zijn)
Meetniveau is bepalend voor wat je met een variabele kan doen: je kan bijvoorbeeld
niet van alles een gemiddelde berekenen.
T-test is de manier om 2 variabelen met een metrische onafhankelijke variabele te
berekenen.
Voor meer dan 2 variabelen heb je een ANOVA nodig Variantie-analyse
Voor meer dan 2 metrische variabelen doe je aan meervoudige regressie-analyse.
Datamatrices en frequentietabellen
Een goede manier om een datamatrix samen te vatten is een frequentietabel. Deze toont hoe vaak
een bepaalde variabele voorkomt.
Het probleem met absolute frequenties is dat we ze niet kunnen vergelijken. We moeten ze relatief
maken om ze te kunnen vergelijken: dus delen door n. Bijvoorbeeld: in Antwerpen stemmen
154.354 mensen op N-VA en in Ichtegem 2000. We kunnen dit niet vergelijken want Antwerpen
heeft veel meer inwoners. We moeten de absolute frequenties dus omzetten naar relatieve
frequenties of proporties.
Bij cumulatieve frequenties zien we hoe vaak een bepaalde waarde voorkomt en alle waarden er
onder. Dit is pas zinvol vanaf het ordinaal meetniveau.
Maten van positie en maten van spreiding
Een maat van positie geeft weer op de x-as waar de steekproef zich bevindt. Een maat van
spreiding geeft weer hoeveel verschil er zit binnen een groep.
,Maten van positie
Maten van positie zijn alle maten die een positie weergeven. De maten van centraliteit zijn enkel de
maten die in het midden liggen (modus, mediaan en gemiddelde).
1. Maten van centraliteit
Modus: waarde die het meeste voorkomt (vanaf nominaal meetniveau)
Mediaan: waarde van de middelste meting (vanaf ordinaal meetniveau)
(Ook kwartielen en percentielen)
Gemiddelde: som van alle waarden gedeeld door het aantal waarden (vanaf metrische
variabelen)
x=
x + x +. . .+ x
1 2 n
n
Het gemiddelde is het zwaartepunt van de verdeling. Dit betekent dat er evenveel waarden
onder als boven deze waarde liggen. Als we dus van elke waarde het gemiddelde aftrekken, en
deze waarde optellen, komen we 0 uit.
De implicatie is dat het gemiddelde weinig resistent is voor uitschieters. Uitschieters zijn
uitzonderlijke waarden in vergelijking met de andere waarden. Dit bereken je door 1.5 IKA boven
Q3 en onder Q1.
Maten van spreiding
Variatiebreedte: verschil tussen de grootste en kleinste waarde. Deze maat is niet
resistent voor uitschieters
Interkwartielafstand: afstand tussen de kwartielen (Q3-Q1). Dit is dus de centrale 50
procent. Dit kan enkel bij het metrisch niveau. We gebruiken deze maat om uitschieters te
identificeren door 1.5 keer IKA boven Q3 en onder Q1
Variantie: de gemiddelde gekwadrateerde afwijking ten opzichte van het gemiddelde.
Zoals we weten is de gemiddelde afwijking ten opzichte van het gemiddelde altijd 0.
Daarom nemen we het kwadraat van alle afwijkingen tot het gemiddelde.
n
∑ ( x i−x )
2
s=
2
i=1
n−1
Standaardafwijking: we willen niet de gekwadrateerde afwijking ten opzichte van het
gemiddelde. Daarom nemen we de vierkantswortel van de variantie. Dit is mogelijk vanaf
het metrisch meetniveau. Dit is weinig resistent voor uitschieters.
√
n
∑ ( x i −x )
2
√s
2
s= i=1
n−1 =
Maar waarom delen we niet door n maar door n-1? Dit is omwille van vrijheidsgraden. We delen
door het aantal vrijheidsgraden. Dit zijn het aantal waarden dat nog vrij kunnen variëren. Zolang we
een waarde niet kennen, is hij nog vrij. Door het gemiddelde te berekenen, gebruik je 1
vrijheidsgraad. Bij het berekenen van de variantie heb je het gemiddelde nodig dus heb je 1
vrijheidsgraad gebruikt.
Boxplot
Makkelijke manier om outliers op te sporen.
,Vormen van de verdeling
Een verdeling kan symmetrisch of asymmetrisch zijn (links of rechts). Als de staart rechts ligt, is het
rechts-scheef als de staart links ligt, is het links-scheef.
In een boxplot, hoe dichter waarden bij elkaar liggen, hoe meer ze neigen naar een top. Een
boxplot toont dus waar er spreiding is. Hoe minder spreiding, hoe meer het neigt naar een top.
Als het gemiddelde gelijk is aan de mediaan is het een normaalverdeling. Als de mediaan groter is
dan het gemiddelde is het links-asymmetrisch en als het gemiddelde groter is dan de mediaan is
het rechts-asymmetrisch. Dit komt omdat het gemiddelde beïnvloedt wordt door uitschieters. Het
gemiddelde ligt dus in de staart.
Normale verdelingen: notatie: N(,)
De normaalverdeling is de basis voor inductieve statistiek. Het is een theoretische verdeling van de
realiteit. We gebruiken dit om de realiteit te benaderen.
Dit is een symmetrische, ééntoppige, klokvormige verdeling. De top toont waar de meeste waarden
liggen. De modus is de top van de verdeling.
We hebben de beste maat van positie en de beste maat van spreiding nodig: namelijk gemiddelde
en standaardafwijking om de normaalverdeling te tekenen. De afstand van het gemiddelde (de top)
tot het buigpunt is de standaardafwijking.
Standaardnormaalverdeling (met µ=0 en = 1)
We spreken hier niet over een x-as maar over een z-as. Door z te gebruiken, standaardiseren we.
We zorgen hierdoor dat we de meeteenheid kunnen weglaten.
Z=
x−µ
❑
Hiermee berekenen we dus hoeveel standaardafwijkingen we van het gemiddelde zitten. We
berekenen hier dus eigenlijk de waarde die kleiner is dan de z-waarde. Als je wil weten welke
waarde er boven ligt, moet je naar de negatieve z-waarden kijken.
Bivariate statistiek
Kruistabellen
Kruistabellen zijn eigenlijk bivariate frequentietabellen. Je hebt totaalverdelingen, marginale
verdelingen en conditionele verdelingen.
Marginale verdelingen staan in de marges. Conditionele verdelingen werken niet met de hele
steekproef maar met één waarde uit de steekproef. Het is de verdeling op voorwaarde dat mensen
een bepaalde waarde halen: bijvoorbeeld 1 klasse dit zijn rijpercentages of kolompercentages.
Percentageverschillen
Meten het verschil tussen percentages uit 2 verschillende verdelingen.
Chi-kwadraat
Chi-kwadraat is voor categorische variabelen wat een correlatie is voor metrische variabelen. We
werken hier met geobserveerde en verwachte frequenties. Verwachte waarden kan je berekenen
door de marges te vermenigvuldigen en te delen door n. Dit is de waarde die je verwacht als er
geen verband is tussen de variabelen. Als Chi-kwadraat groot is, heb je wel een associatie.
2 ( f (o) − f ( e ) )²
χ =∑
ij ij
f (e ) ij
, Het probleem met chi-kwadraat is dat je dit niet kan interpreteren. Want een grote chi-kwadraat
wijst op associatie, maar chi-kwadraat wordt ook groter als je een grote steekproef hebt.
De oplossing is Chramer’s V want hier wordt chi-kwadraat gedeeld door n. Dit kan dus wel
geïnterpreteerd worden.
√
2
V=
χ
n(k −1)
(k =min(r , k ))
Les 2: 4 oktober 2018
Verschillende verdelingen
Populatieverdeling: verdeling van de eenheden van de populatie over de waarden van
een variabele (univariate verdeling) Bijvoorbeeld: als we willen weten hoe groot elke
persoon in de populatie is. (gemiddelde µ, standaardafwijking θ)
Steekproefverdeling: verdeling van de eenheden van de steekproef over de waarden van
een variabele (gemiddelde x en standaardafwijking s). Omwille van praktische beperkingen,
kunnen we bevindingen uit een steekproef veralgemenen naar de populatie.
SteekproevENverdeling: verdeling van alle mogelijke steekproeven met zelfde n over
een steekproefgrootheid (bijvoorbeeld: gemiddelde, chi-kwadraat, correlatie, etc)
Bijvoorbeeld: een steekproevenverdeling van alle mogelijke steekproeven uit de populatie
met dezelfde n die het gemiddelde resultaat op het theoretisch rijexamen toont.
Stochastische variabelen: variabele waarvan de waarde bepaald wordt door toeval
Het steekproefgemiddelde en alle andere steekproefgrootheden zijn eigenlijk een stochastische
variabele: ze hangen af van welke mensen in je steekproef zitten. Daarom is het zo belangrijk dat
je werkt met een EAS.
Centrale limietstelling: hoe groter n, hoe meer de steekproevenverdeling de normale
verdeling benadert. Dit geldt ook wanneer de populatieverdeling niet normaal is. Maar hoe
minder normaal verdeelde populatieverdeling, hoe groter n moet zijn.
In de praktijk werken we met een theoretische normaalverdeling.
We gebruiken Griekse letters als het gaat over iedereen (=populatie). Dus bij de
steekproevenverdeling gebruiken we ook Griekse letters want hier zitten alle steekproeven in. Het
gemiddelde van de steekproevenverdeling is gelijk aan het gemiddelde van de populatie. De
meeste steekproeven schatten dus het gemiddelde redelijk goed. Het steekproefgemiddelde is dus
een zuivere schatter van het populatiegemiddelde.
Bij grote steekproeven zal je spreiding kleiner zijn en zal deze verdeling beter de normaalverdeling
benaderen. Dit zorgt er dus voor dat het een betere schatter is van de populatie.
μ =μ σ
x̄ x σ x̄ = √n
x
Betrouwbaarheidsintervallen
Voordelen van het kopen van samenvattingen bij Stuvia op een rij:
√ Verzekerd van kwaliteit door reviews
Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!
Snel en makkelijk kopen
Je betaalt supersnel en eenmalig met iDeal, Bancontact of creditcard voor de samenvatting. Zonder lidmaatschap.
Focus op de essentie
Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!
Veelgestelde vragen
Wat krijg ik als ik dit document koop?
Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.
Tevredenheidsgarantie: hoe werkt dat?
Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.
Van wie koop ik deze samenvatting?
Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper LouisePaepe. Stuvia faciliteert de betaling aan de verkoper.
Zit ik meteen vast aan een abonnement?
Nee, je koopt alleen deze samenvatting voor €5,49. Je zit daarna nergens aan vast.