Statistiek 2
Hoorcollege 1.1
Meetniveaus van variabelen
Nominale en ordinale meetschalen zijn categorisch.
Interval en ratio zijn kwantitatief.
Fuzzy variabelen → Het onderscheid tussen de meetniveaus kunnen soms lastig zijn, want wanneer begint
De meeste statistische methodes zijn gemaakt voor interval of ratio meetniveaus. Dit worden parametrische
methoden genoemd. Deze worden dus op interval of ratio gemeten.
Daarnaast heb je ook non-parametrische methoden. Dit zijn bijvoorbeeld categorische meetniveaus, bijvoorbeeld de
keuze tussen ‘ja’ of ‘nee’/ gemeten op nominale en ordinale schaal.
Voor de toetsende statistiek (samenhang x en y), ga je je statistiek beschrijven. Dit is het samenvatten van de data
aan de hand van tabellen en figuren. Je moet je data altijd exploreren → Je kan je data anders gaan interpreteren. Stel
je vindt een significant verschil. Wanneer je de data gaat exploreren zie je dat er maar twee mannen in je steekproef
zitten. Hierdoor ontdek je dat dit toch niet heel veel zegt over de populatie. Ook kun je fouten in je data vinden. Dit
helpt je tegen verkeerde conclusies.
Beschrijvende statistiek
Categorische data beschrijf je aan de hand van grafieken en tabellen. In de
tabellen staat bijvoorbeeld de frequentie, proportie en percentage. De Verschil histogram en staafdiagram
grafiek is vaak een staafdiagram. Bij een histogram zitten de balkjes aan
Kwantitatieve data worden vaak wat anders beschreven. Je kan nog steeds elkaar. Dit geeft aan dat het continue
werken met frequenties, maar hier heb je veel verschillende waardes. waarden zijn en in elkaar overlopen.
Daarom wordt er gebruik gemaakt van het bereik, bijvoorbeeld 8-10 of 16-
Een balkje geeft een bereik aan.
18. Als grafiek wordt er gebruik gemaakt van een histogram. Daarnaast kan
er gebruik worden gemaakt van een stem-and-leafplot.
Bij een symmetrische verdeling zijn het gemiddelde, de mediaan en de modus hetzelfde. Bij
een scheve verdeling is de mediaan vaak het gemiddelde.
Dit is een binomiale verdeling.
Een gemiddelde zegt niet altijd alles. Wanneer er naar de cijfers van twee jaren wordt
gekeken en het gemiddelde is een 7, moet er ook naar de spreiding worden gekeken.
De spreiding kan worden bepaald aan de hand van:
• De range (verschil max en min),
• De deviatie (yi - ȳ) → yi = score van persoon, ȳ = gemiddelde
• De kwadratensommen Ʃ(yi - ȳ)2
Ʃ(yi − ȳ)2
• De variantie (s2 = 𝑛−1
)
Ʃ(yi − ȳ)2
• De standaarddeviatie (s = √ 𝑛−1
)
Empirische regel → Als je een normaal verdeelde score hebt, zal 68% één
standaarddeviatie, 95% twee standaarddeviaties en 99.7% drie standaarddeviaties van
het gemiddelde afliggen.
Een U-vormige verdeling heeft een grotere standaarddeviatie dan bijvoorbeeld een
normale verdeling. Bij een normale verdeling liggen de meeste scores rond het
gemiddelde. Het verschil tussen het gemiddelde en iemands score is dus vaak kleiner.
Bij een andere vorm (dus bijvoorbeeld een u), liggen de scores verder van het
gemiddelde af. Hierdoor is de spreiding dus groter en is de standaarddeviatie groter.
, Een andere manier om spreiding van je data te beschrijven is door het te
klassificeren. Dit kan je doen aan de hand van de mediaan, maar ook
kwartielen (vier gelijke delen). Hierbij hoort de interkwartiel afstand. Deze
IQR helpt bij outliers. Een outlier is een score die 1.5 x IQR boven/ onder het
derde/ eerste kwartiel liggen. Dit zijn dus extreme scores.
Kansverdelingen
Kans → De kans dat een observatie een bepaalde waarde aanneemt.
Random variabele → Elke mogelijke waarde van variabele heeft een bepaalde kans.
Kansverdeling → Alle mogelijke waardes van variabele en hun kansen.
- Discrete kansverdeling: Eindig aantal mogelijke waardes, bijvoorbeeld kop en munt. Elk van deze waarde
heeft een kans. Dit wordt op een histogram aangegeven (x-as → variabele, y-as → kans)
- Continue kansverdeling: Oneindig aantal mogelijke waardes. Hierbij is er een gladde verdeling, maar moet
je kijken naar de oppervlakte onder de curve, bijvoorbeeld bij een normaal verdeling. Je kan hierbij niet de kans
berekenen bij een specifieke waarde. Je kunt wel de kans op een bepaald interval berekenen, bijvoorbeeld wat is de
kans dat iemand een IQ heeft tussen de 100 en 120?
Binnen de statistiek zijn er drie verschillende verdelingen:
o Verdelingen van variabelen in de populatie. Hoe onze variabelen er in de echte wereld uitzien
o Verdelingen van variabelen in de steekproef.
o Verdelingen van steekproefgrootheden, steekproevenverdeling (bijvoorbeeld gemiddelden). Dit is een
theoretische verdeling en bestaat eigenlijk niet in het echt, maar stelt ons in staat om statistiek te doen.
Een normaal verdeling is belangrijk. Hier weten we dat Voorbeeld z-score
we de empirische regel mogen toepassen. Als wij een Hoeveel % van de volwassenen haalt een score hoger dan
kans willen weten, kunnen we aan de hand van z-scores 120 op een IQ-test?
de kans hierop berekenen. μ = 100, σ = 15
𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑡𝑖𝑒−𝑔𝑒𝑚𝑖𝑑𝑑𝑒𝑙𝑑𝑒 𝑦− 𝜇
z= = . → Hoeveel 120 − 100
𝑠𝑡𝑎𝑛𝑑𝑎𝑎𝑟𝑑𝑑𝑒𝑣𝑖𝑎𝑡𝑖𝑒 𝜎
Z= = 1.33
standaarddeviaties de score van het gemiddelde ligt. 15
Dit kan je vervolgens in de z-tabel opzoeken. Hiermee → Zoek op in z-tabel, kans = 0.0918
kan je uitspraken doen over een verdeling. Dus, ongeveer 9% van de volwassen bevolking heeft een IQ
Wanneer je de ruwe scores convergeert naar z-scores, hoger dan 120
geeft dit dezelfde verdeling als jouw ruwe data.
Wanneer jouw ruwe data normaal verdeeld is en deze convergeert naar z-scores, zal de z-score ook normaal verdeeld
zijn.
o Populatieverdeling → Populatiegemiddelde μ is parameter.
o Steekproefverdeling → Steekproefgemiddelde ȳ is steekproefgrootheid.
o Steekproevenverdeling → Verdeling van steekproefgrootheid over steekproeven heen.
Doel statistiek → Op basis van een steekproef uitspraak over populatie doen. Deze uitspraak gaat vaak over het
gemiddelde of een proportie. Hiervoor is een grote steekproef nodig, want bij een kleine steekproef zijn de uitspraken
minder betrouwbaar. Dit heeft te maken met de steekproevenverdeling.
Het gemiddelde van de steekproevenverdeling is een goede schatting van het populatie gemiddelde. Hier is namelijk
minder spreiding.
𝜎
De steekproevenverdeling heeft een standaardfout in plaats van een -deviatie → σȳ = 𝑛. Deze heeft minder
√
spreiding, omdat er minder extreme waarden zijn. Dit komt dus ook doordat je meer mensen hebt.
Hoe meer mensen er in jouw steekproef zitten, hoe zekerder je ervan kunt zijn dat jouw gemiddelde in de buurt ligt
van het populatiegemiddelde.
Centrale limietstelling → Wanneer je genoeg mensen in je steekproef hebt, zal deze vanzelf normaal worden
verdeeld.
Hoorcollege 1.2
,Stellingen:
- Twee andere termen voor alpha zijn het significantieniveau of type 2 fout → Onwaar.
Alpha is het significantieniveau en het type 1 fout.
- Betrouwbaarheidsintervallen zijn informatiever dan significantietoetsen → Waar.
Bij significantietoetsen kan je enkel zeggen of iets significant is of niet. Dit geeft geen interval.
- Voor het toetsen van een gemiddelde wordt de z-toets gebruikt → Onwaar.
Gebruiken t-toets voor gemiddelde. Z-toets voor proporties.
Schattingstheorie
Bij een schattingstheorie kunnen we gebruik maken van een puntschatting. Dit is de beste gok die je kunt doen,
bijvoorbeeld het gemiddelde van de populatie. Het kan zijn dat dit afwijkt van de populatie, dus willen we
informatiever zijn.
Dan maak je gebruik van een intervalschatting. Hierbij geef je een interval, waarbinnen de parameter zou moeten
liggen. Dit is dus het betrouwbaarheidsinterval.
Puntschatting → Deze moet van goede kwaliteit zijn,
wat is de beste puntschatting? Dit kan bijvoorbeeld het
gemiddelde of de mediaan zijn. Een goede puntschatter
is zuiver en doeltreffend (efficiënt).
Het midden van deze schijven is de parameter, het
populatiegemiddelde.
Wanneer je dus een puntschatting wil doen, hoef je enkel het gemiddelde in de steekproef te nemen. Deze is efficiënt
en zuiver.
Betrouwbaarheidsintervallen
Als we informatiever willen zijn, moeten we een betrouwbaarheidsinterval rondom de parameter nemen. Daarvoor
gebruik je de puntschatter met daaromheen de foutenmarge. Deze is afhankelijk van de standaardfout en die is
afhankelijk van de steekproefomvang. Hoe groter de steekproef, hoe nauwkeuriger de schatting.
Verschil betrouwbaarheidsinterval en betrouwbaarheidsniveau → Interval = een interval van getallen wat jij zelf
berekent, niveau = kans dat een methode resulteert in een interval dat het parameter bevat (95% of 99%).
De basis voor het betrouwbaarheidsinterval is de steekproevenverdeling. Deze is in de meeste gevallen normaal
verdeeld, wat komt door de centrale limietstelling (Steekproef normaal verdeeld of grote steekproefomvang).
Ongeveer 95% van de verdeling ligt binnen twee standaardfouten van parameter (empirische regel).
De breedte van het BI neemt toe als de betrouwbaarheid stijgt, dus 99% is breder dan 95%. De breedte van het BI
neemt af als de steekproef groter wordt. Je bent hier namelijk zekerder, dus wordt het interval kleiner.
Wanneer je een betrouwbaarheidsniveau van 95% hebt, is er een kans van 5% dat de parameter niet in dit interval zal
liggen.
De formule voor het betrouwbaarheidsinterval: ȳ ± 𝑧 × 𝜎/√𝑛 kan vaak niet
gebruikt worden, omdat meestal σ onbekend is. Wel kan deze worden geschat aan
de hand van s. Wanneer je s i.p.v. σ gebruikt, krijg je een andere verdeling.
Daarom kunnen we switchen naar de t-verdeling. Deze lijkt op een z-verdeling,
maar heeft dikkere staarten. Wanneer de n groter is, lijkt hij steeds meer op de z-
verdeling. Dit komt door meer vrijheidsgraden.
Vrijheidsgraden → Zegt iets over het aantal elementen dat vrij is om te variëren. Bij de schatting van de parameter
hangt het aantal vrijheidsgraden af van het aantal restricties wat wij zelf opleggen. Bij meer restricties zijn er minder
vrijheidsgraden, want voor elke restricties, verdwijnt 1 df. Dit geldt ook voor voorspellers.
We gebruiken vrijheidsgraden bij het gemiddelde testen met de t-verdeling en bij het toetsen in regressie- en
Voorbeeld interval berekenen
variantieanalyse.
30 vrouwen die tijdens de zwangerschap rookten,
gemiddelde lengte kind = 50 cm, sd = 1 cm.
N = 30, dus df = 29
Opzoeken in t-tabel bij df = 29: t.025 = 2.045
BI = 50 + 2.045 x 0.19 = 50.39
50 – 2.045 x 0.19 = 49.63
,Voor een aselecte steekproef uit een normale verdeling bereken je als
volgt het betrouwbaarheidsinterval voor een t-toets → ȳ ± t.025 x se,
𝑠
met se = 𝑛
√
Toetsen
Om iets te kunnen bepalen aan de hand van een verdeling heb je vaak
een cutoff score maken. Hier kan je ook fouten in maken, bijvoorbeeld wanneer iemand niet depressief is, maar er op
de score uitkomt dat hij wel depressief is. Dit kan ook andersom; iemand is wel depressief, maar uit de test komt dat
diegene niet depressief is. Om dit te voorkomen, kan je de grenswaarde verleggen. De grenswaarde heeft effect op
juiste of verkeerde beslissingen.
Minder kans op foute scores:
- Verschillen tussen mensen groter zijn.
- Er binnen de groepen minder variatie is.
Door overlap van de groepen krijg je onzekerheid. Het
aantal vals positief en vals negatief hang af van de kritieke
grenswaarden die wij kiezen.
Een hypothese is een stelling die nog bewezen moet worden.
De nulhypothese is een veronderstelling waarbij je verwacht dat er geen effect is. Geloven vaak dat deze niet waar is
en proberen deze te verwerpen.
Voor de alternatieve hypothese kunnen we geen precieze waarde geven, want we weten deze verdeling niet. Het
gevolg hiervan is dat we niet de kans op een type 2 fout of de power kunnen berekenen. Daarom moeten we
significant toetsen (nulhypothese testen).
Statistisch toetsen → Met gecalculeerde (on)zekerheid de nulhypothese verwerpen of niet.
Type 1 fout → Onterecht nulhypothese verwerpen.
Type 2 fout → Onterecht nulhypothese aannemen.
5 onderdelen van een significantietoets:
1. Assumpties → aselecte steekproef, normale verdeling, robuust, kwantitatieve variabelen.
2. Hypothesen opstellen.
3. Toetsingsgrootheid uitrekenen (t-waarde, hoe kleiner de standaardfout, hoe groter de t-waarde).
4. P-waarde → De kans om een steekproefresultaat te vinden of nog extremer, gegeven dat H0 waar is.
5. Conclusie → Kijken of de p-waarde kleiner is dan de uitkomst. Dan wordt deze verworpen.
Hoorcollege 2.1
Het enkelvoudige regressiemodel
X-as → Onafhankelijke variabele, voorspellende variabele.
Y-as → Afhankelijke variabele, voorspelde variabele.
Idee lineaire regressie is het kunnen trekken van een lijn door de punten om een verband te kunnen schatten tussen x
en y.
Om een lijn te trekken in een regressie model, heb je twee parameters nodig: α en β.
• α → Constante/ intercept. Welke waarde heeft y als x gelijk is aan 0? Dus waar de lijn de y-as kruist. Kijk
ook of x-as ook stopt bij 0. Anders kan je dit niet zien.
• Β → Helling/ regressiecoëfficiënt → Hoeveel neemt y toe als x met 1 toeneemt? Dus je gaat met één stapje
naar rechts, hoeveel ga je dan naar boven of beneden?
, Een regressiemodel is niet deterministisch maar probabilistisch. Deterministisch betekent
dat wanneer je x weet, je y exact kan voorspellen. Er is hierbij geen error of ruis. In de
sociale wetenschappen heb je dit vaak niet, want je kan het niet voor iedereen precies
voorspellen. Verschillende mensen met dezelfde waarde op x hebben bijvoorbeeld niet
allemaal dezelfde y, waardoor er vaak spreiding is.
Dunne lijn = deterministisch
Dikke lijn = probabilistisch
Experimenteel onderzoek → Manipulatie van X.
Correlationeel onderzoek → X zoals het in het echt is.
Regressie naar het gemiddelde → je eerste observatie is heel extreem, maar hierdoor is de kans dat je tweede
observatie minder extreem is. Dit komt ook door het probabilistische aspect van een regressieanalyse.
Formules regressielijn:
Populatie → E(y) = α + β * x → Voorspelde waarde.
y = α + β * x + ε → Waargenomen waarde. Hier tel je de error er bovenop.
Steekproef → ŷ = a + b * x → Voorspelde waarde.
y = a + b * x + e → Waargenomen waarde.
Schatten van het enkelvoudige regressiemodel
Hoe schatten we de waardes van a en b in de formule? Hiervoor gebruiken we de kleinste kwadraten methode. Deze
heeft veel te maken met het residu e → y - ȳ (ware score – voorspelde score).
Een puntje in de grafiek is de ware score van iemand. De lijn geeft de voorspelde score aan. Je wilt het liefst dat je
errors (het residu) zo klein mogelijk zijn. Dit doe je door de Sum of Squares Error (Ʃe2) → Ʃ(y - ȳ)2.
Er zijn ook formules om a en b te berekenen:
Ʃ(𝑥− 𝑥̅ )∗(𝑦−ȳ)
b= → Wanneer je dus b weet kan je a berekenen.
Ʃ(𝑥− 𝑥̅ )2
a = ȳ - b𝑥̅
Voorbeeld formule bepalen
In de rekentabel staan alle getallen die je nodig hebt voor je formules.
Ʃ(𝑥− 𝑥̅ )∗(𝑦−ȳ) 20
b= → = 0.42
Ʃ(𝑥− 𝑥̅ )2 47.33
– 0.42 * 4.67 = 3.03
a = ȳ - b𝑥̅ → 5
ŷ = 3.03 + 0.42 * x → Gebruikt de formule van de steekproef. Dit geeft de schatting
Of je de formule met de error gebruikt, ligt aan de vraag: “schat a en b een geef de formule voor de data, geef de
daadwerkelijke datapunten = met error”, “geef de formule voor de regressielijn/ schatting van y = zonder error”
Wanneer je een regressieanalyse doet, heb je te maken met twee varianties:
Marginale variantie → De variantie van y als we nog niks weten van x, weten niks over verband.
Ʃ(𝑦−ȳ)2 𝑻𝑺𝑺
Sy2 = → , je weet hier alleen het gemiddelde van y. Een vrijheidsgraden van n – 1.
𝑛−1 𝒏−𝟏
Conditionele variantie → De variantie van y, gegeven dat x al voor een deel y verklaard.
Ʃ(𝑦−ŷ)2 𝑺𝑺𝑬
S2 = → , hier heb je ook α en β geschat. Een vrijheidsgraden van n – 2 (je hebt twee parameters).. Deze
𝑛−2 𝒏−𝟐
is altijd kleiner dan de marginale variantie, omdat een deel van de variantie al is verklaard. Er is een kleinere
overgebleven variantie. Bij marginale heb je dit niet, waardoor de overgebleven variantie groter zal zijn.