Statistiek 2
Aantekeningen
Onderwerp Onderwerpen
1 Herhaling Statistiek 1 en Lineaire Statistiek 1 herhaling, Lineaire regressie, TSS; RSS, SSE, verklaarde variantie,
Marginale & Conditionele variantie.
regressie
2 F-toets bij Multipele Regressie Multivariate relaties, meervoudige regressie, multipele correlatie, F-toets,
F-verdeling, MSM, MSE, Multicollineariteit, Interactie en gecentreerde variabelen.
3 F-toets bij ANOVA en Dummy ANOVA met F-toets, Post-hoc toetsen, Multiple testing probleem. eta squared,
dummy variabelen, herhaalde metingen ANOVA. tweewegs ANOVA.
variabelen
4 ANCOVA en niet-lineaire ANCOVA, General Linear Model, Generalized Linear Model & Mixed Linear
Models, Exploratieve en confirmatieve modelselectie
modellen
, Statistiek 2
Les 1
Statistiek 1 herhaling & Lineaire
regressie
Onderwerpen die behandeld zullen worden:
● Statistiek 1 herhaling
● Lineaire regressie
● TSS, RSS en SSE
● Verklaarde variantie
● Marginale en conditionele variantie
1. De basis van statistiek (Statistiek 1)
Een steekproef is een deel van de populatie die wordt bestudeerd om informatie te verkrijgen over
de gehele populatie, omdat het onpraktisch of onmogelijk is om de gehele populatie te bestuderen.
Beschrijvende statistiek organiseert, vat samen en presenteert gegevens op een overzichtelijke
manier. Het zijn waarden zoals gemiddelden, standaarddeviaties, percentielen, grafieken en tabellen.
Inferentiële statistiek gebruikt steekproefgegevens om conclusies te trekken over de hele populatie,
met behulp van methoden zoals hypothesetoetsen, betrouwbaarheidsintervallen en
regressieanalyse.
1.1 Meetniveaus
Er zijn 4 meetniveaus van variabelen:
● Nominaal: Variabelen waarbij de gegevens in categorieën worden verdeeld zonder een
specifieke volgorde.
○ Bijvoorbeeld: Geslacht.
● Ordinaal: Variabelen waarbij de gegevens in categorieën worden verdeeld met een specifieke
volgorde, maar de afstand tussen de categorieën is niet uniform.
○ Bijvoorbeeld: Opleidingsniveau.
● Interval: Variabelen waarbij de gegevenspunten een specifieke volgorde hebben en de afstand
tussen de waarden gelijk is, maar er geen absoluut nulpunt is.
○ Bijvoorbeeld: Temperatuur gemeten in graden Celsius.
● Ratio: Variabelen waarbij de gegevenspunten een specifieke volgorde hebben, de afstand
tussen de waarden uniform is en er een absoluut nulpunt is dat betekenis heeft.
○ Bijvoorbeeld: Leeftijd.
1
, Statistiek 2
Nominaal en ordinaal kunnen worden gecombineerd tot de categorie "categorisch", terwijl interval
en ratio worden geclassificeerd als "kwantitatief".
1.2 Normale verdeling
De normale verdeling is een kansverdeling die beschrijft hoe data verspreid zijn. Er zijn twee
parameters die bepalen hoe de normale verdeling eruitziet: het gemiddelde en standaarddeviatie.
Binnen één standaarddeviatie ligt 68,2% van de observaties (34,1% + 34,1%), binnen twee
standaarddeviaties 95,2% en binnen drie standaarddeviaties ligt 99,6%. Als de significantie kleiner
is dan 0.05%, is het onwaarschijnlijk dat de data normaal verdeeld zijn.
Er zijn verschillende centrummaten bij verdelingen:
1. Gemiddelde: som van alle waarnemingen gedeeld door het aantal waarnemingen
2. Mediaan: de middelste waarneming, het verdeelt de dataset in twee gelijke delen
3. Modus: de meest voorkomende waarneming in de dataset
1.2.1 Scheef naar rechts
Een rechtsscheve verdeling is langer aan de rechterkant (staart), het
wordt ook wel positieve scheefheid genoemd. Het gemiddelde van een
rechtsscheve verbinding is altijd hoger dan de mediaan, omdat de extreme
waarden/uitschieters (waarden in de staart) meer invloed hebben op het
gemiddelde dan op de mediaan.
● Scheef naar rechts = gemiddelde > mediaan
1.2.2 Scheef naar links
Een linksscheve verdeling is langer aan de linkerkant (staart), het wordt
ook wel negatieve scheefheid genoemd. Het gemiddelde van een
linksscheve verbinding is altijd lager dan de mediaan, omdat de extreme
waarden/uitschieters (waarden in de staart) meer invloed hebben op het
gemiddelde dan op de mediaan.
● Scheef naar rechts = mediaan > gemiddelde
2
, Statistiek 2
1.3 Empirische regel
De empirische regel geeft aan dat het oppervlakte onder de kromme (normaalverdeling) een
representatie is van een percentage van de onderzoeksresultaten. Dit gebied kun je berekenen aan
de hand van een Z-score. De Z-score drukt uit hoeveel standaarddeviaties een waarneming afwijkt
van het gemiddelde.
De empirische regels zijn als volgt:
1. 68% van alle waarnemingen hebben een Z-score tussen -1 en 1 standaarddeviaties.
2. 95% van alle waarnemingen hebben een Z-score tussen -2 en 2 standaarddeviaties.
3. 99% van alle waarnemingen hebben een Z-score tussen -3 en 3 standaarddeviaties.
Formule: Z-score
○ y = waarneming/observatie
○ 𝜇 = gemiddelde
○ σ = standaarddeviatie
Om de y-waarde te vinden voor de gegeven kans, gebruik je de formule:
○ y = 𝜇 + z * σ
Als de ruwe data normaal verdeeld zijn, geeft de z-verdeling een standaard normaalverdeling. Als de
ruwe data niet normaal verdeeld zijn, dan is de z-score dat ook niet.
Rekenvoorbeeld: Z-score.
Hoeveel % van de volwassenen haalt een score hoger dan 120 op een IQ-test? Hierbij geldt: (𝜇 =
100 ; σ = 15)
Uitwerking:
Er geldt z = (y - 𝜇)/σ → z= (120-100)/15 = 1.333, dit geeft aan dat de score van 120 1.33 sd’s boven het
gemiddelde ligt.
Als je dit opzoekt in de z-tabel geldt kans = .0918
Er geldt dus: ongeveer 9% van de volwassen bevolking heeft een IQ hoger dan 120.
1.4 Standaarddeviatie
De standaarddeviatie geeft aan hoeveel de geobserveerde waardes afwijken van het gemiddelde.
De standaarddeviatie wordt in de populatie aangeduid met de griekse letter sigma = σ en in de
steekproef met de letter s.
Formule: Standaarddeviatie (steekproef)
○ yi = de individuele waarneming
○ ȳ = gemiddelde van y
○ n =steekproefgrootte
3