Samenvatting 4.4C. Applied Multivariate Data Analysis – Field (boek) & Lectures
Algemeen
- Kwalitatieve variabele= eigenschappen die verschillen in ‘types’, zoals religie, oogkleur,
geslacht en burgerlijke staat.
- Kwantitatieve variabele= eigenschappen die verschillen in ‘hoeveelheid’, zoals lengte,
gewicht, verlegenheid, tijd gespendeerd in leren.
- Discrete variabele= twee tussen aangrenzende waarde (bv. 1 of 2 of 3 kinderen), er zijn geen
tussen liggende waarden mogelijk.
- Continuous variabele= in principe tussen twee aangrenzende schaalwaarden, verdere tussen
waarden zijn nog steeds mogelijk
- Nominale schaal= de schaal waarden vertegenwoordigen alleen kwalitatieve verschillen (bv.
Verschillen van type in plaats van hoeveelheid) van het betreffende attribuut (Bv. Geslacht,
onderwijsniveau etc.)
- Ordinale schaal= de verschillende schaalwaarden vertegenwoordigen relatieve verschillen n
de hoeveelheid van een bepaald attribuut (bv. Verschillende ranken).
- Interval scale= wanneer gelijke afstanden tussen waarden op de schaal gelijk zijn aan de
verschillen in de hoeveelheid van het attribuut dat wordt gemeten.
- Ratio scale= wanneer gelijke afstanden tussen waarden op de schaal gelijk zijn aan verschillen
in de hoeveelheid van het attribuut dat wordt gemeten. De schaal heeft ook geen echt
nulpunt! (Bv. Temperatuur, tijd, lengte)
Lecture 1 Introduction. X
Q&A Lecture 1. Field chapter 2
Statistical models
In statistic we fit models to our data: we gebruiken statistische modellen om de representeren wat er
in de wereld gebeurd → De mate waarin een statistisch model de verzamelde data representeert
wordt ook wel de fit van een model genoemd. Deze fit is ook wel de accuraatheid van een model.
- Good fit: als een model de data heel goed representeert is het een good fit → je
voorspellingen zullen accuraat zijn.
- Moderate fit: er zijn bepaalde overeenkomsten met de werkelijkheid, maar ook belangrijke
verschillen →voorspellen kunnen niet accuraat zijn, je kan een beetje vertrouwen hebben
maar niet volledig in de voorspellingen van zo’n model.
- Poor fit: dit model is totaal verschillend van de werkelijke situatie→ voorspellingen op basis
van dit model zijn waarschijnlijk compleet inaccuraat.
Modellen bestaan uit parameters en variabelen:
Variabelen zijn gemeten constructen (bv moe) en verschillen onder mensen in de sample
Parameters zijn geschat van de data en representeren constante relatie tussen variabelen in het
model. Voorbeelden van parameters zijn het gemiddelde, de mediaan, de correlatie en regressie
coëfficiënten. De letter b staat voor parameters. Wanneer je een uitkomst wilt samenvatten,
bijvoorbeeld bij het uitrekenen van een gemiddelde, zijn er geen variabelen in het model, maar
alleen een parameter. →Bij een lineair model zijn de slope en intercept de parameters en wat je
meet de variabelen.
,We berekenen de model parameters in de sample om de waarde in de populatie te schatten.
Deviantie/residual/deviatie zijn andere woorden voor error. Error is de voorspelde score door het
model voor iemand min de geobserveerde score voor die persoon. Een negatieve error geeft aan dat
het model iets overschat.
➔ SS is afhankelijk van je sample size, vandaar dat je het deelt door df (N-1). De Mean Squared
error is de error die je hebt in het beschrijven van je data gemiddeld voor iedere persoon.
➔ Mean squared error is hetzelfde als variantie. Het is een variantie die model afhankelijk is.
➔ Hoe groter, hoe slechter je fit is.
,The sampling distribution: hoe de parameter
verschilt tegenover het herhaalde proces van
sampling van de distributie.
➔ Het hangt allemaal rond het gemiddelde van 10
maar als je er samples uit gaat halen zal de ene 9
gemiddeld zijn, de ander 11.
Standaard error
Sampling variatie: steekproeven variëren omdat ze
verschillende leden van de populatie bevatten. Een
symmetrische verdeling is een sampling distributie. Dit is een frequentie verdeling van gemiddelde
van steekproeven (of andere parameters). Als je het gemiddelde neemt van alle steekproef
gemiddelden, krijg je de waarde van het populatie gemiddelde. De SD van steekproef gemiddelde
zou ons vertellen hoe breed steekproef gemiddelden verspreid zijn over het populatie
gemiddelde→het vertelt ons of de steekproefgemiddelden representatief zijn voor het populatie
gemiddelde.
De SD van steekproefgemiddelden is ook wel bekend als de standaard error van het gemiddelde (SE)
of de standaard error. Een grote SE betekent dat er veel variabiliteit is tussen de gemiddelden van de
verschillende steekproeven en dus is de steekproef mogelijk niet representatief voor de populatie.
Een kleine SE betekent dat de meeste steekproefgemiddelden hetzelfde zijn als het populatie
gemiddelde en dat de sample een accurate reflectie is van de populatie.
➔ Central limit theorem→wanneer steekproeven groot zijn (groter dan 30), heeft de sampling
verdeling een normale verdeling met een gemiddelde die gelijk is aan het populatie gemiddelde
en een SD van:
Als een sample kleiner is dan 30, is de verdeling niet normaal→het heeft een andere vorm en wordt
de t-verdeling genoemd.
, ➔ SEx Hoeveel onze sample mean verschilt van onze populatie mean. Hoe groter je sample, hoe
lager je error.
➔ We kunnen SE gebruiken om de grenzen te berekenen waarin wij denken dat het populatie
gemiddelde zal liggen.
Betrouwbaarheidsintervallen
Een CI zijn grenzen waartussen de populatie valt. CI vertellen ons de waarschijnlijkheid dat ze een
echte (true) waarde bevatten van de parameter die men probeert te schatten. Er zijn grenzen zodat
van een bepaald percentage van steekproeven (bijv. 95%) de echte waarde van de populatie
parameter valt tussen deze grenzen.
Het meest gebruikelijke percentage is 95%, wat inhoudt dat wanneer er 100 steekproeven verzameld
worden het betrouwbaarheidsinterval bij 95 steekproeven de daadwerkelijke populatieparameter
(het populatiegemiddelde in dit geval) bevat. Bij een (grote) sample zal de data normaal verdeeld
zijn, waardoor er een gemiddelde van 0 en een standaarddeviatie van 1 is. In dat geval kan de 99.7-
95-68 regel worden toegepast. Dit houdt in dat 95% van de z-scores binnen -1.96 en +1.96
standaardafwijking valt.
➔ Een smal betrouwbaarheidsinterval wijst
erop dat het gemiddelde van de sample dus
dichtbij het populatiegemiddelde ligt.
➔ Een breed betrouwbaarheidsinterval wijst
erop dat het gemiddelde van de sample een
slechte representatie is van het
populatiegemiddelde.