Samenvatting - Statistiek IV: multivariate data analyse
67 views 4 purchases
Course
Statistiek IV: multivariate data analyse
Institution
Vrije Universiteit Brussel (VUB)
Samenvatting van Statistiek 4 gegeven door Prof. Mairesse. Hoofdstukken: verkennen van data, meervoudige lineaire regressie, one-way ANOVA, two-way ANOVA, factoranalyse, clusteranalyse, mediatie & moderatie, SEM en netwerkanalyse
Hiermee was ik meteen geslaagd in eerste zit!
STAT4
H1: VERKENNEN VAN DATA
WAAROM DATA-ANALYSE
Data-analyse is noodzakelijk voor psychologen helpt je om:
1) Data te organiseren Bv. grafieken,..
2) Data te beschrijven Bv. beschrijvende/deductieve statistiek, samenvatten
3) Interpreteren & uitspraken doen obv data Bv. inferentiële/inductieve statistiek, verklaren
4) Theorieën te verifiëren & aan te passen
INDUCTIEVE STATISTIEK
Er wordt een uitspraak gedaan over een populatie Bv. de studenten
psychologie. Indien er een uitspraak gedaan wordt, obv data, werd een
steekproef getrokken. Uit de steekproef kan er beschrijvende statistiek
gedaan worden (‘Jos en Sara hebben problemen met slapen die aan
de VUB, psychologie studeren). Er dient inferentiele statistiek
toegepast te worden en er moeten parameters geschat worden indien
er uitspraken over de populatie gedaan willen worden.
Er wordt van steekproef naar populatie geschat (bijvoorbeeld een
gemiddelde van 50). ‘Wat is het gemiddelde van de populatie’ wordt dan bijvoorbeeld geschat. Wanneer er
een populatiegemiddelde is, kan er onderzocht worden of er een statistisch significant verschil is.
Begrippen: Theorie geeft de mogelijkheid om een hypothese te stellen, vanuit een
hypothese kan er een steekproef genomen worden. Daaruit kunnen er
steekproefgrootheden berekend worden
Steekproefgrootheid (statistiek, grootheid): is een maat gebaseerd op de gegevens
van de steekproef Bv. rekenkundig gemiddelde, proportie..
toevalsvariabele met een bepaalde verdeling (= steekproevenverdeling)
Steekproevenverdeling = een verdeling van de verschillende gemiddeldes DUS verdeling van
steekproefgrootheden
- SteekproeFverdeling (sample distribution): een frequentieverdeling van de uitkomsten van steekproef
(empirisch, gekend)
- SteekproeVENverdeling (sampling distribution): kansverdeling van alle mogelijke waarden die een
steekproefgrootheid (voor alle mogelijke verschillende steekproeven) kan aannemen (theoretisch,
benaderen)
normaal verdeeld (steekproefgrootheid = Ⴟ) ALS herhaaldelijk toevallige steekproeven met grootte n
trekken uit normaal verdeelde populatie met gemiddelde = µ en standaardafwijking = σ
Centrale limietstelling = wanneer men herhaaldelijk toevallige steekproeven met
grootte n trekt uit een willekeurig verdeelde populatie met gemiddelde = µ en
standaardafwijking = σ EN indien n voldoende groot (vuistregel: n ≥ 30), dan
benadert de steekproevenverdeling van het steekproefgemiddelde een
normaalverdeling.
Grafisch verkennen van data
Boxplot = geeft info over positie, de spreiding & symmetrie. De vorm van een
boxplot tov de verdeling van de data. De verdeling van de data geeft info over
welke statistische modellen er gebruikt kunnen worden.
1
, - Histogram = geeft info over de normaliteit van de verdeling
- Stem en leaf = geeft de werkelijke waarden van waarnemingen weer Bv. zie foto getallen
Hoe data voorstellen wanneer er een bepaalde statistische test afgenomen wordt:
MISSING DATA
= zijn ontbrekende waarden voor 1 en/of meerdere variabelen door:
- Onafhankelijk van respondent
= procedure Bv. “indien ‘nee’, ga naar vraag xxxx” & codeerfouten
- Afhankelijk van respondent
= omvang Bv. veel of weinig & analyse van profiel van missing data Bv. is er systematiek of random?
Impact van missing data:
- praktische impact = reductie van steekproefgrootte
ALS weinig data = niet veel statistische testen kunnen toepassen (ALS toch testen toegepast =
instabiel) Bv. Antarctica data = onderzoeken hoe slaapcyclus verschuift 1 persoon geen zin meer om mee
te doen (missing data) & ander persoon proberen meten maar te veel statische elektriciteit (missing data)
DUS data valt constant weg = uiteindelijk N = 2 DUS te weinig
Listwise deletion = missing data eruitzwieren Bv. MAAR niet altijd goed want kan zorgen voor bias
ALS te veel data mist = steekproefgrootte (N) vergroten (bij testen) of remediëren
- systematische missings in data bias
= specifieke groepen uitgesloten uit analyse Bv. mensen met hoge inkomens = systematisch weigeren om
info te geven over variabelen die we willen meten
PAS opmerken als je missing data bestudeerd hebt
Analyse missing data
Er kunnen variabele zijn met missing data (kolommen) EN missing data zijn vanwege deelnemers (tabellen)
Stap 1: Bepaal het soort missing data
Verwaarloosbare missing data
= iets dat we verwachten, is deel van procedure, NIET systematisch (toegelaten) random missing data Bv.
hebben GEEN significante invloed op resultaten
1) Data van individuen (observatie-eenheden) die niet in de steekproef zitten Bv. geen data hebben over een
bepaalde populatie, kan je enkel oplossen door meer mensen te testen
2) Skip-patronen in design Bv. “rookt u? zo neen, ga naar item x”
2
,3) Censored data = niet beschikbare data Bv. steekproef vandaag testen, dan heb je geen data van het verleden OF
mensen die sterven tijdens testen
= NIET remediëren!
Gekende niet-verwaarloosbare missing data
= te wijten aan procedurele factoren weinig controle over is Bv. heeft significante invloed op resultaten
- codeerfouten bij ingeven data Bv. vooral ALS data met hand ingevoerd wordt
- vragenlijsten niet volledig ingevuld geweest Bv. vanwege tijdsgebrek
- sterfte respondent
onbekende niet-verwaarloosbare MD = moeilijker op te sporen, te remediëren WANT is gerelateerd
aan respondent
- weigering ‘gevoelige’ items, ‘geen mening’
Stap 2: Hoeveel data mist er?
- Indien omvang zeer klein is (<10%) = dan is er GEEN probleem Bv. er is dan nog voldoende info zonder
missing data
GEEN systematische patronen (non-randomness) = GEEN effect op de resultaten + elke remedie is
OK
- Indien omvang groot is = dan randomness (toeval) onderzoeken
Stap 3: Toeval in missing data onderzoeken!
1) Missing completely at random (MCAR)
= tussen subgroepen zijn missing data random gelijk Bv. per ongeluk gelijke missings in data van subgroepen Bv.
Als een onderzoeker per ongeluk een aantal formulieren verliest, en deze formulieren willekeurig zijn gekozen, dan is de
resulterende ontbrekende data ook MCAR
- kans op data missing = gelijk voor iedereen in sample
- oorzaak van missing data = onafhankelijk van data zelf
- elke remedie is oké, zeer weinig voorkomend
2) Missing at random (MAR) onderzoeken
= binnen subgroepen zijn missing data random MAAR WEL verschillen tussen groepen Bv. in ene groep mist
data maar in andere groep niet enkel bij een bepaalde groep missing data
missing data = zijn afhankelijke van andere variabelen Bv. je hebt gegevens over de leeftijd, het inkomen en het
opleidingsniveau van een groep mensen. Als je leeftijd en inkomen bekend zijn, maar het opleidingsniveau ontbreekt voor
sommige mensen = ‘missing at random’ OMDAT de ontbrekende waarden voor opleidingsniveau afhankelijk zijn van
leeftijd en inkomen MAAR zelf onafhankelijk zijn van het ontbrekende opleidingsniveau Bv. mannen minder geneigd om
vraag over emoties te beantwoorden (emotie enkel afhankelijk van geslacht) & heeft niets te maken met emotionele
status van persoon = MAR OF Bv. studie naar voorspellen inkomen obv opleiding missen enkel inkomensgegevens bij
groep laagst opgeleiden
Missing Not at Random (MNAR) = meest problematische vorm van ontbrekende data, omdat de kans op ontbrekende
data afhangt van de waarde van de ontbrekende data zelf of van andere niet-waargenomen factoren. Dit vereist vaak
geavanceerde methoden en aannames om correcties aan te brengen Bv. enkel meest angstige mensen durven niets
zeggen over angst zelf = MNAR OF Bv. studie naar voorspellen van inkomen obv opleiding inkomensgegevens missen
bij de hoogste inkomens/een bepaalde ‘range’ van data ontbreekt (MNAR) = missing non at random)
Hoe nagaan
- bekijken van data (visuele inspectie) Bv. grafiek maken in exel, waar zijn er gaten in?
- diagnostische tests
door t-toetsen toe te passen, bekijken i/d data set of het geldige/ongeldige responsen zijn
o Cases MET missing voor variabele Y vergelijken met cases ZONDER missing op Y
3
, = verschillen ze op andere variabelen? Bv. t-toets Bv. data met 300 man = vergelijken door degene
met missings eruit te halen zo datafile van 250 man en daar zelfde statistische toets op doen zo
kijken of we andere resultaten uitkomen
o Recoding
= geldige respons = 1 EN missing = 0 DAN correlatie berekenen
o Overall test for randomness Bv. Runs test, Test for Serial Correlation, Spectral Analysis, Chi-Square
Tests for Randomness
Stap 4: Omgaan met missing data
- Trachten te vermijden Bv. check vragenlijsten, aandachtig bij coderen..
- Standaard listwise deletion Bv. missing data eruit laten enkel complete cases gebruiken
- Cases en/of variabelen verwijderen (als random)
- MAR of MCAR: imputatie methode missing data vervangen
o Indien 10-20% = regressiemethoden toepassen
o Indien meer dan 20% = specifieke methoden toepassen
alle beschikbare info gebruiken Bv. pairwise deletion = 2 aan 2 variabelen, n fluctueert
aanvullen van ontbrekende data: vervangende (vergelijkbare) cases Bv. bij non-respons, gemiddelde,
geschatte waarde door regressie…
Samenvatting omgaan met missing data
OUTLIERS
= vervelend indien er parametrische technieken gebruikt worden Bv. regressieanalyse, ANOVA,…
- buitenbeentjes die data vervormen Bv. laten we outliers erin? Of halen we ze eruit? Soms kunnen outliers wel
goed zijn om erbij te steken
- zijn duidelijk anders dan de andere observaties
- kunnen grote invloed hebben op analyse EN interpretatie
impact: hoe representatief is outlier voor de populatie? Bv. wil ik ook uitspraak maken
over populatie?
4
,De praktische impact
= een outlier kan ook een coderingsfout zijn Bv. in SPSS zeggen ik ga grote waarden pakken 9999 maar SPSS merkt
dit niet want die werkt gewoon met de data die hij krijgt
Mediaan = non-parametrische manier van een centraliteits maat te krijgen (minder
gevoelig voor de outliers) DUS kunnen non-parametrische technieken toegepast
worden indien er outliers zijn in data en die erin gehouden worden (er kan
bijvoorbeeld een Wilcoxon toegepast worden)
Bv. kijk zowel naar data als naar tabellen! Zie foto
Impact op resultaten/inferentie
Bv. onderzoek = correlatie tussen totale slaaptijd & reactiesnelheid op twee testen
op verschillende momenten van de dag IN steekproef van ongeveer 10 mensen
(N = 10), is er 1 outlier
patroon van hoe de correlaties zich verhouden ten opzichte van elkaar, verschilt
compleet (ondanks er maar 1 iemand uitgehaald is)
DUS als outlier eruit is = interpretatie over test helemaal anders Bv. meer
correlatie met nachtelijke metingen DUS goed nagaan welk effect het heeft op u interpretatie van test
Outliers
verwijderen en/of behouden van outliers = hangt af van onderzoeksvraag Bv. ene proefpersoon schiet op
allerlei van testjes eruit DUS was het toevallig dat hij afwijkend reageert of is het een afwijkende proefpersoon? Ga ik
hem bijhouden of niet?
Elke variabele mag aantal outliers hebben MAAR moet steeds grondig afgewogen worden!
MAAR ALS case door meerdere criteria als outlier wordt beschouwd = ‘missing’ overwegen
Sensitiviteitsanalyse = wat gebeurt er met resultaten als je outlier weglaat, in tegen stelling tot andere
waarnemingen?
Detectie outliers
- univariaat = z-scores berekenen
= variabele standaardiseren z-transformatie: de waarden aftrekken van gemiddelde & delen door
standaardafwijking (afwijking tov gemiddelde)
kleine steekproeven = iemand is outlier vanaf meer dan 2.5 standaardafwijkingen
grote steekproef = iemand is outlier vanaf meer dan 3 of 4 standaardafwijkingen Bv. aangezien er een
betere schatting is van verdeling indien er meerdere observaties zijn
- bivariaat = met scatterplot
- multivariaat = met Mahalanobis afstand van observatie tot midden van alle observatie
Bv. indien een meervoudige regressie toegepast wordt, dan kan er gekeken worden of een bepaalde waarde
multivariaat is tov andere variabele (afwijkt) aan de hand van de mahalanobis afstand te berekenen
ASSUMPTIES
Voorwaarden om multivariate analyses uit te mogen voeren er zijn extreem strenge voorwaarden om een
interpretatie te kunnen doen:
1) Normaliteit
2) Homoscedasticiteit (gelijke spreiding)
3) Lineariteit
Normaliteit
= typisch gevormde curve, symmetrisch rond het gemiddelde
5
, enkel voor continue (para(metric)) variabelen
volgens theorie: ALS afwijking van normaalverdeling voldoende groot is = dan zijn alle statistische tests
ongeldig OMDAT normaliteit vereist is om F en t statistieken te kunnen gebruiken Bv. MAAR statistischie gingen
dit onderzoeken of dat wel klopte MAAR in praktijk dient dit genuanceerd te worden Bv. robuuste methodes = voor
bepaalde toetsen zoals ANOVA = afwijkingen van normaliteit zijn niet zo erg naar de interpretatie
Twee afwijkende vormen:
- Kurtosis: gepiektheid of platheid (hoogte) tegenover normaalverdeling
- Skewness (scheefheid): balans van distrubitie (‘fatness of the tails’)
Bv. als je zeer sterke afwijkingen hebt, dan gaat het u data serieus biasen DUS rekeninghouden
met platheid of distributie van u waarden
Indien normaal verdeeld zijn beide = 0 zijn afwijkingen significant?
Kurtosis ‘meet’ outliers outliers zijn problematisch voor standaardconclusies Bv. t-test, t-
intervallen die gebaseerd zijn op normale verdeling
De rol van N:
= belangrijk WANT je kan sterk misleid worden door lage of hoge steekproefgroottes
- hoe groter sample, hoe kleiner effect van niet-normaalverdeeldheid
- ALS data niet normaal verdeeld is & steekproef kleiner dan 30 grote impact op resultaten
- ALS steekproef niet normaal verdeeld is & steekproef groter is dan 200 impact verwaarloosbaar
DUS minder zorgen maken bij grote sample!
Bv. onderzoek effect corona op mentale gezondheid 10 000 mensen bevraagd, elke test statistisch significant = is
functie van grootte van effect en grootte sample Bv. topsporters onderzoeken = weinig verschillen (lage effect size) DUS
als je statistische significantie wil bekomen in testen, dan ga je heel veel topsporters moeten testen want je wil hele kleine
effecten statistisch zichtbaar maken MAAR wanneer je verwacht dat er enorme effecten gaan zijn, dan heb je weinig
mensen nodig (20-30 mensen) zo statistische significantie krijgen DUS meer is niet altijd beter
Statistisch significante verschillen kunnen NOOIT los van hun effectgrootte bekeken worden (een p-waarde op
zich zegt niets) Bv. DUS ook correlatie of cohens d of ODDS die zeggen hoe groot effect is WANT het kan significant
zijn MAAR je moet ook weten in welke richting
Afwijkingen van normaliteit brengt andere problemen met zich mee, ondanks voldoende grote steekproef
Om na te gaan of de variabele normaal verdeeld is, kan er gebruik gemaakt worden van:
1) Skewness/kurtosis
2) Kolmogorov-smirnov test (nulhypothese): verdeling is normaal, wordt beïnvloed door N Bv. wordt sterk
beïnvloed door grote steekproef DUS elke kleine afwijking van normaliteit gaat u KS significant vinden
3) Grafisch: Normal Probability plot
- Normal P-P plot = vergelijkt cumulatieve verdeling van geobserveerde data met
gecumuleerde verdeling van normaalverdeling
- Normal Q-Q plot = vergelijkt kwantielen van geobserveerde data met kwantielen van
normaalverdeling
6
,Skewness: hellen naar (indien een berg die naar rechts helt, dan is het rechts geskewed = meer positieve
getallen, positief)
Homoscedasticiteit
Onafhankelijke variabele (IV) wordt in experiment veranderd OF gecontroleerd om de effecten op de AV te
testen
Afhankelijke variabele = de variabele die getest & gemeten wordt in een wetenschappelijk experiment
Homoscedasticiteit: AV’s vertonen vergelijkbare niveaus van variantie over de range van OV’s heen
OF de variantie in de waarden van de AV moet ongeveer gelijk zijn voor elke waarde van de OV Bv. linkse foto
= punten ongeveer gelijk verdeeld
ALS NIET: heteroscadasticiteit voorspellingen zijn beter voor sommige waarden van de OV dan voor
anderen Bv. rechtse foto
Lineariteit
= veel methoden (gebaseerd op correlatie) veronderstellen dat verband tussen variabelen lineair is:
- (Meervoudige) Regressie-analyse, Factoranalyse..
- Diagnose: scatterplots
TRANSFORMATIE
= kan remedie zijn voor assumpties 1, 2 & 3 Bv. normaliteit, homoscedasticiteit en lineariteit
- Trial and error Bv. ik probeer verschillende zaken en ik zie of deze convergeren in dezelfde richting (als niet zo =
overgaan naar modellen waar data wel toegelaten wordt DUS nonparametrische data)
- eenvoudig toepassen adhv SPSS
Vaak is het mogelijk om de gegevens zo te transformeren dat de nieuwe scores voldoen aan assumpties van
normaliteit, homoscedasticiteit & lineariteit
potentiële nadelen:
- Interpretatie van resultaten kan minder duidelijk zijn Bv. gegevens interpreteren met die transformatie in
achterhoofd DUS interpretatie kan minder duidelijk zijn Bv. data kwadrateren (voor geen negatieve waarden)
DUS resultaten ook in termen van kwadraat moeten gaan interpreteren
- Theoretische & empirische overwegingen Bv. theoretische overweging = theorie pusht mij om transformatie
op data toe te passen MAAR empirisch = wat betekent zoiets? Wat betekent een inverse van logaritme Bv.
reactietijd = niet normaal verdeeld maar vaak geskewed DUS transformeren door daar een inverse van te nemen
= zo hebben we een beter verdeelde variabele MAAR ook zo in deze context gaan interpreteren want nu hebben
we het over een inverse van reactietijd (reactiesnelheid)
- Betekenis van afhankelijke variabele kan veranderen Bv. gekwadrateerde inkomensverschillen (geen
negatieve waarden meer)
Veelgebruikte transformaties
- ALS gegevens positief (rechts) geskewd zijn (gegroepeerd op lagere waarden) = ga dan naar beneden
op de ladder van de machten
- ALS gegevens negatief (links) geskewd zijn (gegroepeerd op hogere waarden) = ga dan op de ladder
der machten
- ALS data niet normaal verdeeld is = data tot bepaalde macht verheffen
macht > 1 = toename spreiding van hogere scores tov lagere scores (indien negatieve data)
- macht van 1 = de geobserveerde data, zonder transformatie
7
, - ALS data met halve macht verheffen (1/2) = vierkantswortel toepassen (is handig bij positieve
verdelingen)
- Verheffen -1 = bij reactietijden Bv. ALS gegevens positief (rechts geskewd
zijn), dan moet je naar beneden gaan op de ladder van de machten!! De
machten hebben een impact op hoe er geïnterpreteerd/gerapporteerd wordt
(de basis interpretatie blijft hetzelfde). Positief geskewde verdelingen gaan
we proberen recht te trekken. De getransformeerde data, noemen we
reactiesnelheid.
Skewness & RT
= hoe meer data afwijkt van normaal verdeling, hoe lager je op ladder moet gaan om data recht te trekken
Data transformatie
Andere vorm van standaardiseren = centering (mean centeren obv variabelen of personen
(ipsatizing)) data zo transformeren dat data afwijking wordt van gemiddelde en dat ook zo
gaan interpreteren Bv. het aftrekken van de gemiddelde waarde v/d werkelijke waarde van elke
waarneming DOEL = de oorspronkelijke variatie tussen de waarden behouden, maar alle
variabelen ten opzichte van hun gemiddelde variabele te maken
Log-lineair: een log van Y-variabele met een niet-getransformeerde X-variabele = geeft een
schatting van de procentuele verandering in Y bij een verandering van één eenheid in X (een
vice-versa lineair-log)
Log-log: een log van zowel X als Y = geeft de verhouding van de procentueleverandering van Y bij een
procentuele verandering in X de definitie van ‘elasticiteit’
Voorbeeld log-transformatie
Bv. spreiding is anders op figuren DUS assumptie homoscedasticiteit is niet voldaan DUS data transformeren log-
transformatie op toepassen (voordeel: kleine spreidingen groter maken) DUS dan wel assumptie voldaan DUS ANOVA
mag je toepassen DUS resultaten wel significant!
ALS ANOVA doen op niet-getransformeerde data variantieanalyse gaat ervanuit dat indien ze verschillende groepen
zouden hebben, dan is het significant wanneer het gemiddelde één van de groepen verschilt tov de rest. De gemiddeldes
kunnen nominaal verschillen maar de spreiding overlapt waardoor er géén significant effect gevonden zou kunnen
worden. Wanneer het getransformeerd wordt met data, gaat het uit elkaar getrokken worden waardoor er grote
verschillen in gemiddeldes zijn.
De assumptie van homogeniteit van varianties wordt in de eerste grafiek niet voldaan, in de tweede wel. Ten minste één
van de gemiddeldes verschilt van de anderen, rekening houdend met de data. Er zijn verschillende verschillen in
gemiddelden van de getransformeerde data.
Dummy codering
8
,= kan remedie zijn voor assumptie 3 (lineariteit) niet parametriseren van de data (categorieën maken van
continue data) Bv. categorische variabelen gaan opdelen in 0-1 verdeling (geslacht) ALS invoeren in regressie =
variabele en daar staat dan 0 of 1 achter van man of vrouw DUS GEEN 2 de variabele in steken van X1 is variabele man
en X2 is variabele vrouw MAAR dan wordt data perfect verklaard (want data set in 2 delen en je wil verschil tussen 1 of
ander zien DAN moet je 1 van de 2 enkel geven, als je 2 geeft dan kan je geen verschil zien)
Een variabele met k categorieën ALTIJD voorgesteld als k – 1 dummy variabelen
Bv. nominale variabele leiderstype (waarvan 6 types) dan gaan er maar 5 dummy variabelen
(visionair, begeleidend, gelijkwaardig, democratisch, tempoaanjagend) in het model gestoken
worden EN DIE vergelijken tov autoriteit (6de type) WANT die wordt er niet bij in gestoken Bv.
ALS positief verband = het effect van visionair leiderstype tov autoriteit OF effect van
begeleidend tov autoriteit
- vaak vereisen multivariate technieken continue (metric) data
- WAT dan met categorische (non-metric) variabelen? Bv. geslacht
o Aanmaak nieuwe var (dummies) die het niet-lineaire deel van het verband weergeven Bv. beetje
honger tov geen honger, matig honger tov geen honger
o Dummy = dichotome variabele die 1 categorie representeert van een niet-metrische IV
(logistische transformatie op toepassen)
Bv. leeftijd veranderen in categorieën (12-20, 20-30,..) DUS er kunnen dummy variabelen gecodeerd worden
Wanneer het in een regressie vergelijking gestoken wordt, kan het behandeld worden als een continue variabelen (in
geval van een Likertschaal). Indien die het onderliggende latente aspect op een lineaire manier meet. Hoe meer
variabelen er i/e model gestoken worden, dan kan het een andere invloed hebben op de sterkte v/d voorspelling.
BESLUIT
Multivariate data-analyse stelt hoge eisen aan de kwaliteit van de data:
- ‘Verken’ je data alvorens te beginnen aan ‘zware’ analyses Bv. data moet heel proper zijn om zomaar in
model te kunnen steken zonder rekening te houden met potentiële robuustheid van bepaalde techniek
- Missing data voorkomen = door optimale procedures voor datacollectie & codering Bv. gaan te
gedetailleerde vragenlijsten
- Univariate, bivariate EN multivariate outliers identificeren Bv. identificeren en beslissen wat je ermee doet
(eruit laten of erin)
- Assumpties in vergelijking met verdelingen controleren EN eventueel data transformeren
- Door dummy codering kunnen categorische variabelen verwerkt worden met multivariate methoden
H2: MEERVOUDIGE LINEAIRE REGRESSIE
DOEL
Regressieanalyse = voorspellen/ verklaren van AV (verklaarde variabele want geen causaliteit) obv 1 (of
meerdere) OV (verklarende variabelen) op basis van een lineair model
- hoe varieert de verklaarde variabele AV wanneer 1 van de verklarende variabelen OV gemanipuleerd
wordt (en de anderen constant gehouden worden)?
Bv. maandelijkse gezinsuitgaven voorspellen obv inkomen, opleiding & geslacht MAAR als ik wil weten welk
effect inkomen heeft op gezinsuitgaven DAN moeten opleiding & geslacht constant gehouden worden
- Verklaren impliceert voorspellen MAAR NIET omgekeerd!
Bv. weer voorspelt gegevens op barometer MAAR barometer kan weer niet voorspellen
- Regressieanalyse wordt vaak gebruikt in predictie-onderzoek & forecasting
Bv. obv bepaald aantal datapunten een lijn trekken en wanneer je die datapunten niet hebt kunnen voorspellen
wat meest waarschijnlijke waarde is gegeven een andere waarde van OV Bv. kind meten hoe dik kraakbeen is =
met bepaalde zekerheid voorspellen hoe groot kind gaat worden als die volwassen is
Mensen gaan ervanuit indien regressie toegepast wordt, het causaliteit inhoudt MAAR een gelijkheidsteken is
een vorm van correlatie (regressie is correlatie) die GEEN causaliteit is de 1ste basis assumptie is dat de
ene variabele de andere variabele bijvoorbeeld veroorzaakt
9
, ENKELVOUDIGE REGRESSIE
De rechte: ŷ = b0 + b1x
- Ŷ = AV interval niveau, continu (kan ook categorisch)
Bv. verkeer: ‘aantal wagens per dag’
- x = OV interval niveau, continu (ook categorisch, dummy Bv. geslacht)
Bv. weg: ‘aantal wegen’
- b0 = constante (intercept = de waarde van de AV wanneer de OV = 0) =
hoe hoog lijn is Bv. wanneer X van OV gelijk is aan 0, dan valt b1 weg MAAR toch
kan je punt voorspellen op Y-as Bv. wanneer er geen wegen zijn, zijn er toch 1000
wagens in het verkeer
- b1 = regressiecoëfficiënt (OF slope OF hellingsgraad van de rechten) Bv. b1
= 0 DUS lijn is horizontaal, b1 = 1 DUS lijn van 45° want getal x is gelijk aan getal y
= de gemiddelde toe/afname van AV wanneer OV 1 eenheid stijgt
Bv. voor elk bijkomende weg komen er gemiddeld 150 wagens bij
Enkelvoudige regressie: voor elke waarde van x varieert y normaal rond µ met standaardafwijking ơ
Bv. De regressielijn geeft de gemiddelde trend weer van y in relatie tot x. De werkelijke waarden van y
voor een gegeven x zijn normaal verdeeld rond deze gemiddelde trend de standaardafwijking σ bepaalt de spreiding
van deze waarden rond de regressielijn
Meervoudige regressie: voor elke specifieke verzameling van waarden van x=(x1, x2, …. X3) varieert y
normaal rond µ met standaardafwijking ơ
Parsimonie = zo veel mogelijk trachten te verklaren met een zo’n simpel mogelijk model! Bv. zo veel mogelijk
goede predictoren erin steken zodat je een aanzienlijk deel van variabiliteit in data kunt voorspellen Bv. angst voorspellen
van persoon & GEEN rekening houden met parsimonie = erin steken familiale situatie, wat gisteren meegemaakt op
werk, genetische factoren, kleur tapijt, luchtvochtigheid, … DUS R² zou 1 zijn MAAR beter enkel erin steken wat het
belangrijkste is zoals familiale situatie, geslacht, SES en die voorspellen Bv. 80% van variabiliteit in angst
Een residue (de error): de afwijking van de waarden tov de regressierechten Bv. er worden NOOIT perfecte
voorspellingen gemaakt de verschillende parameters schatten geeft een idee over het verband tussen AV en
OV variabele
Voorbeeld: studiesucces voorspellen
aantal observaties (N = 224) Grade Point Average (GPA) met een maximum van 4 en een minimum van
0 (dit willen we voorspellen, onze verklaarde variabele)
Al de observaties moeten gebruikt worden (de volledige data-set)
10
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller Fransbouwer. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $10.69. You're not tied to anything after your purchase.