Randvoorwaarden regressieanalyse (en praktische oplossingen)
1.1 LINEARITEIT
- associaties tussen variabelen vertonen lineair karakter
- … maar er zijn heel wat gevallen waarbij deze associatie door een andere mathematische functie wordt beschreven
→ toepassing van lineair regressiemodel niet langer geschikt
gevaar van ‘curve fitting’: keuze van mathematische functie moet gefundeerd zijn, niet enkel o.b.v. scatterplot
→ een niet-lineaire regressie mag enkel toegepast worden
indien men aan de relevantie van een lineair verband kan twijfelen én er een gefundeerd alternatief is
- a priori: er zijn indicaties dat het verband geen lineair verloop kent
- a posteriori: de lineaire regressie blijkt geen geschikte weerspiegeling van het verband
Hoe detecteren?
1. visuele interpretatie van het scatterplot (subjectief)
2. analyse van de residuen → residuenplot = puntenwolk met de gestandaardiseerde residuen van de lineaire
regressie geplot t.o.v. de geobserveerde waarde van de afhankelijke variabele
- pos.: onderschatting
- neg.: overschatting
1.2 BIJKOMENDE ASSUMPTIES
parametrische toets
= statistische toets waarbij de assumptie wordt gemaakt dat de onderliggende verdeling van de variabelen bekend is
1. normaal verdeelde data (+ hieraan gekoppeld: afwezigheid van uitschieters)
2. homogeniteit van variantie
3. minstens interval data
4. onafhankelijke observaties
1.3 NORMALITEIT
1. visuele interpretatie van het histogram t.o.v. normale verdeling
2. visuele interpretatie van het Q-Q plot
(zet de geobserveerde data uit t.o.v. de verwachte waarde voor elke observatie volgens een bepaalde verdeling)
3. Kolmogorov-Smirnov test
centrale limiet theorie: assumptie van normaliteit bij grote steekproef (min. 30 observaties)
1.4 AFWEZIGHEID UITSCHIETERS (enkel verwijdering van onjuiste metingen)
1. visueel via boxplot
2. toepassen vuistregel > 3 standaardafwijkingen van het gem.
1.5 HOMOGENITEIT VAN VARIANTIE
homoscedasticiteit = variantie blijft gelijk over de volledige range van de variabele
visuele interpretatie van plots (ZPRED t.o.v. ZRESID): random puntenwolk → homoscedasticiteit
1.6 OPLOSSINGEN
specifiek voor uitschieters lineariteit, normaliteit, homoscedasticiteit
1. negeer uitschieters 1. data transformeren
2. observatie uit de dataset verwijderen 2. niet-parametrische statistieken
3. variabele uit de dataset verwijderen
4. ‘imputing values’
5. transformeren
,PCA en factoranalyse
beslissingen werkwijze
2.1 MULTICOLLINEARITEIT
onderling niet gecorreleerd
- ‘Variance inflation factor’ (VIF) = 1 / tolerantie (= proportie variantie in een onafhankelijke variabele die niet
verklaard wordt door de andere onafhankelijke variabelen)
- vuistregel: VIF > 5 → duidt op multicollineariteit
- oplossing: 1 van de hoog gecorreleerde variabelen verwijderen o.b.v. onderliggende processen/theorieën
en de grootte van de VIF → enkel aan te raden indien het gaat om een beperkt aantal onafhankelijke variabelen
2.2 OPLOSSING 2: FACTORANALYSE
multivariate analysetechniek die gebruikt wordt om een ‘grote’ set geobserveerde variabelen te reduceren
tot een ‘kleinere’ set van nieuwe variabelen (= factoren) die zo veel mogelijk van de originele informatie bevat
2.3 FACTORANALYSE: BASISPRINCIPE
- assen x1, x2, x3 = originele variabelen
- ellips = voorstelling van de nieuwe factoren
- langste as van de ellips = 1e nieuwe factor
- korte as van de ellips = 2e nieuwe factor
- assen staan loodrecht op elkaar → nieuwe factoren onderling niet gecorreleerd
- factoren = lineaire combinatie van de oorspronkelijke geobserveerde variabelen en de wegingscoëfficiënten
, 2.4 EXTRACTIE VAN FACTOREN
aantal factoren/componenten
1. Kaiser-criterium: ~ eigenwaarde λ > 1
λ = kwadraat van de standaardafwijking van de component
→ hoeveelheid variantie van de oorspronkelijke variabelen die verklaard wordt door deze component
λ > 1: component verklaart meer variantie dan de oorspronkelijke variabele
λ < 1: component verklaart minder variantie dan de oorspronkelijke variabele
2. screeplot → knikpunt/elleboog
3. ~ min. 75% verklaarde variantie (cum.) → ∑ (alle eigenwaarden) = aantal originele variabelen
4. interpretatie factor/componentladingen
componentlading = correlatie tussen de originele variabele en de nieuwe component
→ ‘belangrijke’ ladingen: vaak wordt cut-off ingesteld op 0,3
→ per component: ∑ (ladingen)² = eigenwaarde
componentscore = score voor elke observatie op de nieuwe componenten
communaliteit
= deel van de variantie in de oorspronkelijke variabele dat verklaard wordt door alle componenten samen
= ∑ (lading van de oorspronkelijke variabele op elke component)²
rotatie
orthogonaal: totale % verklaarde variantie blijft hetzelfde, maar wordt iets anders verdeeld over de factoren
oblique: % verklaarde variantie per factor kan NIET langer bepaald worden
omdat de factoren gecorreleerd zijn met elkaar (en dus verklaarde variantie “delen” met elkaar)
2.6 BETROUWBAARHEID
1. Split-half methode: split de database in 2 random helften, doe de factoranalyse voor beide helften
en bereken de factorscores, en tenslotte de correlatie tussen beide sets van factorscores
2. Cronbach’s Alpha: split de database in alle mogelijke helften, bereken telkens de factorscores,
vervolgens de correlaties en uiteindelijk de gemiddelde correlatie voor alle mogelijke ‘splits’ → α > 0,7
Voordelen van het kopen van samenvattingen bij Stuvia op een rij:
√ Verzekerd van kwaliteit door reviews
Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!
Snel en makkelijk kopen
Je betaalt supersnel en eenmalig met iDeal, Bancontact of creditcard voor de samenvatting. Zonder lidmaatschap.
Focus op de essentie
Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!
Veelgestelde vragen
Wat krijg ik als ik dit document koop?
Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.
Tevredenheidsgarantie: hoe werkt dat?
Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.
Van wie koop ik deze samenvatting?
Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper annadeckmyn. Stuvia faciliteert de betaling aan de verkoper.
Zit ik meteen vast aan een abonnement?
Nee, je koopt alleen deze samenvatting voor €7,16. Je zit daarna nergens aan vast.