Randvoorwaarden regressieanalyse (en praktische oplossingen)
1.1 LINEARITEIT
- associaties tussen variabelen vertonen lineair karakter
- … maar er zijn heel wat gevallen waarbij deze associatie door een andere mathematische functie wordt beschreven
→ toepassing van lineair regressiemodel niet langer geschikt
gevaar van ‘curve fitting’: keuze van mathematische functie moet gefundeerd zijn, niet enkel o.b.v. scatterplot
→ een niet-lineaire regressie mag enkel toegepast worden
indien men aan de relevantie van een lineair verband kan twijfelen én er een gefundeerd alternatief is
- a priori: er zijn indicaties dat het verband geen lineair verloop kent
- a posteriori: de lineaire regressie blijkt geen geschikte weerspiegeling van het verband
Hoe detecteren?
1. visuele interpretatie van het scatterplot (subjectief)
2. analyse van de residuen → residuenplot = puntenwolk met de gestandaardiseerde residuen van de lineaire
regressie geplot t.o.v. de geobserveerde waarde van de afhankelijke variabele
- pos.: onderschatting
- neg.: overschatting
1.2 BIJKOMENDE ASSUMPTIES
parametrische toets
= statistische toets waarbij de assumptie wordt gemaakt dat de onderliggende verdeling van de variabelen bekend is
1. normaal verdeelde data (+ hieraan gekoppeld: afwezigheid van uitschieters)
2. homogeniteit van variantie
3. minstens interval data
4. onafhankelijke observaties
1.3 NORMALITEIT
1. visuele interpretatie van het histogram t.o.v. normale verdeling
2. visuele interpretatie van het Q-Q plot
(zet de geobserveerde data uit t.o.v. de verwachte waarde voor elke observatie volgens een bepaalde verdeling)
3. Kolmogorov-Smirnov test
centrale limiet theorie: assumptie van normaliteit bij grote steekproef (min. 30 observaties)
1.4 AFWEZIGHEID UITSCHIETERS (enkel verwijdering van onjuiste metingen)
1. visueel via boxplot
2. toepassen vuistregel > 3 standaardafwijkingen van het gem.
1.5 HOMOGENITEIT VAN VARIANTIE
homoscedasticiteit = variantie blijft gelijk over de volledige range van de variabele
visuele interpretatie van plots (ZPRED t.o.v. ZRESID): random puntenwolk → homoscedasticiteit
1.6 OPLOSSINGEN
specifiek voor uitschieters lineariteit, normaliteit, homoscedasticiteit
1. negeer uitschieters 1. data transformeren
2. observatie uit de dataset verwijderen 2. niet-parametrische statistieken
3. variabele uit de dataset verwijderen
4. ‘imputing values’
5. transformeren
,PCA en factoranalyse
beslissingen werkwijze
2.1 MULTICOLLINEARITEIT
onderling niet gecorreleerd
- ‘Variance inflation factor’ (VIF) = 1 / tolerantie (= proportie variantie in een onafhankelijke variabele die niet
verklaard wordt door de andere onafhankelijke variabelen)
- vuistregel: VIF > 5 → duidt op multicollineariteit
- oplossing: 1 van de hoog gecorreleerde variabelen verwijderen o.b.v. onderliggende processen/theorieën
en de grootte van de VIF → enkel aan te raden indien het gaat om een beperkt aantal onafhankelijke variabelen
2.2 OPLOSSING 2: FACTORANALYSE
multivariate analysetechniek die gebruikt wordt om een ‘grote’ set geobserveerde variabelen te reduceren
tot een ‘kleinere’ set van nieuwe variabelen (= factoren) die zo veel mogelijk van de originele informatie bevat
2.3 FACTORANALYSE: BASISPRINCIPE
- assen x1, x2, x3 = originele variabelen
- ellips = voorstelling van de nieuwe factoren
- langste as van de ellips = 1e nieuwe factor
- korte as van de ellips = 2e nieuwe factor
- assen staan loodrecht op elkaar → nieuwe factoren onderling niet gecorreleerd
- factoren = lineaire combinatie van de oorspronkelijke geobserveerde variabelen en de wegingscoëfficiënten
, 2.4 EXTRACTIE VAN FACTOREN
aantal factoren/componenten
1. Kaiser-criterium: ~ eigenwaarde λ > 1
λ = kwadraat van de standaardafwijking van de component
→ hoeveelheid variantie van de oorspronkelijke variabelen die verklaard wordt door deze component
λ > 1: component verklaart meer variantie dan de oorspronkelijke variabele
λ < 1: component verklaart minder variantie dan de oorspronkelijke variabele
2. screeplot → knikpunt/elleboog
3. ~ min. 75% verklaarde variantie (cum.) → ∑ (alle eigenwaarden) = aantal originele variabelen
4. interpretatie factor/componentladingen
componentlading = correlatie tussen de originele variabele en de nieuwe component
→ ‘belangrijke’ ladingen: vaak wordt cut-off ingesteld op 0,3
→ per component: ∑ (ladingen)² = eigenwaarde
componentscore = score voor elke observatie op de nieuwe componenten
communaliteit
= deel van de variantie in de oorspronkelijke variabele dat verklaard wordt door alle componenten samen
= ∑ (lading van de oorspronkelijke variabele op elke component)²
rotatie
orthogonaal: totale % verklaarde variantie blijft hetzelfde, maar wordt iets anders verdeeld over de factoren
oblique: % verklaarde variantie per factor kan NIET langer bepaald worden
omdat de factoren gecorreleerd zijn met elkaar (en dus verklaarde variantie “delen” met elkaar)
2.6 BETROUWBAARHEID
1. Split-half methode: split de database in 2 random helften, doe de factoranalyse voor beide helften
en bereken de factorscores, en tenslotte de correlatie tussen beide sets van factorscores
2. Cronbach’s Alpha: split de database in alle mogelijke helften, bereken telkens de factorscores,
vervolgens de correlaties en uiteindelijk de gemiddelde correlatie voor alle mogelijke ‘splits’ → α > 0,7
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller annadeckmyn. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $7.68. You're not tied to anything after your purchase.