Randvoorwaarden regressieanalyse (en praktische oplossingen)
1.1 LINEARITEIT
- associaties tussen variabelen vertonen lineair karakter
- … maar er zijn heel wat gevallen waarbij deze associatie door een andere mathematische functie wordt beschreven
→ toepassing van lineair regressiemodel niet langer geschikt
gevaar van ‘curve fitting’: keuze van mathematische functie moet gefundeerd zijn, niet enkel o.b.v. scatterplot
→ een niet-lineaire regressie mag enkel toegepast worden
indien men aan de relevantie van een lineair verband kan twijfelen én er een gefundeerd alternatief is
- a priori: er zijn indicaties dat het verband geen lineair verloop kent
- a posteriori: de lineaire regressie blijkt geen geschikte weerspiegeling van het verband
Hoe detecteren?
1. visuele interpretatie van het scatterplot (subjectief)
2. analyse van de residuen → residuenplot = puntenwolk met de gestandaardiseerde residuen van de lineaire
regressie geplot t.o.v. de geobserveerde waarde van de afhankelijke variabele
- pos.: onderschatting
- neg.: overschatting
1.2 BIJKOMENDE ASSUMPTIES
parametrische toets
= statistische toets waarbij de assumptie wordt gemaakt dat de onderliggende verdeling van de variabelen bekend is
1. normaal verdeelde data (+ hieraan gekoppeld: afwezigheid van uitschieters)
2. homogeniteit van variantie
3. minstens interval data
4. onafhankelijke observaties
1.3 NORMALITEIT
1. visuele interpretatie van het histogram t.o.v. normale verdeling
2. visuele interpretatie van het Q-Q plot
(zet de geobserveerde data uit t.o.v. de verwachte waarde voor elke observatie volgens een bepaalde verdeling)
3. Kolmogorov-Smirnov test
centrale limiet theorie: assumptie van normaliteit bij grote steekproef (min. 30 observaties)
1.4 AFWEZIGHEID UITSCHIETERS (enkel verwijdering van onjuiste metingen)
1. visueel via boxplot
2. toepassen vuistregel > 3 standaardafwijkingen van het gem.
1.5 HOMOGENITEIT VAN VARIANTIE
homoscedasticiteit = variantie blijft gelijk over de volledige range van de variabele
visuele interpretatie van plots (ZPRED t.o.v. ZRESID): random puntenwolk → homoscedasticiteit
1.6 OPLOSSINGEN
specifiek voor uitschieters lineariteit, normaliteit, homoscedasticiteit
1. negeer uitschieters 1. data transformeren
2. observatie uit de dataset verwijderen 2. niet-parametrische statistieken
3. variabele uit de dataset verwijderen
4. ‘imputing values’
5. transformeren
,PCA en factoranalyse
beslissingen werkwijze
2.1 MULTICOLLINEARITEIT
onderling niet gecorreleerd
- ‘Variance inflation factor’ (VIF) = 1 / tolerantie (= proportie variantie in een onafhankelijke variabele die niet
verklaard wordt door de andere onafhankelijke variabelen)
- vuistregel: VIF > 5 → duidt op multicollineariteit
- oplossing: 1 van de hoog gecorreleerde variabelen verwijderen o.b.v. onderliggende processen/theorieën
en de grootte van de VIF → enkel aan te raden indien het gaat om een beperkt aantal onafhankelijke variabelen
2.2 OPLOSSING 2: FACTORANALYSE
multivariate analysetechniek die gebruikt wordt om een ‘grote’ set geobserveerde variabelen te reduceren
tot een ‘kleinere’ set van nieuwe variabelen (= factoren) die zo veel mogelijk van de originele informatie bevat
2.3 FACTORANALYSE: BASISPRINCIPE
- assen x1, x2, x3 = originele variabelen
- ellips = voorstelling van de nieuwe factoren
- langste as van de ellips = 1e nieuwe factor
- korte as van de ellips = 2e nieuwe factor
- assen staan loodrecht op elkaar → nieuwe factoren onderling niet gecorreleerd
- factoren = lineaire combinatie van de oorspronkelijke geobserveerde variabelen en de wegingscoëfficiënten
, 2.4 EXTRACTIE VAN FACTOREN
aantal factoren/componenten
1. Kaiser-criterium: ~ eigenwaarde λ > 1
λ = kwadraat van de standaardafwijking van de component
→ hoeveelheid variantie van de oorspronkelijke variabelen die verklaard wordt door deze component
λ > 1: component verklaart meer variantie dan de oorspronkelijke variabele
λ < 1: component verklaart minder variantie dan de oorspronkelijke variabele
2. screeplot → knikpunt/elleboog
3. ~ min. 75% verklaarde variantie (cum.) → ∑ (alle eigenwaarden) = aantal originele variabelen
4. interpretatie factor/componentladingen
componentlading = correlatie tussen de originele variabele en de nieuwe component
→ ‘belangrijke’ ladingen: vaak wordt cut-off ingesteld op 0,3
→ per component: ∑ (ladingen)² = eigenwaarde
componentscore = score voor elke observatie op de nieuwe componenten
communaliteit
= deel van de variantie in de oorspronkelijke variabele dat verklaard wordt door alle componenten samen
= ∑ (lading van de oorspronkelijke variabele op elke component)²
rotatie
orthogonaal: totale % verklaarde variantie blijft hetzelfde, maar wordt iets anders verdeeld over de factoren
oblique: % verklaarde variantie per factor kan NIET langer bepaald worden
omdat de factoren gecorreleerd zijn met elkaar (en dus verklaarde variantie “delen” met elkaar)
2.6 BETROUWBAARHEID
1. Split-half methode: split de database in 2 random helften, doe de factoranalyse voor beide helften
en bereken de factorscores, en tenslotte de correlatie tussen beide sets van factorscores
2. Cronbach’s Alpha: split de database in alle mogelijke helften, bereken telkens de factorscores,
vervolgens de correlaties en uiteindelijk de gemiddelde correlatie voor alle mogelijke ‘splits’ → α > 0,7
Les avantages d'acheter des résumés chez Stuvia:
Qualité garantie par les avis des clients
Les clients de Stuvia ont évalués plus de 700 000 résumés. C'est comme ça que vous savez que vous achetez les meilleurs documents.
L’achat facile et rapide
Vous pouvez payer rapidement avec iDeal, carte de crédit ou Stuvia-crédit pour les résumés. Il n'y a pas d'adhésion nécessaire.
Focus sur l’essentiel
Vos camarades écrivent eux-mêmes les notes d’étude, c’est pourquoi les documents sont toujours fiables et à jour. Cela garantit que vous arrivez rapidement au coeur du matériel.
Foire aux questions
Qu'est-ce que j'obtiens en achetant ce document ?
Vous obtenez un PDF, disponible immédiatement après votre achat. Le document acheté est accessible à tout moment, n'importe où et indéfiniment via votre profil.
Garantie de remboursement : comment ça marche ?
Notre garantie de satisfaction garantit que vous trouverez toujours un document d'étude qui vous convient. Vous remplissez un formulaire et notre équipe du service client s'occupe du reste.
Auprès de qui est-ce que j'achète ce résumé ?
Stuvia est une place de marché. Alors, vous n'achetez donc pas ce document chez nous, mais auprès du vendeur annadeckmyn. Stuvia facilite les paiements au vendeur.
Est-ce que j'aurai un abonnement?
Non, vous n'achetez ce résumé que pour €7,16. Vous n'êtes lié à rien après votre achat.