Samenvatting voor het vak Multivariate Data Analyse. De samenvatting is van de teksten van Peter de Heus in het Exercise boek van MVDA. De samenvatting bevat de belangrijkste informatie, dus kan worden gebruikt als hulpmiddel tijdens het studeren om een goed overzicht te hebben.
Samenvatting Multivariate Data Analyse
Multiple regression analysis (MRA)
Twee of meer interval variabelen. Onderzoeksvraag: hoe kunnen we een van deze variabelen (de
afhankelijke variabele Y) voorspellen en/of verklaren vanuit de andere variabelen (de onafhankelijke
variabelen X1 tot Xk) zo nauwkeurig mogelijk?
1. Wanneer en waarom een regressie analyse?
Als er twee of meer interval variabelen zijn, kan men de relaties tussen deze variabelen weergeven
door de Pearson correlaties te berekenen. Dit geeft twee soorten informatie:
1) Sign: een positieve correlatie als de ene variabele toeneemt, neemt de andere ook toe.
Tegenovergestelde van negatieve correlatie.
2) Strength (of effect size): hoe verder de correlatie afwijkt van 0, hoe sterker de relatie. De
gekwadrateerde correlatie indiceert de proportie van gedeelde variantie van de twee
variabelen.
Hoofdverschil tussen een simpele regressie analyse en een Pearson correlatie: regressie is
asymmetrisch X uit Y voorspellen geeft een andere regressie vergelijking dan Y vanuit X.
2. Simpele regressie analyse
Simpele regressie vergelijking: Y = b0 + b1X + e
- Y is de afhankelijke variabele.
- X is de onafhankelijke variabele.
- b0 is het intercept.
- b1 is het regressiegewicht.
- e is de error.
3. Regressie richting het gemiddelde
Gestandaardiseerde regressie vergelijking: Z Y = βZX + eZ. De formule voor β is:
Omdat de waarde van de correlatie altijd tussen de -1 en +1 zit, is de
voorspelde waarde ZY altijd dichter bij het gemiddelde dan de corresponderende waarde van
predictor Zx.
4. Multipele regressie analyse
Predictie en/of causale verklaring kan ook belangrijk
zijn in zaken met meer dan twee variabelen. Dan
wordt de volgende algemene formule gebruikt:
Multipele regressie analyse geeft drie belangrijke informatie:
1) Optimale predictie van Y van een combinatie van X variabelen.
2) Hoe goed is de algehele regressie?
3) Hoe goed is ieder afzonderlijke predictor?
Een multipele correlatie ligt altijd tussen de 0 en 1, het kan niet negatief zijn. Grotere R 2 betekent
betere predictie.
Formule van adjusted R2:
De afname van R2 is sterker voor een kleine sample grootte (N) en voor een hoger aantal variabelen
(k).
Regressiegewichten zijn altijd partial regressiegewichten. Dit betekent dat ze alleen van toepassing
zijn zolang alle variabelen opgenomen zijn in de vergelijking, zolang voor de effecten van alle andere
variabelen statistisch wordt gecorrigeerd.
, In deze figuur:
- a + b + c = de totale proportie van Y variantie verklaard door de twee
predictoren bij elkaar. Dit is gelijk aan R 2.
- Error variantie is gelijk aan 1 – R2.
- De gebieden a en b representeren gekwadrateerde semi-partial
correlaties van X1 en X2, wat correspondeert met de uniek verklaarde
contributies van X1 en X2.
Twee soorten testen:
1) F test: om te testen of de totale bijdrage van de predictoren verschilt van nul.
2) t test: om te testen of de unieke bijdrage van iedere predictor verschilt van nul.
De volgende nulhypothese wordt gebruikt bij een F test: H 0 : b1 = b2 = · · · = bk = 0
5. Assumpties en ze checken
De meest belangrijke assumpties:
1) Zowel de onafhankelijke (X) als de afhankelijke (Y) variabelen hebben interval meetniveau.
2) Er is een lineaire relatie tussen X en Y.
3) De residuen hebben (a) een normale verdeling, (b) dezelfde varianties voor alle waardes van
de lineaire combinatie van X en (c) zijn compleet onafhankelijk van elkaar.
Assumpties checken:
1) Interval meetniveau: onmogelijk om te checken.
2) Lineaire relaties: met een standaard lineaire regressie analyse.
3) Assumpties betreft errors: (3a) zolang de sample grootte groot genoeg is, is het goed
robuust tegen normaliteit assumptie. (3b) homoscedasticiteit. (3c) onafhankelijkheid van
errors.
6. Multicollineariteit en uitbijters
Uitbijters zijn personen waarvan de geobserveerde Y waardes onevenredig afwijken van de
voorspelde Y waardes. Andere definitie: een participant waarvan de error term meer dan drie
standaarddeviaties boven of onder nul is.
Multicollineariteit: als de correlaties tussen de variabelen of als de lineaire combinaties van deze
variabelen heel hoog worden.
9. Regressie analyse in SPSS
De volgende stappen doorlopen:
1) Assumpties en uitbijters checken.
2) De multipele correlatie en alles wat daarbij hoort interpreteren.
3) De regressiegewichten interpreteren.
Analysis of variance (ANOVA)
ANOVA en meetniveaus:
Onafhankelijke variabele(n) (X): een of meer nominale variabelen.
Afhankelijke variabele (Y): interval variabele.
1. Eén-weg ANOVA: het model en de F test
De nulhypothese: H0 : µ1 = µ2 = · · · = µk
De nulhypothese kan worden getest met een F test.
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller lauraalissa. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $4.32. You're not tied to anything after your purchase.