Samenvatting voor het vak Multivariate data-analyse, dat gegeven wordt in 3e ba psychologie. Dit gaat over de theorie en bevat geen info over de oefeningen (SPSS en R). Ik werk met puntjes en alles mooi per hoofdstuk. Alle formules staan ook verwerkt in de samenvatting om alles zo duidelijk mogelij...
1. Beschrijvende data-analyse
1.1 Inductieve statistiek
We nemen een steekproef, want we kunnen niet iedereen onderzoeken
We kunnen die steekproef gaan beschrijven, wat leidt tot uitspraken over de steekproef
We willen uitspraken kunnen veralgemenen naar de algemene populate inducte
o Een manier om van steekproef naar populate te gaan, is via schaten
we hebben geen idee vd parameters vd populate (bv: gemiddelde)
We selecteren een random steekproef en berekenen daarvan de
steekproefgrootheid (moet een goede schater zijn voor de populate)
o Een andere manier om van steekproef naar populate te gaan, is via toetsen
we hebben al een idee vd parameters vd populate hhpothese
We testen of de hhpothese klopt: we berekeken de steekproefgrootheid
vd steekproef met een zekere betrouwbaarheid (t-toets) en kijken of deze
signifcant verschillend van wat we verwachten
Theorie hhpothese steekproef steekproefgrootheden berekenen
Steekproefgrootheid: maat gebasseerd op de gegevens vd steekproef (bv: gem)
o Dit is een toevalsvariabele (want bij iedere steekproef is deze anders) met een
bepaalde verdeling steekproefverdeling
Frequenteverdeling vd uitkomsten vd steekproef
Empirisch en is gekend
o Als er steekproefgrootheden berekend worden van verschillende steekproeven
heef dit een andere verdeling steekproevenverdeling
Kansverdeling van alle mogelijke waarden die een steekproefgrootheid
kan aannemen
Theoretsch en moet men benaderen
÷ s ÷ o Als men herhaaldelijk toevallige steekproeven met groote n trekt uit een
N ÷ µ, ÷
÷ n ÷ normaal verdeelde populate met gemiddelde m en standaardafwijking s dan
is de steekproeven-verdeling vh steekproefgemiddelde ook normaal verdeeld
Centrale limietstelling: als men herhaaldelijk toevallige steekproeven met groote n trekt uit
een willekeurig verdeelde populate met gemiddelde m en standaardafwijking s en
indien n voldoende groot (vuistregel: n ³30) is, dan benadert de steekproevenverdeling vh
steekproefgemiddelde een normaalverdeling
Notates STEEKPROEF POPULATIE
Steekproefgrootheid Parameter
X Rekenkundig gemiddelde m
s Standaarddeviate s
P Proporte p
n Aantal analhse eenheden N
1
,1.2 Grafsch verkennen van data
Histogram: geef info over de normaliteit vd verdeling
Stam/blad diagram: geef info over de werkelijke waarden vd waarnemingen
Box plot: geef info over de posite, spreiding en shmmetrie
1.3 Analyse van ontbrekende data (missing data)
Missing data: ontbrekende waarden voor 1 of meer variabelen
Oorzaken
o Onafhankelijk vd respondent
Deel vd procedure: vragen enkel voor rokers die niet ingevuld moeten
worden door niet-rokers
Codeerfouten: de onderzoeker maakt fouten bij het invullen vd data
o Afhankelijk vd respondent
Kijk altjd naar de omvang: gaat het om veel of weinig missing data
Maak een analhse vh profel vd missing data: is er shstematek of is het random
Vraag altjd aan respondenten die iets niet invullen, waarom ze dit
niet invullen
Impact van missing data
o Praktsche impact
Leidt tot een reducte vd steekproefgroote
Listwise deleton: elke proefpersoon die 1 ontbrekende waarde
heef wordt uit de steekproef gesmeten wordt niet meer mee
verder gewerkt
Indien er te veel missing data zijn, moet je N vergroten of remediëren
o Non-random missingness ( shstematek in de missing data)
Leidt tot een bias en dus foute uitspraken
Specifeke groepen worden uitgesloten uit de analhse
Merk je pas op als je missing data hebt bestudeerd
o Waarom zijn data missing? (bv: non-respons)
Stap 1: bepaal het soort missing data dit bepaald de juiste remedie
o Verwaarloosbare missing data
verwacht, deel vd procedure, toegelaten
missingness random
Data van individuen die niet in de steekproef ziten
Skip-patronen in design (bv: “Rookt u? Zo neen, ga naar item x”)
Censored data: niet beschikbaar (bv: sterfdatum)
Hierbij moet je niet remediëren
o Niet-verwaarloosbare missing data
Gekende niet-verwaarloosbare missing data
te wijten aan procedurele factoren
weinig controle over
Codeerfouten, fouten bij ingeven data
Vragenlijst niet volledig ingevuld (bv: tjdsgebrek)
Sterfe respondent
Onbekende niet-verwaarloosbare missing data
2
, moeilijker op te sporen/remediëren
gerelateerd aan de respondent
Weigering “gevoelige” items, “geen mening”
Stap 2: hoeveel data is missing?
o Indien omvang zeer klein is
< 10% per case
Voldoende cases zonder missing
Geen non-randomness
Dit heef geen efect op de resultaten en elke remedie is goed
o Indien de omvang groot is randomness (toeval) onderzoeken
Stap 3: toeval in missing data onderzoeken
o Missing completelh at random (MCAR)
Cases met missing data verschillen niet vd cases zonder missing data
Elke remedie is goed
o Missing at random (MAR)
Binnen de subgroepen zijn de missing data random, maar er zijn
verschillen tussen de groepen onderzoeken!
o Hoe nagaan?
Visuele inspecte (kleine datasets)
Diagnostsche tests
Cases mét missing voor variabele Y vergelijken met cases zonder
missing op Y: verschillen ze op andere variabelen? (bv: t-toets)
Recoding: geldige respons 1 ; missing 0 en vervolgens correlate
berekenen
Overall test for randomness: MCAR?
Stap 4: omgaan met missing data
o VERMIJDEN!!! (bv: check vragenlijsten, wees aandachtg bij coderen, …)
o Standaard listwise deleton (enkel complete cases)
o Cases en/of variabelen verwijderen (als random)
o MAR of MCAR: Imputate (missing data vervangen door iets anders)
Alle beschikbare informate gebruiken (pairwise deleton)
De persoon alleen niet gebruiken in de analhse bij variabelen die
hij/zij niet heef ingevuld, verder wel gewoon gebruiken
Aanvullen van ontbrekende data: vervangende (vergelijkbare) cases bij
non-response (bv: gemiddelde, geschate waarde door regressie, …)
1.4 Outliers
buitenbeentjes, uitbijters (> 1,5 interkwartel onder P25)
Duidelijk anders dan de andere observates
Kunnen grote invloed hebben op de analhse en de interpretate
Impact: hoe representatef is outlier voor de populate?
o Praktsche impact: gemiddelde is zeer gevoelig voor extreme scores
Behouden of verwijderen hangt af vd onderzoeksvraag steeds grondig afwegen
o Bv: als je het globale beeld ve aandoening wilt onderzoeken, dan zijn die outliers
zeer belangrijk en zullen deze de data (bv: gemiddelde) veranderen
3
, o Bv: als je op zoek bent naar thpering van subthpes ve aandoening, hebben
outliers niet zo veel efect op de data
Detecte
1.5 Assumpties: voorwaarden om multivariate analyses te
mogen uitvoeren
Normaliteit
o Thpisch gevormde curve, shmmetrisch rond het gemiddelde
o Enkel voor contnue (“metric”) variabelen
Indien de afwijking vd normaalverdeling voldoende groot is, zijn alle
statstsche tests ongeldig, omdat de normaliteit vereist is om F en t-
statstiekin te kunnen gebruiken
o Afwijkende vormen
Kurtosis: gepiektheid of platheid (hoogte) tov de normaalverdeling (NVD)
Scheefheid (skewness): balans vd distribute
Indien normaalverdeeld zijn beiden 0
o De rol van N
Hoe groter de sample, hoe kleiner het efect van niet-normaalverdeeldheid
N < 30 grote impact op resultaten
N > 200 impact verwaarloosbaar
Conclusie: minder zorgen maken bij grote sample
o Diagnose
Skewness/kurtosis bekijken
4
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller saskiabruyninckx. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $5.97. You're not tied to anything after your purchase.