STATISTIEK IV: multivariate data-analyse
0. Waarom data-analyse
Data-analyse is noodzakelijk voor psychologen. Het helpt je om:
1) Data te organiseren (grafieken,..)
2) Data te beschrijven (beschrijvende/deductieve statistiek, samenvatten)
3) Interpreteren en uitspraken doen op basis van data (inferentiële/inductieve statistiek, verklaren)
4) Theorieën te verifiëren en aan te passen
1. Inductieve statistiek
Er wordt een uitspraak gedaan over een populatie (bijvoorbeeld de
studenten psychologie). Indien er een uitspraak gedaan wordt, op
basis van data, werd een steekproef getrokken. Uit de steekproef
kan er beschrijvende statistiek gedaan worden (‘Jos en Sara
hebben problemen met slapen die aan de VUB, psychologie
studeren). Er dient inferentiele statistiek toegepast te worden en er
moeten parameters geschat worden indien er uitspraken over de
populatie gedaan willen worden.
Er wordt van steekproef naar populatie geschat (bijvoorbeeld een
gemiddelde van 50). ‘Wat is het gemiddelde van de populatie’
wordt dan bijvoorbeeld geschat. Wanneer er een
populatiegemiddelde is, kan er onderzocht worden of er een
statistisch significant verschil is.
Begrippen: Theorie geeft de mogelijkheid om een hypothese te stellen, vanuit
een hypothese kan er een steekproef genomen worden. Daaruit kunnen er
steekproefgrootheden berekend worden.
o Steekproefgrootheid (statistiek, grootheid): is een maat gebaseerd op
de gegevens van de steekproef (bijvoorbeeld rekenkundig gemiddelde,
proportie..).
o Steekproefgrootheid = toevalsvariabele met een bepaalde verdeling (=
steekproevenverdeling)
Een verdeling van de verschillende gemiddeldes (verdeling van steekproefgrootheden) geeft een steekproevenverdeling.
o SteekproeFverdeling (sample distribution): een frequentieverdeling v/d uitkomsten v/d steekproef (empirisch,
gekend)
o SteekproeVENverdeling (sampling distribution): kansverdeling van alle mogelijke waarden die een
steekproefgrootheid (voor alle mogelijke verschillende steekproeven) kan aannemen (theoretisch, benaderen)
Wanneer men herhaaldelijk toevallige steekproeven
met grootte n trekt uit een normaal verdeelde
populatie met gemiddelde = µ en standaardafwijking =
σ, dan is de steekproevenverdeling van het
steekproefgemiddelde normaal verdeeld
(steekproefgrootheid = Ⴟ).
Centrale limietstelling: wanneer men herhaaldelijk
toevallige steekproeven met grootte n trekt uit een
willekeurig verdeelde populatie met gemiddelde = µ en
standaardafwijking = σ en indien n
voldoende groot (vuistregel: n ≥ 30),
dan benadert de steekproevenverdeling
van het steekproefgemiddelde een
normaalverdeling.
2. Grafisch verkennen van data
1
,Een boxplot geeft informatie over de positie, de spreiding en symmetrie. De vorm van een boxplot ten opzichte v/d
verdeling van de data. De verdeling van de data geeft informatie over welke statistische modellen er gebruikt kunnen
worden.
o Een histogram geeft informatie over de normaliteit van de verdeling.
o Stem en leaf geeft de werkelijke waarden van waarnemingen weer
Hoe data voorstellen wanneer er een bepaalde statistische test afgenomen wordt.
3. Missing data
Missing data zijn ontbrekende waarden voor 1 en/of meerdere variabelen.
o Onafhankelijke van de respondent: procedure (indien ‘nee’, ga naar vraag xxxx), codeerfouten
o Afhankelijk van de respondent: omvang (veel of weinig), analyse van het profiel van missing data (is er systematiek
of random?)
2
,De praktische impact van missing data: reductie v/d steekproefgrootte (indien te weinig data, gaan er niet veel statistische
testen toegepast kunnen worden, indien toegepast worden, gaan ze instabiel zijn). Indien er te veel data mist, kan de
steekproefgrootte (N) vergroot worden (bij testen) of remediëren.
Indien er géén systematiek in zit, zitten we met een bias. Er worden verschillende specifieke groepen uitgesloten uit analyse
(bijvoorbeeld hoge inkomens)
3.1 Analyse missing data
Er kunnen variabele zijn met missing data (kolommen) en er kunnen missing data zijn vanwege de deelnemers (tabellen).
Stap 1: Bepaal het soort missing data
o Verwaarloosbare missing data
o Niet-verwaarloosbare missing data
Gaat de juiste remedie bepalen.
3.1.1 Verwaarloosbare missing data
Iets dat we verwachten, een deel van de procedure, het is niet systematisch (toegelaten). Random missing data genoemd.
1) Data van individuen (observatie-eenheden) die niet in de steekproef zitten
2) Skip-patronen in design
3) Censored data: niet beschikbaar
= Niet remediëren!
3.1.2 Gekende niet-verwaarloosbare missing data
Het is te wijten aan procedurele fouten waar er weinig controle over is. Codeerfouten bij het ingeven van data (zeker indien
met de hand data ingevoerd wordt), vragenlijsten die niet volledig ingevuld geweest zijn (bijvoorbeeld vanwege tijdsgebrek),
indien sterfte v/d respondent en/of weigering ‘gevoelige’ items, ‘geen mening’.
o Onbekende niet-verwaarloosbare MD is moeilijker op te sporen, te remediëren. Het is gerelateerd aan de
respondent.
Stap 2: Hoeveel data mist er?
Indien de omvang zeer klein is (10%), dan is er géén probleem. Er is dan nog voldoende informatie zonder missing data.
Geen non-randomness = geen effect op de resultaten + elke remedie is oké.
Indien de omvang groot is, dan moet de randomness (toeval) onderzocht worden.
Stap 3: Toeval in missing data onderzoeken!
1) Missing completely at random (MCAR): de kans is zeer klein
o Tussen de subgroepen zijn missing data random gelijk
o De kans dat data missing is, is gelijk voor iedereen i/d sample
o De oorzaak van de missing data is onafhankelijk van de data zelf
o Elke remedie is oké, zeer weinig voorkomend
2) Missing at random (MAR) => onderzoeken
o Binnen subgroepen zijn missing data random, maar verschillen tussen groepen
o Missing data zijn afhankelijke van andere variabelen
Bijvoorbeeld studie naar het voorspellen van inkomen op basis van de opleiding
(inkomsgegevens missen bij de groep laagst opgeleiden (MAR)
Inkomensgegevens missen bij de hoogste inkomens/een bepaalde ‘range’ van data ontbreekt
(MNARI)
3
, Missing at random (MAR) betekent dat de ontbrekende waarden
afhankelijk zijn van andere waarden in de gegevens, maar dat de
ontbrekende waarden zelf onafhankelijk zijn v/d ontbrekende
waarden. Dit betekend dat de reden waarom sommige waarden
ontbreken in de gegevens, verband houdt met de waarden die
aanwezig zijn in de gegevens, maar niet met de waarden die
ontbreken.
Stel bijvoorbeeld dat je gegevens hebt over de leeftijd, het
inkomen en het opleidingsniveau van een groep mensen. Als je
leeftijd en inkomen bekend zijn, maar het opleidingsniveau
ontbreekt voor sommige mensen, dan is dit een voorbeeld van
‘missing at random’. Dit is omdat de ontbrekende waarden voor
opleidingsniveau afhankelijk zijn van leeftijd en inkomen, maar
zelf onafhankelijk zijn van het ontbrekende opleidingsniveau.
3.2 Hoe nagaan
Het nagaan van missing data kan aan de hand van het bekijken
van de data (visuele inspectie). Aan de hand van diagnostische
tests door t-toetsen toe te passen, bekijken i/d data set of het
geldige/ongeldige responsen zijn.
o Cases mét missing voor variabele Y vergelijken met
cases zonder missing op Y: verschillen ze op andere
variabelen (bijvoorbeeld t-toets)
o Recoding: geldige respons = 1, missing = 0, vervolgens
correlatie berekenen
o Overall test for randomness: MCAR => theoretisch
Stap 4: Omgaan met missing data
o Trachten te vermijden (bijvoorbeeld check
vragenlijsten, aandachtig bij coderen..)
o Standaard listwise deletion (enkel complete cases)
o Cases en/of variabelen verwijderen (als random)
o MAR of MCAR: imputatie (missing data vervangen)
o Alle beschikbare informatie gebruiken
o Aanvullen van ontbrekende data: vervangende (vergelijkbare) cases (bijvoorbeeld bij non-respons), gemiddelde,
geschatte waarde door regressie…
Het toepassen van een imputatie methoden (kans klein
examenvraag). Een aantal vuistregels om de
imputatiemethoden te gebruiken. Indien 10-20%, dan
zijn er regressiemethoden die toegepast kunnen
worden. Indien meer dan 20%, dan zijn er specifieke
methoden die toegepast kunnen worden.
Regressie-analyse: werken met de kleinste
kwadratensom. Er zijn ook andere manieren om de
regressie modellen te schatten.
4