Samenvatting voor het vak Multivariate data-analyse, dat gegeven wordt in 3e ba psychologie. Dit gaat over de theorie en bevat geen info over de oefeningen (SPSS en R). Ik werk met puntjes en alles mooi per hoofdstuk. Alle formules staan ook verwerkt in de samenvatting om alles zo duidelijk mogelij...
1. Beschrijvende data-analyse
1.1 Inductieve statistiek
We nemen een steekproef, want we kunnen niet iedereen onderzoeken
We kunnen die steekproef gaan beschrijven, wat leidt tot uitspraken over de steekproef
We willen uitspraken kunnen veralgemenen naar de algemene populate inducte
o Een manier om van steekproef naar populate te gaan, is via schaten
we hebben geen idee vd parameters vd populate (bv: gemiddelde)
We selecteren een random steekproef en berekenen daarvan de
steekproefgrootheid (moet een goede schater zijn voor de populate)
o Een andere manier om van steekproef naar populate te gaan, is via toetsen
we hebben al een idee vd parameters vd populate hhpothese
We testen of de hhpothese klopt: we berekeken de steekproefgrootheid
vd steekproef met een zekere betrouwbaarheid (t-toets) en kijken of deze
signifcant verschillend van wat we verwachten
Theorie hhpothese steekproef steekproefgrootheden berekenen
Steekproefgrootheid: maat gebasseerd op de gegevens vd steekproef (bv: gem)
o Dit is een toevalsvariabele (want bij iedere steekproef is deze anders) met een
bepaalde verdeling steekproefverdeling
Frequenteverdeling vd uitkomsten vd steekproef
Empirisch en is gekend
o Als er steekproefgrootheden berekend worden van verschillende steekproeven
heef dit een andere verdeling steekproevenverdeling
Kansverdeling van alle mogelijke waarden die een steekproefgrootheid
kan aannemen
Theoretsch en moet men benaderen
÷ s ÷ o Als men herhaaldelijk toevallige steekproeven met groote n trekt uit een
N ÷ µ, ÷
÷ n ÷ normaal verdeelde populate met gemiddelde m en standaardafwijking s dan
is de steekproeven-verdeling vh steekproefgemiddelde ook normaal verdeeld
Centrale limietstelling: als men herhaaldelijk toevallige steekproeven met groote n trekt uit
een willekeurig verdeelde populate met gemiddelde m en standaardafwijking s en
indien n voldoende groot (vuistregel: n ³30) is, dan benadert de steekproevenverdeling vh
steekproefgemiddelde een normaalverdeling
Notates STEEKPROEF POPULATIE
Steekproefgrootheid Parameter
X Rekenkundig gemiddelde m
s Standaarddeviate s
P Proporte p
n Aantal analhse eenheden N
1
,1.2 Grafsch verkennen van data
Histogram: geef info over de normaliteit vd verdeling
Stam/blad diagram: geef info over de werkelijke waarden vd waarnemingen
Box plot: geef info over de posite, spreiding en shmmetrie
1.3 Analyse van ontbrekende data (missing data)
Missing data: ontbrekende waarden voor 1 of meer variabelen
Oorzaken
o Onafhankelijk vd respondent
Deel vd procedure: vragen enkel voor rokers die niet ingevuld moeten
worden door niet-rokers
Codeerfouten: de onderzoeker maakt fouten bij het invullen vd data
o Afhankelijk vd respondent
Kijk altjd naar de omvang: gaat het om veel of weinig missing data
Maak een analhse vh profel vd missing data: is er shstematek of is het random
Vraag altjd aan respondenten die iets niet invullen, waarom ze dit
niet invullen
Impact van missing data
o Praktsche impact
Leidt tot een reducte vd steekproefgroote
Listwise deleton: elke proefpersoon die 1 ontbrekende waarde
heef wordt uit de steekproef gesmeten wordt niet meer mee
verder gewerkt
Indien er te veel missing data zijn, moet je N vergroten of remediëren
o Non-random missingness ( shstematek in de missing data)
Leidt tot een bias en dus foute uitspraken
Specifeke groepen worden uitgesloten uit de analhse
Merk je pas op als je missing data hebt bestudeerd
o Waarom zijn data missing? (bv: non-respons)
Stap 1: bepaal het soort missing data dit bepaald de juiste remedie
o Verwaarloosbare missing data
verwacht, deel vd procedure, toegelaten
missingness random
Data van individuen die niet in de steekproef ziten
Skip-patronen in design (bv: “Rookt u? Zo neen, ga naar item x”)
Censored data: niet beschikbaar (bv: sterfdatum)
Hierbij moet je niet remediëren
o Niet-verwaarloosbare missing data
Gekende niet-verwaarloosbare missing data
te wijten aan procedurele factoren
weinig controle over
Codeerfouten, fouten bij ingeven data
Vragenlijst niet volledig ingevuld (bv: tjdsgebrek)
Sterfe respondent
Onbekende niet-verwaarloosbare missing data
2
, moeilijker op te sporen/remediëren
gerelateerd aan de respondent
Weigering “gevoelige” items, “geen mening”
Stap 2: hoeveel data is missing?
o Indien omvang zeer klein is
< 10% per case
Voldoende cases zonder missing
Geen non-randomness
Dit heef geen efect op de resultaten en elke remedie is goed
o Indien de omvang groot is randomness (toeval) onderzoeken
Stap 3: toeval in missing data onderzoeken
o Missing completelh at random (MCAR)
Cases met missing data verschillen niet vd cases zonder missing data
Elke remedie is goed
o Missing at random (MAR)
Binnen de subgroepen zijn de missing data random, maar er zijn
verschillen tussen de groepen onderzoeken!
o Hoe nagaan?
Visuele inspecte (kleine datasets)
Diagnostsche tests
Cases mét missing voor variabele Y vergelijken met cases zonder
missing op Y: verschillen ze op andere variabelen? (bv: t-toets)
Recoding: geldige respons 1 ; missing 0 en vervolgens correlate
berekenen
Overall test for randomness: MCAR?
Stap 4: omgaan met missing data
o VERMIJDEN!!! (bv: check vragenlijsten, wees aandachtg bij coderen, …)
o Standaard listwise deleton (enkel complete cases)
o Cases en/of variabelen verwijderen (als random)
o MAR of MCAR: Imputate (missing data vervangen door iets anders)
Alle beschikbare informate gebruiken (pairwise deleton)
De persoon alleen niet gebruiken in de analhse bij variabelen die
hij/zij niet heef ingevuld, verder wel gewoon gebruiken
Aanvullen van ontbrekende data: vervangende (vergelijkbare) cases bij
non-response (bv: gemiddelde, geschate waarde door regressie, …)
1.4 Outliers
buitenbeentjes, uitbijters (> 1,5 interkwartel onder P25)
Duidelijk anders dan de andere observates
Kunnen grote invloed hebben op de analhse en de interpretate
Impact: hoe representatef is outlier voor de populate?
o Praktsche impact: gemiddelde is zeer gevoelig voor extreme scores
Behouden of verwijderen hangt af vd onderzoeksvraag steeds grondig afwegen
o Bv: als je het globale beeld ve aandoening wilt onderzoeken, dan zijn die outliers
zeer belangrijk en zullen deze de data (bv: gemiddelde) veranderen
3
, o Bv: als je op zoek bent naar thpering van subthpes ve aandoening, hebben
outliers niet zo veel efect op de data
Detecte
1.5 Assumpties: voorwaarden om multivariate analyses te
mogen uitvoeren
Normaliteit
o Thpisch gevormde curve, shmmetrisch rond het gemiddelde
o Enkel voor contnue (“metric”) variabelen
Indien de afwijking vd normaalverdeling voldoende groot is, zijn alle
statstsche tests ongeldig, omdat de normaliteit vereist is om F en t-
statstiekin te kunnen gebruiken
o Afwijkende vormen
Kurtosis: gepiektheid of platheid (hoogte) tov de normaalverdeling (NVD)
Scheefheid (skewness): balans vd distribute
Indien normaalverdeeld zijn beiden 0
o De rol van N
Hoe groter de sample, hoe kleiner het efect van niet-normaalverdeeldheid
N < 30 grote impact op resultaten
N > 200 impact verwaarloosbaar
Conclusie: minder zorgen maken bij grote sample
o Diagnose
Skewness/kurtosis bekijken
4
Les avantages d'acheter des résumés chez Stuvia:
Qualité garantie par les avis des clients
Les clients de Stuvia ont évalués plus de 700 000 résumés. C'est comme ça que vous savez que vous achetez les meilleurs documents.
L’achat facile et rapide
Vous pouvez payer rapidement avec iDeal, carte de crédit ou Stuvia-crédit pour les résumés. Il n'y a pas d'adhésion nécessaire.
Focus sur l’essentiel
Vos camarades écrivent eux-mêmes les notes d’étude, c’est pourquoi les documents sont toujours fiables et à jour. Cela garantit que vous arrivez rapidement au coeur du matériel.
Foire aux questions
Qu'est-ce que j'obtiens en achetant ce document ?
Vous obtenez un PDF, disponible immédiatement après votre achat. Le document acheté est accessible à tout moment, n'importe où et indéfiniment via votre profil.
Garantie de remboursement : comment ça marche ?
Notre garantie de satisfaction garantit que vous trouverez toujours un document d'étude qui vous convient. Vous remplissez un formulaire et notre équipe du service client s'occupe du reste.
Auprès de qui est-ce que j'achète ce résumé ?
Stuvia est une place de marché. Alors, vous n'achetez donc pas ce document chez nous, mais auprès du vendeur saskiabruyninckx. Stuvia facilite les paiements au vendeur.
Est-ce que j'aurai un abonnement?
Non, vous n'achetez ce résumé que pour €5,49. Vous n'êtes lié à rien après votre achat.