Samenvatting

Samenvatting Multivariate data-analyse

Name: Samenvatting Multivariate data-analyse
SKU: doc_1132513
Rating: 4.62 (13 reviews)
Author: amkeweyens

13 beoordelingen

1219 keer bekeken 126 keer verkocht

Vak
Multivariate Data-analyse

Instelling
Vrije Universiteit Brussel (VUB)

Volledige samenvatting van de hoorcolleges voor het vak Multivariate Data-Analyse. Lesnotities en powerpoint van alle hoofdstukken werden hier in verwerkt!

[Meer zien]

Voorbeeld 10 van de 301 pagina's

Bekijk voorbeeld

Geupload op 26 mei 2021
Aantal pagina's 301
Geschreven in 2020/2021
Type Samenvatting

13 beoordelingen

Door: jandeblock • 9 maanden geleden

Door: aliciamichaux • 10 maanden geleden

Door: ugzdafina • 1 jaar geleden

Door: jennavanisterdael • 6 maanden geleden

Door: angelasubandrio • 1 jaar geleden

Door: celinstudent • 2 jaar geleden

Door: julesjeuniaux • 2 jaar geleden

Bekijk meer beoordelingen

Volgen

amkeweyens Lid sinds 6 jaar 617 documenten verkocht

Multivariate data-analyse

HOOFDSTUK 1: Inleiding

1. Waarom data-analyse?

- Data- analyse is noodzakelijk voor psychologen
➔ Cf. data-analyse in de media: in de media zien we veel data. Achter veel uitspraken in
de media zit data-analyse (bv werkloosheid met 20% gestegen).
➔ Begrip van en kritische instelling tegenover vakliteratuur (zeker in de psychologie
moeten we voorzichtig zijn tov alles wat in de vakliteratuur staat want we zitten
momenteel in de replicatie crisis).
➔ Om zelf data te kunnen verzamelen/analyseren (bv. HRM psychologen kunnen
werknemers bevragen omtrent hun jobtevredenheid. De antwoorden daarvan moeten
ze dan statistisch analyseren om uitspraken te kunnen doen).

- In veel artikels die je online leest zie je dat er impliciet data-analyse verwerkt is:
➔ Bv. bedrijfsdata vaakst gestolen door jonge mannen: om deze uitspraak te kunnen
doen is data verzameld, hierop zijn statistische tests uitgevoerd.
➔ Bv. pijnstillers bevatten gevaarlijk veel zout: op hoeveel mensen is dit getest? Welke
kritische waarden zijn overschreden?...
➔ Bv. de dutter en het namiddagtype: men is er statistisch achter gekomen dat er
verschillende chronotypes bestaan.
➔ In al deze onderzoeken is statistiek een tool!

1

,- Rapportage in wetenschappelijke artikels
➔ Mooi presenteren van data is zeer belangrijk! Er bestaan miljoenen wetenschappelijke
artikels. Dit betekent dat je nooit alle artikels zal kunnen lezen over het onderwerp
waarin je geïnteresseerd bent. Je zal dus een keuze moeten maken en meestal leest
men de titel, leest men vluchtig het abstract en kijkt men naar de beeldjes (= een
correcte weerspiegeling van uw data-analyse op een grafische wijze).
➔ Wat je hieronder ziet is iets wat je letterlijk kan vinden in een wetenschappelijk
artikel. Je ziet veel lettertjes, symbooltjes,... die je niets zullen zeggen als je niks kent
van statistiek. Als dit in een artikel zou staan waarmee je mensen probeert te
overtuigen om zich te laten vaccineren, dan zullen die mensen hier niks van snappen
en dus ook niet overtuigd zijn. Als psycholoog leer je wat al die letters, symbolen,
cijfers,... betekenen en dan kan je ook aan anderen uitleggen waarom dit overtuigend
bewijs is voor iets.

- Data-analyse helpt psychologen dus om:
➔ Data te organiseren (grafieken,...) => dataset goed zetten om er bepaalde statistische
analyses op te kunnen doen. Als je dit niet doet, krijg je foute cijfers en zal je
inferentie dus ook fout zijn. Dan krijg je foute conclusies!
➔ Data te beschrijven (beschrijvende/deductieve statistiek, samenvatten).
➔ Interpreteren en uitspraken doen op basis van data (inferentiële/inductieve
statistiek, verklaren).

2

,2. Inductieve statistiek

- Wat is inductieve statistiek?
➔ We zijn geïnteresseerd in een bepaalde populatie. Die kunnen we niet volledig
observeren dus we nemen daarvan een aselecte steekproef.
➔ Op die steekproef kunnen we beschrijvende statistiek toepassen en daardoor kunnen
we ook specifieke uitspraken doen over die groep. Door inferentiële/inductieve
statistiek te gebruiken kan je obv die specifieke uitspraken, ook uitspraken doen over
de populatie. Je wil je uitspraak over de steekproef veralgemenen naar de populatie.
Bij inductieve statistiek wil je dus algemene uitspraken doen (bv. je bevraagt 20
studenten uit de eerste bachelor en je merkt dat 2 daarvan problemen hebben met
plannen. Dit is een voorbeeld van beschrijvende statistiek. Op basis van deze
steekproef kunnen we dan besluiten 10% van de studenten in de 1e bach problemen
hebben met planning. Dit is inductieve statistiek).

- Van steekproef naar populatie
➔ Om van de steekproef naar de populatie te gaan, zullen we een aantal variabelen
moeten schatten (bv. komt het gemiddelde van mijn steekproef overeen met het
populatie gemiddelde µ).

3

, ➔ Bv. je neemt een steekproef en berekent een gemiddelde 𝑥van 50. Dit is iets
beschrijvend en je wil weten of dit overeenkomt met het populatiegemiddelde. Door
de literatuur te bekijken, heb je de hypothese dat het populatiegemiddelde µ= 80. Dan
is het de bedoeling dat je gaat kijken of er een significant verschil is tussen je
populatiegemiddelde en het gemiddelde dat je getrokken hebt (zie foto hieronder).

- Theorie => hypothese => steekproef => steekproefgrootheden
➔ Bij inductieve statistiek vertrekken we vaak vanuit een bepaalde theorie. Vanuit die
theorie stellen we een hypothese op. We trekken een steekproef uit de populatie,
berekenen steekproefgrootheden (= de dingen die je kan berekenen obv steekproef
gegevens). Elke keer als we een nieuwe steekproef trekken zullen deze
steekproefgrootheden anders zijn (bv. in elke steekproef zal het gemiddelde, sd,...
anders zijn). En kunnen we verder onze theorie uitbouwen. Steekproefgrootheden zijn
toevalsvariabelen en hebben een steekproevenverdeling.

- Steekproefgrootheden:
➔ Bereken je om via inductie uitspraken te kunnen doen over de populatie (en zo
eventueel uw theorie opnieuw aan te passen).
➔ Een steekproefgrootheid wordt ook een statistiek of een statistische grootheid
genoemd: een maat gebaseerd op de gegevens van de steekproef (bv. rekenkundig
gemiddelde, proportie,...).
➔ Steekproefgrootheid = toevalsvariabele met een bepaalde verdeling (een
steekproevenverdeling):
➢ Iedere onderzoeker trekt een andere steekproef dus het gemiddelde, de sd, …
die elke onderzoeker krijgt zal anders zijn. Daarom spreken we van een
steekproevenverdeling.
➢ Stel: random steekproef 1 en we berekenen 𝑆1, random steekproef 2 (zelfde n)
en we berekenen 𝑆2, etc tot 𝑆𝑛: 𝑆1, 𝑆2,𝑆3,𝑆4,...,𝑆𝑛
➢ De verdeling van deze steekproefgrootheden = steekproevenverdeling.

4

,- Steekproefverdeling vs steekproevenverdeling
➔ Steekproefverdeling (= sample distribution)
➢ Frequentieverdeling van de uitkomsten van de steekproef.
➢ = empirisch en gekend.
➔ Steekproevenverdeling (= sampling distribution)
➢ Kansverdeling van alle mogelijke waarden die een steekproefgrootheid (voor
alle mogelijke verschillende steekproeven) kan aannemen.
➢ = theoretisch en kunnen we enkel benaderen: we kunnen niet alle
steekproeven nemen. Om dit te benaderen hebben we dus statistiek nodig!

- Stel steekproefgrootheid = 𝑥
➔ Wanneer men herhaaldelijk toevallige steekproeven met grootte n
trekt uit een normaal verdeelde populatie met gemiddeldeµ en
standaardafwijking σdan is de steekproevenverdeling van het
steekproefgemiddelde normaal verdeeld.

➔ Centrale limietstelling: wanneer men herhaaldelijke toevallige
steekproeven met grootte n trekt uit een willekeurig verdeelde
populatie met gemiddelde µ en standaardafwijking σ en indien n
voldoende groot (vuistregel n ≥ 30) is, dan benadert de
steekproevenverdeling van het steekproefgemiddelde een
normaalverdeling (hoe groter de steekproef, hoe meer men de normaalverdeling
benadert).

5

,- Centrale limietstelling:
➔ De centrale limietstelling stelt dat als je voldoende steekproeven trekt, je de
normaalverdeling gaat benaderen. Hoe groter de steekproef wordt, hoe meer je het de
normaalverdeling zal benaderen. Zie bv de afbeelding hieronder, bij n=10 is er meer
een normaalverdeling dan bij n=4. Bij n=30 zien we dan in alle gevallen de
normaalverdeling voorkomt (zie rechts vanonder), vandaar de vuistregel: n ≥ 30.

- https://demonstrations.wolfram.com
➔ Dit is software die je helpt om dit allemaal conceptueel te begrijpen.
➔ Hier kan je vanalles bekijken.
➔ Om de centrale limietstelling te begrijpen, typ je in de zoekbalk: central limit theorem
applied to samples of different sizes and ranges.

- Voorbeeld van de centrale limietstelling: hoe lees je alles?
➔ Je ziet dat we random data gegenereerd hebben.
➔ De waarden op een bepaalde variabele (die op de x-as staat) kan variëren van 100 tot
500. Dit zie je helemaal onderaan staan en kan je ook veranderen.
➔ Het populatiegemiddelde moet rond 300 liggen (zie rechts bovenaan).
➔ Linkse foto: er zijn 50 steekproeven getrokken met gelijke n (n=10). Dit zijn kleine
steekproeven die we dus 50x getrokken hebben waardoor we een
steekproevenverdeling krijgen van het gemiddelde. Als je het gemiddelde van die
steekproeven berekent dan kom je aan 316 (dus iets wat lijkt op het
populatiegemiddelde van 300). De centrale limiet stelling zegt dat als je sample size
dichter bij 30 komt, het steekproefgemiddelde het populatiegemiddelde ook meer gaat
benaderen. Dit zie je op de middenste foto!
➔ Middenste foto: men trekt weer 50 steekproeven maar deze keer met sample size 30
ipv met sample size 10. We zien dat het gemiddelde van de steekproeven nu veel
dichter ligt bij het populatiegemiddelde dan bij de linkse foto (sample size 10). Als je
de sample size nog groter maakt, dan gaat het gemiddelde van de steekproeven nog
dichter liggen bij het populatiegemiddelde. Ook de sd verandert.

6

, ➔ Rechtse foto: als je heel veel gaat samplen, gaat je steekproevenverdeling het echte
populatiegemiddelde ook veel beter benaderen. Dit is bijvoorbeeld het principe achter
bootstrapping (zie later: dit is het herhaaldelijk afnemen van samples waardoor je een
betere schatting krijgt van het populatie gemiddelde).
➔ Dus hoe groter de sample size (n) en hoe groter het aantal steekproeven dat je trekt,
hoe beter de steekproevenverdeling, het populatiegemiddelde benadert.

- Inductieve statistiek: notaties
➔ Populatieparameters kunnen we niet meten. We schatten die adhv
steekproefgrootheden.

7

,HOOFDSTUK 2: Verkennen van de data (eyeballing the data)

1. Grafisch verkennen van de data

- Onderzoek van verdelingen: zie eerste bachelor
➔ Histogram
➔ Stam/blad diagram
➔ Boxplot

- Boxplot
➔ Geeft informatie over positie, spreiding en symmetrie.
➔ Hoe lees je het boxplot?
➢ Maximum outlier: een waarneming die meer dan 1,5 interkwartiel boven
percentiel 75 ligt. Dit is een buitenbeentje.
➢ Hoogste: dit is de hoogste waarde die geen outlier is.
➢ Percentiel 75 tot percentiel 25 wordt weergegeven door een blokje.
➢ Percentiel 50 is de mediaan. We zien dat dat niet valt op het rekenkundig
gemiddelde omdat dit geen boxplot van een normaalverdeling is, anders zou
dit wel zo zijn.
➢ Laagste: dit is de laagste niet-outlier!
➢ Minimum: een waarneming die minstens 1.5 interkwartiel onder percentiel 25
ligt. Dit is een outlier!
➢ Met een sterretje geven we outliers aan die meer dan 3 interkwartielen onder
percentiel 25 liggen. Dit is een extreme outlier.

- Boxplot in SPSS:
➔ Bij de linkse boxplot zien we dat er iets schort aan de
verdeling van de steekproef. We zien namelijk dat de
mediaan overeenkomt met percentiel 25 en dat is raar.

8

,- Boxplot en vorm van de verdeling:
➔ Blauw: de verdeling is positief/rechts
scheef. Dan ziet het boxplot eruit
zoals je daarnaast kan zien.
➔ Groen: als de data normaal verdeeld
zijn, krijgen we een boxplot dat
redelijk symmetrisch is.
➔ Rood: als de verdeling uniform is,
krijg je een heel breed blokje.
➔ Grijs: als de verdeling negatief/links
scheef is, dan zien we bij het boxplot
het spiegelbeeld van het blauwe.
➔ Een boxplot geeft dus al heel veel
info! Zelfs meer dan een histogram.

- Histogram:
➔ Informatie over normaliteit verdeling.
➔ Met een histogram kan je heel snel
zien hoe sterk uw data afwijkt van een
normaalverdeling.
➔ De balken die buiten de
normaalverdeling liggen zijn dus
cijfers die hoger liggen in de
steekproef dan in de populatie. De
balken die lager liggen dan de
normaalverdeling zijn dus cijfers die
lager liggen in de steekproef dan in de
populatie.

- Stem and leaf
➔ Informatie over werkelijke waarden en waarnemingen.
➔ Als je dit een kwartslag omdraait, kan je een soort
histogram zien.
➔ Wordt niet echt meer gebruikt. Werd vooral gebruikt in de
tijd dat men met een typemachine de data grafisch
probeerde weer te geven.

9

, - Grafiek opties
➔ Je moet altijd eerst nadenken over wat je wil doen:
➢ Een vergelijking maken:
➔ Tussen groepen bv.: dan gebruikt men vooral histogrammen.
➔ Over de tijd: circulaire data, line chart, bar charts,...
➢ Relaties tussen vergelijkingen bekijken:
➔ Tussen 2 variabelen: scatterplots
➔ Tussen meer dan 2 variabelen: bubble plot (= een scatterplot waar de
bubbels groter of kleiner zijn. Dit geeft een idee van de grootte van de
groep)
➢ ...
➔ Je moet veel tijd steken in het maken van je grafieken. Ze moeten mooi zijn en
duidelijk leesbaar. Als een andere onderzoeker niet meteen begrijpt wat je bedoelt,
dan haakt die waarschijnlijk af en leest die gewoon een ander artikel.

10

Voordelen van het kopen van samenvattingen bij Stuvia op een rij:

√ Verzekerd van kwaliteit door reviews

Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!

Snel en makkelijk kopen

Je betaalt supersnel en eenmalig met iDeal, Bancontact of creditcard voor de samenvatting. Zonder lidmaatschap.

Focus op de essentie

Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!

Veelgestelde vragen

Wat krijg ik als ik dit document koop?

Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.

Tevredenheidsgarantie: hoe werkt dat?

Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.

Van wie koop ik deze samenvatting?

Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper amkeweyens. Stuvia faciliteert de betaling aan de verkoper.

Zit ik meteen vast aan een abonnement?

Nee, je koopt alleen deze samenvatting voor €8,89. Je zit daarna nergens aan vast.

Is Stuvia te vertrouwen?

4,6 sterren op Google & Trustpilot (+1000 reviews)

Afgelopen 30 dagen zijn er 50155 samenvattingen verkocht

Opgericht in 2010, al 14 jaar dé plek om samenvattingen te kopen

Start met verkopen

Populaire universiteiten

Populaire hogescholen

Populaire studieboeken voor Communicatie en Taal

Populaire studieboeken voor Economie en Bedrijf

Populaire studieboeken voor Exact en Informatica

Populaire studieboeken voor Gedrag en Maatschappij

Populaire studieboeken voor Gezondheid en Geneeskunde

Populaire studieboeken voor Recht en Bestuur

Verkoper

Samenvatting

Samenvatting Multivariate data-analyse

Document informatie

Onderwerpen

Geschreven voor

13 beoordelingen

Verkoper

Ontvangen beoordelingen

Voorbeeld van de inhoud

Voordelen van het kopen van samenvattingen bij Stuvia op een rij:

√ Verzekerd van kwaliteit door reviews

Snel en makkelijk kopen

Focus op de essentie

Veelgestelde vragen

Wat krijg ik als ik dit document koop?

Tevredenheidsgarantie: hoe werkt dat?

Van wie koop ik deze samenvatting?

Zit ik meteen vast aan een abonnement?

Is Stuvia te vertrouwen?