Samenvatting multivariate data analyse
Examen
Twee verplichte delen op eenzelfde dag (22 juni):
Theoretisch examen: 10 mc en 2 open vragen → geen gis correctie.
Praktisch examen: oefeningen maken op de computer met SPSS
➔ Krijgen ook een proefexamen van beide delen.
➔ Op computer examen mag je de handleiding niet meenemen is gesloten boek.
➔ Geen eigen laptop gebruiken.
Als je niet geslaagd bent mag je wel eventueel een bepaald deel laten overdragen voor volgende
zittijd.
Hoorcollege 1: verkennen van data
Waarom data analyse
Data analyse = noodzakelijk voor psychologen.
1) Cf. data-analyse in de media
➢ Overal zien we data, en achter al die uitspraken zit data-analyse achter. Wij moeten deze
kritisch en nuttig kunnen interpreteren. (vb. krantenkoppen)
2) Begrip van + kritische instelling tegenover vakliteratuur
➢ Data analyse is belangrijk voor psychologen omdat je up to date moet zijn van je
vakgebied.
je krijgt grafieken en tabellen., om deze conclusies te gebruiken in je praktijk en domein
moet je deze informatie kunnen lezen, te begrijpen en er kritisch mee om springen.
3) Kunnen verzamelen/analyseren van data
➢ Ook ga je zelf vaak gebruik maken van deze statistische data. Je moet een rapport
schrijven over de data en deze analyseren. Vb. werkt om een HRM departement, wil
weten hoe tevreden personen zijn met hun job. Moet je een vragenlijst afnemen en deze
data kunnen analyseren. Moet ook bepaalde zaken kunnen berekenen en testen kunnen
uitvoeren.
Het helpt je om:
1) Data te organiseren (grafieken,…)
2) Data te beschrijven (beschrijvende/deductieve statistiek, samenvatten)
3) Uitspraken doen op basis van data (inferentiële/inductieve statistiek, verklaren) → de
inductieve statistiek
,Inductieve statistiek
We vertrekken hierbij vanuit een populatie die ons interesseert en waar we vragen over hebben.
Vanuit die populatie gaan we een kleinere steekproef trekken.
Op basis van beschrijvende statistiek kunnen we over die kleinere steekproef een aantal uitspraken
doen. → we kunnen de steekproef gaan beschrijven. Zijn specifieke uitspraken die gelden voor de
uitspraken.
Wij willen echter uitspraken doen over de populatie en algemene uitspraken doen.
Vb. je neemt 20 studenten van eerste bachelor waarbij je hun studiemethode bevraagt en merkt dat
twee ervan problemen hebben met plannen → is een voorbeeld van beschrijvende statistiek.
Bij inductieve statistiek wil je komen tot algemene uitspraken!
op basis van die steekproef willen we algemene uitspraken doen over de gehele populatie
vb. kunnen we op basis van die steekproef de uitspraak doen dat studenten eerste bachelor
problemen hebben op vlak van plannen.
Er zijn verschillende methoden om aan inductieve statistiek te doen
1) Kan gaan schatten: hierbij heb je op voorhand geen idee over de waarde van de
populatieparameter ( MU is onbekend), vanuit een steekproef die je trekt kan een
steekproefgemiddelde berekenen, je gaat die waarde gebruiken om een schatting te maken
van de populatieparameter.
, 2) Kan gaan toetsen: hierbij heb je op voorhand een hypothese, hebt een idee over wat je kan
verwachten. Vb. we verwachten dat de populatieparameter 80 is. Uit die populatie trekken
we een steekproef, berekenen het rekenkundig gemiddelde, en gaan kijken of er een
significant verschil is tussen wat we observeren in de steekproef en tussen wat we
verwachten vanuit de hypothese, verwachten uit de populatie.
Een hypothese verwerpen of behouden doen we aan de hand van een bepaalde
betrouwbaarheid ( 1- alpha → de kans dat je de nulhypothese gaat aanvaarden als die ook
echt correct is)
Alpha is het significantieniveau → is een fout die je incalculeert. Kiest dit, vb. je hebt 5% kans
dat je de nulhypothese gaat verwerpen terwijl deze correct is ( bij 5% signif. Niveau)
Begrippen
• Theorie → Hypothese → Steekproef → Steekproefgrootheden
- Bij inductieve statistiek vertrekken we vaak van een bepaalde theorie op basis van die
theorie stellen we hypothese op. We trekken een steekproef uit de populatie, berekenen
steekproefgrootheden (wat je berekent op basis van steekproefgegevens). Elke keer als
we een nieuwe steekproef trekken gaan deze streekproefgrootheden variëren.
Steekproefgrootheden zijn toevalsvariabelen en hebben een steekproevenverdeling.
- Steekproefgrootheid (statistiek, stat. grootheid): maat gebaseerd op de gegevens van de
steekproef (vb.: rekenkundig gemiddelde, proportie,…)
- Steekproefgrootheid = toevalsvariabele met een bepaalde verdeling →
steekproevenverdeling
- Stel: random steekproef 1 en we berekenen S1, random steekproef 2 (zelfde n) en we
berekenen S2, etc. tot Sn
- S1, S2, S3, S4, …, Sn
- De verdeling van deze steekproefgrootheden = Steekproevenverdeling
• SteekproeFverdeling (sample distribution)
- Frequentieverdeling van de uitkomsten van de steekproef
- Empirisch, gekend
- Puur beschrijvend hoe dat de data verdeeld zijn.
, • SteekproeVENverdeling (sampling distribution)
- Kansverdeling van alle mogelijke waarden die een steekproefgrootheid (voor alle
mogelijke verschillende steekproeven) kan aannemen
- Veranderd van steekproef tot steekproef
- Theoretisch, benaderen → kunnen dit niet doen dus gaan we dit benaderen.
➢ Steekproefgrootheden zijn toevalsvariabelen, verandert voor elke steekproef.
Kennen een steekproevenverdeling. (trekt verschillende steekproeven een aantal
keer met verschillende gemiddelden, de verdeling van al deze verschillende
steekproefgrootheden, ken je een steekproevenverdeling van die
steekproefgrootheid.)
➢ Om de steekproevenverdeling te kennen gaan we proberen deze te benaderen. Voor
het rekenkundig gemiddelde kunnen we benaderen door een z-test of een t-test als
de variantie al dan niet bekend is.
de vorm van de steekproevenverdeling hangt af van
de populatieverdeling. Als populatie normaal verdeeld is gaat de steekproevenverdeling ook normaal
verdeeld. Maar om populatie niet in beschouwing te nemen kan je gebruik maken van de centrale
limiet stelling.
• Centrale limietstelling
- Wanneer men herhaaldelijk toevallige steekproeven met grootte n trekt uit een
willekeurig verdeelde populatie met gemiddelde = mu en standaardafwijking = sigma en
indien n voldoende groot (vuistregel: n > 30) is, dan benadert de steekproevenverdeling
van het steekproefgemiddelde een normaalverdeling:
➢ Belangrijk hierbij is de centrale limiet stelling. Hoe groter de steekproef is, hoe
dichter men de normaalverdeling benadert. Als de populatieverdeling normaal
verdeeld is gaat de steekproevenverdeling ook normaal verdeeld zijn. Als de
populatieverdeling niet normaal verdeeld is dan is dit geen probleem volgens deze
stelling. Als N groter wordt, gaat de steekproevenverdeling toch de normaalverdeling
benaderen. ( N vanaf 30)
➢ Kan gaan over eender welke populatie verdeling, moet hierbij niet normaal verdeeld
zijn.