Practicum 1
● Welke zijn frequenties handiger? Gender en grade! Die hebben categorieen. Alle andere
variabelen zijn scale en dus op interval of ratio niveau. Alleen gender is een nominale
variabele: een categorische variabele zonder ordering. Je bent niet gemiddeld 40%
vrouw of zo, je kunt wel een gemiddelde van 40 jaar hebben. Dus een gemiddelde van
0,40 bij gender betekent dat 40% van het sample man is, terwijl het gemiddelde van
age (14,18) betekent dat de gemiddelde leeftijd 14,18 is. Grade bestaat uit drie
categorieën.
● Maak histogrammen via Analyze à descriptive statistics à Frequencies à Charts en vink
daar histogram aan. De verdelingen van extraversie en narcisme zijn normaal. De
verdeling van FB_Status is scheef en de verdeling van FB_Profile_T heeft een uitschieter
in het midden, maar lijkt verder redelijk normaal verdeeld te zijn. Je kunt ook via Analyze
à descriptive statistics à P-P-plots probability-probability plots maken die laten zien of
de variabele normaal verdeeld is: als alle punten netjes op de diagonaal liggen, is de
variabele normaal verdeeld.
● Scatterplot: Maak een scatterplot via Graphs à Legacy Dialogs à Scatter/Dot… à Simple
scatter. Zet de variabelen op de juiste as. Dubbelklik vervolgens in je output op de
scatterplot en voeg een Fit line at total toe (Elements à Fit line at total)
● Hoe kun je deze F waarde uitrekenen/ hoe is deze tot stand gekomen?
○ Regression Mean Square / residual mean square
● De E betekent 3 komma’s terug, dus terugrekenen!
● Maak een nieuwe dichotome variabele FB_Status_dummy op basis van de mediaan van
FB_Status . Gebruik hiervoor ‘Recode into different variables’.
○ Wat doen we hier? We maken 2 groepen, boven en onder de mediaan (die zoek
je eerst op), omdat je 2 groepen wilt weten
○ De mediaan van FB_Status is 0,5. Alle waarden onder 0,5 (dus je vult 0,499 in!!)
worden 0 en alle waarden boven 0,5 worden 1. Vul links bij Old value bij “Lowest
through value” 0,499999 in en bij new value 0 in, klik op add. Vul vervolgens bij
Old value bij “Value through Highest” 0,5 in en bij new value 1, klik op add en dan
op Ok. Dus vanaf de mediaan is al highest!
○ Je kunt er ook voor kiezen om alles tot 0,5 naar 0 te coderen. Dat is ook goed>
dan vind je hier als antwoord 132 ipv 102
,● Maak een kruistabel met Gender in de rijen en de FB_Status_dummy in de kolommen.
○ Analyze > Descriptive statistics > Crosstabs. Vul een variabele in bij rows en een
bij columns. De toets die je moet gebruiken om te kijken of er een significant
verband bestaat tussen beiden is de Chi² (χ²)-toets. Die vind je onder Statistics.
Hieruit blijkt dat er een significant verband is tussen geslacht en het updaten van
je facebook status als je voor de recode t/m 0,49999 hebt gekozen, en je vindt
geen significant effect als je voor de recode t/m 0,5 hebt gekozen (dus dan is
een ander antwoord goed: Chi kwadraat niet significant)
○ Hoe zie je of de chi significant is? Dat zie je links boven in het vakje!
■ De "Pearsons Chi-square" heeft een asymptotic, 2-sided, significance,
ofwel een tweezijdige p-waarde van 0,021
■ In SPSS moet je altijd opletten wanneer je eenzijdig wilt toetsen. In dat
geval moet je de waarde in de kolom “Sig. (2-tailed)” halveren voordat je
gaat vergelijken met je significantieniveau.
● Welke analyse moet je gebruiken als je wilt weten of er een significant verband bestaat
tussen deze twee variabelen? Is er een verband?
○ Een chi kwadraat toets, want 2x2 model
○ Gebruik de one sample t-test om te analyseren of het gemiddelde van een
steekproef significant verschilt van een bepaalde waarde.
○ De independent samples t-test (of ongepaarde t-test) gebruik je om te
onderzoeken of twee steekproefgemiddelden significant van elkaar verschillen.
○ Gebruik de paired samples t-test om twee gemiddelden van gepaarde
steekproeven met elkaar te vergelijken. Gepaarde steekproeven zijn afhankelijk
van elkaar.
○ Met de correlatie(coëfficiënt) kun je de verbanden tussen de onafhankelijke en
de afhankelijke variabelen in je conceptueel model testen. Je kunt bijvoorbeeld
het verband testen tussen lengte (onafhankelijke variabele) en gewicht
(afhankelijke variabele). De correlatiecoëfficiënt kan ook gebruikt worden voor
de selectie van variabelen voor een regressieanalyse.
○ De Chi-kwadraat toets kan gebruikt worden om te toetsen of het verschil tussen
twee proporties in een klassieke 2x2 tabel significant is.
,● Hoe doe je ID<80? Kopiëren en plakken in syntax of: data > select cases > if condition is
satisfied - ID < 80 - run syntax. Daarna doe je opnieuwe regressie voor de R2 en adjusted
R2, om te kijken wat een kleinere sample doet met je verklaarde variantie.
○ Verder valt op dat het model nu niet meer significant is. de F waarde is 0.070. De
coëfficiënt is -0.206 met een standaardfout van 0.783. De grootte van het sample
beïnvloedt je resultaten.
● Wat zou het gemiddelde residu moeten zijn als het model de waarheid perfect zou
kunnen voorspellen? 0!
, Excel PC 1
● Je moet hier voor iedere waarde de Y uitrekenen met de formule: =4,723-0,069*A2
(daarna A3 etc), en dan het gemiddelde nemen. Het getal wat hieruit komt is het
voorspelde gemiddeld aantal keren dat iemand zijn facebook status verandert per week.
● Vul in de kolom D de residuen. Residuen zij dus het verschil tussen de daadwerkelijke Y
en de voorspelde Y (berekent met de formule). Bereken de eerste (in cel D2 vul in
=B2-C2, druk op Enter en dan gebruik het kruisje om de andere cellen te vullen).
● We gaan nu ook de ANOVA tabel uit de output van SPSS reproduceren met behulp van
Excel. Daarvoor hebben we eerst de gekwadrateerde residuen nodig. Reden om te
kwadrateren is vaak om de negatieve getallen kwijt te raken, alles wordt nu positief, dus
het maakt niet meer uit of een getal onder of boven het gemiddelde ligt, het gaat erom
dat je weet hoe ver het van 'de ideale situatie' af lag. Vul in de volgende kolom de
gekwadrateerde residuen. Bereken de eerste (in cel E2 vul in =D2^2 en druk op Enter en
dan gebruik het kruisje om de andere cellen te vullen).
● Wat is de Sum of Squared Residuals (SSE) volgens jouw berekening in Excel? Dat is
gewoon alles bij elkaar optellen in de kolom van de gekwadrateerde residuen
● Bereken de Total Sum of Squares (TSS)
○ Rij 1: Yi-GemY
○ Rij 2: Yi-GemY ^2 (alleen cel aanklikken + ^2 erbij)
○ Som van rij 2
○ LET OP: HIER GEMIDDELDE VAN ECHTE Y NEMEN
● Wat is de Regression Sum of Squares (RSS) volgens jouw berekening in Excel? Dat zijn
alle sum of squares opgeteld.
○ voorspelde Y - Gem voorspelde Y ^2
○ LET OP: HIER GEMIDDELDE VAN VOORSPELDE Y NEMEN
● TSS: je doet Y - Y gem, maar dan van de echte Y, dus eig de Yi: in kolom B staan die! de
geobserveerde, de som is: 90.675
● RSS doen, dat is voorspelde Y - gemiddelde van voorspelde Y in het kwadraat en dan
daarvan de som, het is de spreiding van Y die verklaard kan worden door X