College 1: Intro en beschrijvende univariate statistiek
Statistiek
Statistiek zijn methoden om data te verzamelen, bewerken, interpreteren en presenteren.
Beschrijvende statistiek (sample statistics) wordt gebruikt om via samples verkregen data
samen te vatten en inferentiele statistiek (population parameters) wordt gebruikt om
uitspraken en voorspellingen te doen over de gehele populatie, op basis van verkregen data.
Variabelen
Variabelen zijn eigenschappen die in een onderzoek geobserveerd worden.
Categorische variabelen (categorical variables) VOORBEELDEN VARIABELEN
Categorische variabelen zijn variabelen met kenmerken of Nominaal: Discreet:
Huisdier, Aantal kinderen
categorieën als waarden. Deze kennen twee meetniveaus. Bij een nationaliteit
nominaal meetniveau hebben variabelen meerdere categorieën
Dichotoom: Continu:
zonder rangorde. Hierbinnen vallen dichotome variabelen
Geslacht Tijd,
(dummy variables, indicator variables), dit zijn variabelen met Gewicht
uitsluitend twee categorieën. Bij een ordinaal meetniveau Ordinaal:
Opleiding,
hebben variabelen meerdere categorieën met rangorde, maar is Rank
er geen vaste afstand tussen de rangen categorieën.
Kwantitatieve variabelen (interval, ratio, scale, qualitative, numerical variables)
Kwantitatieve variabelen zijn variabelen met getallen als waarden. Ook hier zijn er twee
meetniveaus. Bij een discreet meetniveau (discrete, interval) kunnen variabelen slecht
bepaalde waarden aannemen. Bij een continu meetniveau (continuous, ratio) kunnen
variabelen elke waarde aannemen.
Centrale tendentie
Centrummaten
Centrummaten zijn maten waarmee bepaalde informatie over data verkregen kan worden.
Er zijn verschillende centrummaten. Het gemiddelde (mean, m, x̄) is het gemiddelde van
alle scores. De mediaan (median, Md) is het middelpunt van alle observaties wanneer deze
van hoog naar laag worden geordend. Deze is niet beïnvloedbaar door outliers, dit zijn
scores die ver buiten het gemiddelde vallen. De modus (mode) is de meest voorkomende
score.
Verdeling (distribution)
De verdeling (distribution) is hoe scores binnen verkregen data verdeeld zijn.
Een unimodale verdeling betekent dat scores een bepaalde kant op wijzen en
dat eenheden binnen grafiek een piek kennen. Bij een bimodale verdeling
,wijzen scores verschillende kanten op, en kennen eenheden binnen de grafiek meerdere
pieken.
Een scheve verdeling (skewed distribution) houdt in dat de scores
asymmetrisch verdeeld zijn naar links of naar rechts. De centrummaat
ligging van de piek naar de tail begint met de modus, de mediaan en
dan de mean.
Graphical summaries
Dataverdeling wordt op verschillende manieren grafisch weergegeven afhankelijk van wat
voor soort variabele weergegeven wordt.
Graphical summaries bij categorische variabelen
Data kan worden verwerkt in een taart diagram (pie chart), dit is een cirkeldiagram met de
percentages van scores erin verwerkt. Een staafdiagram (bar chart) is een weergave van de
procentuele scores in staven in een grafiek, met witregels tussen de staven.
Een pareto chart is een weergave van een staafdiagram, maar de staven zijn geordend van
grootste procentuele score naar kleinste procentuele score. Het bijbehorende pareto
principe luidt dat de kleinste categorieën vaak de meeste observaties bevatten.
Ook kan gebruik worden gemaakt van een frequentietabel (frequency table), hier wordt er
bij elke categorie weergegeven hoe vaak erop gescoord is. Ook wordt de proportie en het
percentage weergegeven. Bij een frequentietabel wordt gesproken van absolute frequentie,
dit is hoe vaak een score voorkomt in het totaal. De relatieve frequentie is hoe vaak een
score voorkomt in het totaal van één bepaalde categorie. Hierbij is een percentage de
procentuele verhouding van een deel van de populatie naar de gehele populatie,
weergegeven van 0-100. De proportie de verhouding van een deel van de populatie naar de
gehele populatie, weergegeven van 0-1.
Graphical summaries bij kwantitatieve variabelen
Hier wordt gebruik gemaakt van een puntdiagram (dot plot), dit is een lijn waarop het
aantal observaties van een score wordt weergegeven. Een stam diagram (stem-and-leaf
plot) is een schematische weergave van scores, waarbij het eerste getal voor de streep neer
wordt gezet en alle getallen achter de streep een nieuwe score op basis van het voorgaande
getal betekenen. Een histogram is een grafiek weergave van scores zonder witregels, omdat
deze 1 categorie meer in de X/Y-as. Een time plot geeft data door de tijd weer in een
grafiek, deze data noem je een time series. Doormiddel van een time plot probeer je trends
te ontdekken.
Spreiding (variability, spread)
Spreiding kijkt naar hoe groot de afwijkingen van scores zijn ten opzichte van het
gemiddelde. Deze afwijking wordt ook wel de deviatie genoemd. Een kleine afwijking in
data wordt weergegeven door een hoge piek, een grote afwijking wordt weergegeven door
,een lage piek. Variantie (variance, s2) is het gemiddelde van de deviatie van het
gemiddelde, gekwadrateerd, bij elkaar opgeteld en gedeeld door het aantal observaties. De
som van het optellen van de gekwadrateerde deviaties wordt de sum of squares genoemd.
Standaarddeviatie (standard deviation, s)
De standaarddeviatie (s, 𝝈) is het gemiddelde van de deviatie van
het gemiddelde (1.1). Dit verschilt van de variantie door de wortel
die gebruikt wordt in plaats van kwadrateren, om de scores
makkelijker te interpreteren.
Emperical rule
De emperical rule is een weergave van het gemiddelde van de scores en de
standaarddeviaties van de data. Wanneer de data normaal verdeeld is betekent dit dat de
meeste mensen gemiddeld scoren en de scores links en rest van het gemiddelde geleidelijk
afnemen in frequentie. Hoe meer de score afwijkt, hoe kleiner de frequentie. Hierdoor krijgt
de weergave van de scores een bell shape. De z-score is een score die hier kijkt naar hoeveel
standaarddeviaties een observatie van het gemiddelde verwijderd ligt. Ook is het zo dat
68% van alle observaties binnen één standaarddeviatie van het gemiddelde liggen, 95% van
alle observaties binnen twee standaarddeviaties en 99% van alle observaties binnen drie
standaard van het gemiddelde liggen. Als een score buiten de 95% valt, dan is deze
significant (1.2). Dat betekent dat de kans op iets niet meer alleen aan toeval ligt.
Formules bij de spreiding
De formule voor de deviatie is x-x̄.
-x: x-punt
-x̄: gemiddelde van x
De formule voor de sum of squares is (x-x̄)2.
De formule voor de variantie is s2=(x-x̄)2/n-1. Hierbij betekenen:
-x: x-punt
-x̄: gemiddelde van x
-n: totaalaantal observaties
De formule voor de standaarddeviatie is s=√(x-x̄)2/n-1.
De formule voor de z-score is (x- x̄)/s
, 1.1: standaarddeviatie berekenen
Voorbeeld: Wat is de standaarddeviatie (s=√(x-x̄)2/n-1) bij mannen?
Berekenen
Gemiddelde:
0+0+0+2+4+4+4=14
14/7=2
Deviaties:
0-2=-2
0-2=-2
0-2=-2
2-2=0
4-2=2
4-2=2
4-2=2
Kwadrateren:
-22=4
-22=4
-22=4
02=0
22=4
22=4
22=4
Opsommen kwadraten (sum of squares):
4+4+4+0+4+4+4=24
Formule verder invullen:
s=√(x-x̄)2/n-1.
s=√24/7-1
s=√4
s=2
SPSS: