Statistiek
Beschrijvende statistiek: samenvatting van de verkregen data
• Beschrijvende univariate statistiek: samenvatting van één variabele (univariaat)
Inferentiële statistiek: voorspellingen maken op basis van de verkregen data
Meetniveau van variabelen
Categorische variabelen
• Geen getallen, maar kenmerken of categorieën
o Nominaal: Geen rangorde → religie
▪ Dichotoom: Twee opties → geslacht
o Ordinaal: Rangorde → opleidingsniveau
Kwantitatieve variabelen
• Getallen (interval/ratio)
o Discreet: Hele getallen → aantal kinderen
o Continu: Elk getal → gewicht
Centrale tendentie
Centrummaten
• Gemiddelde (M)
o Verwachting, verwachte waarde
Σx
o x̄ =
𝑛
• Mediaan (Md)
o Het middelpunt van de observaties als je ze van laag naar hoog ordent
• Modus
o De waarde die het vaakst voorkomt
Verdeling
Categorische data
• Frequentietabel
o Proportie: observaties categorie / totaal observaties (n) → tussen 0 en 1
o Percentage: proportie x 100
• Taartdiagram (pie chart)
• Staafdiagram (bar chart)
,Spreidingsmaten
• Spreiding: afwijkingen van het gemiddelde
o Grote spreiding: grote afwijkingen (zwart)
o Kleine spreiding: kleine afwijkingen (rood)
Standaarddeviatie
• Hoeveel de data gemiddeld afwijkt van het gemiddelde
o Nut en belang:
▪ Beschrijven en de spreiding van de data
▪ Het is makkelijker om data te vergelijken
▪ Meer spreiding → minder zekerheid
o Uitrekenen:
▪ Deviatie: (x - x̄)
▪ Deviatie wordt gekwadrateerd: (x − x̄ )2
▪ Allemaal bij elkaar optellen: Σ (x − x̄ )2
Σ (x − x̄)2
▪ Delen door het aantal observaties - 1:
𝑛 −1
Σ (x − x̄)2
▪ Worteltrekken: S = √
𝑛 −1
Variantie
• Standaarddeviantie zonder de wortel
Σ (x − x̄)2
• Variantie: 𝑆 2 =
𝑛 −1
• Standaarddeviatie is makkelijker in gebruik
Empirical rule
Klokvormige verdeling:
• 68% van de observaties ligt 1 standaarddeviatie van het gemiddelde af
o x̄ ± s
• 95% van de observaties ligt 2 standaarddeviatie van het gemiddelde af
o x̄ ± 2s
• 99% van de observaties ligt 3 standaarddeviatie van het gemiddelde af
o x̄ ± 3s
• Vaak willen we weten hoeveel standaarddeviaties een bepaalde observatie van het gemiddelde ligt →
z-score
𝑂𝑏𝑠𝑒𝑟𝑣𝑎𝑡𝑖𝑒 −𝐺𝑒𝑚𝑖𝑑𝑑𝑒𝑙𝑑𝑒
• Z=
𝑆𝑡𝑎𝑛𝑑𝑎𝑎𝑟𝑑𝑑𝑒𝑣𝑖𝑎𝑡𝑖𝑒
,Andere manieren om verdeling van data te beschrijven
• Percentielen
o Geeft aan hoeveel procent van de observaties op (of onder) een bepaald punt ligt
• Kwartielen
o 25e percentiel: kwartiel 1
o 50e percentiel: kwartiel 2 → mediaan
o 75e percentiel: kwartiel 3
• Interquartile range (IQR)
o De middelste 50% van de data
o Q3 – Q1
• Boxplot (box-whisker plot)
• Wanneer noem je een observatie een “outlier”?
o Als het meer dan 1.5 keer de IQR onder de Q1 of boven de Q3 ligt.
HC 2
Associatie en correlatie
• Associatie tussen twee variabele: de waarde van de ene variabele hangt samen met de waarde van de
andere variabele
o Roken en sterftekans
• Causaliteit: de onafhankelijke (explanatory) variabele (X) heeft een invloed op de afhankelijke
(response) variabele (Y)
o Leertijd en cijfer
Bij categorische variabelen:
• Kruistabellen (continency tables)
o Conditioneel: gegeven een bepaalde categorie, bijvoorbeeld democraat met blanke
huidskleur
o Marginaal ('aan de rand'): totaal, bijvoorbeeld democraat
▪ Causaliteit (X → Y): twee conditionele kansen vergelijken
, • Staafdiagrammen (bar charts)
o Je vergelijkt hier conditionele proporties / percentages
Bij kwantitatieve variabelen:
• Spreidingsdiagram (scatterplot)
o Positieve associatie: als X omhoog gaat, dan gaat Y ook omhoog
o Als je ruwweg een rechte lijn kan trekken door een scatterplot, dan bestaat er een lineair
verband tussen X en Y
o De correlatie drukt de sterkte van dit lineaire verband uit in een cijfer
Correlatie: de sterkte van een lineair verband
• Correlatie wordt uitgedrukt in r
• r ligt altijd tussen -1 en +1
o Hoe dichter r bij 0 ligt, des te zwakker het verband
o Hoe dichter r bij -1 of +1 ligt, des te sterker het verband
• De sterkte van de correlatie is onafhankelijk van de meeteenheden!
Associatie en correlatie
• Associatie betekent letterlijk: verband
• De correlatie drukt de sterkte van dit lineaire verband uit in een cijfer
• De variabelen moeten op interval / ratio niveau (kwantitatief) gemeten zijn, maar ordinaal meetniveau
is ook okay
• Richtlijn over de interpretatie van een correlatie. Wanneer spreken we van een sterk of zwak verband?
(Cohen)
o r = 0,10 zwakke correlatie
o r = 0,30 matige correlatie
o r = 0,50 sterke correlatie
Regressielijn, het lineaire model: Y = B0 + B1 * X
• Rechte lijn: meest eenvoudige benadering van de relatie tussen X en Y.
• Je maakt een regressielijn zodat je met de waarde van X de waarde van Y kunt voorspellen
Voordelen van het kopen van samenvattingen bij Stuvia op een rij:
Verzekerd van kwaliteit door reviews
Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!
Snel en makkelijk kopen
Je betaalt supersnel en eenmalig met iDeal, creditcard of Stuvia-tegoed voor de samenvatting. Zonder lidmaatschap.
Focus op de essentie
Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!
Veelgestelde vragen
Wat krijg ik als ik dit document koop?
Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.
Tevredenheidsgarantie: hoe werkt dat?
Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.
Van wie koop ik deze samenvatting?
Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper Rooskvdm. Stuvia faciliteert de betaling aan de verkoper.
Zit ik meteen vast aan een abonnement?
Nee, je koopt alleen deze samenvatting voor €7,99. Je zit daarna nergens aan vast.