Lecture 1
Descriptive statistics : Beschrijven, organiseren, samenvatten en display van data. Er is geen
onduidelijkheid.
Inferential statistics : Gebruikt probalistic technieken om een sample te analyseren om ons iets te
vertellen over de populatie.
Sample : een sample is nooit een perfecte representatie van de populatie. Een random geselecteerde
sample is doorgaans representatief.
Hoe groter je sample size hoe meer betrouwbaarder het is, hoe meer variatie er kan zijn. Als de sd
hoog is, dan is de spreiding ook groter. Conclusie : veel verschillende antwoorden.
What about causaliteit?
Experimental method : Zet mensen random in twee groepen. Geef een groep een pil, de andere
groep een placebo. Als je een relatie kan vinden tussen groep en uitkomst, dan kan je spreken over
causaliteit want : in het begin is er geen verschil omdat je ze random indeelt. Je hebt beide groepen
verschillend behandeld, dus het enige wat verschilt is de behandeling.
Descriptive/Correlational methods : suvey/questionnaire data over dingen waar je geinteresseerd in
ben.
Spurious effects verschijnen wanneer de 2 dingen die je meet beiden veroorzaakt zijn door een
derde.
Cases : kunnen individuele mensen zijn, bedrijven of landen zijn.
Variabelen : properties die verschillen tussen cases.
Level of measurement : What kind of values does a variable have?
Lengte kan elke positieve waarde in cm hebben. Sekse kan echter maar 1 of 2 waarden hebben.
Categorical vs continuous variabele
Categorical : de variabele meet of de case behoort tot een van meerdere categorieën.
- Discrete : ( de variabele neemt exacte waarden ; hele nummers en tekst labels etc dus)
- Het is niet mogelijk om tussen categorieeen te vallen.
- Geslacht, gender, happiness on a 1-5 scale.
,Continuous variabele : Variabele kan elke numerieke waarde nemen. (temperatuur, leeftijd etc)
Nominaal : Een variabele waarvan de attributen zich strikt van elkaar onderscheiden. Vaak het
tegenovergestelde van elkaar (bijvoorbeeld man of vrouw).Alles wat een nominale variabele ons kan
vertellen twee mensen zijn als ze hetzelfde of verschillend zijn. Voorbeelden van nominale variabelen
: geslacht/gender, religieuze overtuiging, politieke voorkeur, geboorteplaats, provincies, haarkleur. Bij
een survey dus : wel of niet religieus, man of vrouw etc. Er is altijd maar 1 antwoord mogelijk wat de
respondent kan geven ; bijvoorbeeld z’n beroep of favoriete voetbalclub.
Ordinaal : Een meetniveau waarbij je de variabelen kan rangschikken/ordenen langs een dimensie.
Cumulatief. Schalen & Indices. Socio-economische status bijvoorbeeld ; laag, gemiddeld, hoog. Eens,
neutraal, oneens, vmbo havo vwo , goud zilver brons. Bij een survey bijvoorbeeld :rangschik welke
keuzes/voorkeuren jij het beste vindt. Likert schaal is voorbeeld van een ordinale schaal.
Interval : Een meetniveau waarvan de attributen gerangschikt zijn en gelijke afstanden hebben
tussen de aangrenzende attributen. Bijvoorbeeld de Fahrenheit temperatuur schaal. Afstand tussen
17 en 18 is hetzelfde als tussen 89 en 90.; IQ, Celcius, tijd (13:00, 14:00 etc)
Ratio : Een meetniveau dat een variabele beschrijft met attributen die alle kwaliteiten hebben van
nominaal, ordinaal en interval metingen en bovendien zijn gebaseerd op een absoluut nulpunt.
Voorbeelden van ratio variabelen : Percentages, Aantal goede examenantwoorden, Inkomen, Kelvin
temperatuurschaal, Leeftijd, Verblijfsduur in een gegeven plaats, Aantal organisaties waartoe
behoorde, Aantal tijden bijwonen van religieuze diensten tijdens een bepaalde periode, Aantal keren
getrouwd en Aantal van Arabische vrienden.
Bij interval en ratio gebruik je een histogram.
Bij nominaal en ordinaal gebruik je een bar chart.
Mediaan : middelste getal. Als je een gelijk aantal observaties hebt dan is er geen midden waarde.
Dan neem je gewoon gemiddelde van de twee middelste waarden.
Mean : gemiddelde. Mean wordt beinvloedt door outliers. Alle waarden bij elkaar optellen gedeeld
door totaal.
Weighted mean = (Mean van groep 1 * N van groep ) + (Mean groep 2 * N groep 2) / totale N
Positively skewed : Mediaan is groter dan mean :
,Symmetrical or normal : Mediaan = Mean
Negatively skewed : Mediaan is groter dan mean :
Distribution shapes :
Lecture 2
,Variabiliteit :
Variabiliteit gebruik je om zowel iets te beschrijven als iets te concluderen.
3 soorten variabliteit meting :
- Standard deviation
- Variance
- Range
De normale verdeling / normal distribution wordt beschreven door twee parameters :
- Meting van central tendency : mean
- Meting van variabiliteit (spreiding) : standaarddeviatie.
Kenmerken normale verdeling :
- Mean en mediaan zijn hetzelfde.
- De verdeling is symmetrisch.
- Tails zijn asymptotic
Standaardisering :
, - Z-scores : Z = x-mean / sd. z score is hoeveel standaarddeviaties een observatie van het
gemiddelde af zit
Gestandaardiseerde variabele : een variabele met observaties gekeerd into z-scores.
Mean=0, SD=1.
Standaard deviatie : eenheid van metingen van een gestandaardiseerde variabele.
Measures the number of standard deviations an observation is away from the mean
• Positive Z: Observation > mean
• Negative Z: Observation < mean
• Zero Z: Observation = mean
De meeste z-scores liggen tussen de -2 en 2. Scores die boven deze limieten gaan zijn outliers.
Standaardafwijking berekenen?
s = standaardafwijking
Σ = som
X = elke individuele score
X̄ = gemiddelde (mean)
n = steekproefgrootte
1. in een tabel maak een lijst van alle scores (kolom X)
2. bereken het gemiddelde van de groep (kolom X̄)
3. trek het gemiddelde af van elke score (kolom X- X̄)
4. kwadrateer elk individueel verschil (kolom X-X̄)²
5. tel alles in kolom (X-X̄)² bij elkaar op
6. deel die som door n-1
7. neem de wortel van dat getal, dit is de standaardafwijking
Zuivere schatting - unbiased estimate
een conservatieve schatting van een populatieparameter
de reden dat we voor de standaardafwijking delen door n-1 in plaats van door n.
door dit te doen kan men de standaardafwijking kunstmatig dwingen groter te zijn dan normaal. als
wetenschapper die geen dingen 100% exact kan zeggen moet men lichtelijk overschatten.
hoe hoger de standaardafwijking, hoe groter de spreiding tussen de waarden is en hoe meer ze
van elkaar verschillen
de standaardafwijking is net als het gemiddelde gevoelig voor extreme waarden
als s = 0 is er geen enkele variabiliteit in de score reeks en zijn alle scores identiek (gebeurt
bijna nooit.
Lecture 3
, Probabilities, proporties & percentages
P = proportie/probability. P is altijd tussen 0 en 1.
A proportion is simple to calculate: • Out of 234 students, 105 are male = 0.44872 The
proportion of male students is 0.45
Als je Sig. Lager is dan 0,05 kijk je naar de onderste rij van de tabel.
Als je P = 0,000 . Dan schrijf je P<0,001
Van X waarde naar P
Standaardiseer de X-waarde: Bereken de Z-score. Hoeveel standard deviations
boven/beneden de mean?
2. Welke proportie onder de curve moeten we vinden? De proportie groter of kleiner dan de Z-
score? De proportie tussen twee Z-scores? Drawing a picture helps!
3. Vind de probability in de tabel
hoe groot is de kans dat een score tussen 110 en 125 zit?
Waarschijnlijkheid berekenen vanuit Z-score
1. bereken de z-score van het onderste getal
2. bereken de z-score van het bovenste getal
3. gebruik tabel B.1 in Appendix B en vind de corresponderende oppervlakte tussen het
gemiddelde en de z-score van het onderste getal
4. gebruik appendix B en vind de corresponderende oppervlakte tussen het gemiddelde en de z-
score van het bovenste getal
5. bereken de afstand tussen de twee oppervlakken, het grotere getal minus het kleinere getal
het percentage wat daaruit komt is de waarschijnlijkheid voor het vallen van een bepaalde
score
als de waarschijnlijkheid lager dan 5% is kan men ervan uitgaan dat er een factor buiten de kansfactor
is die de uitkomst beïnvloed.
als een z-score hoger is dan 1.65 geldt hetzelfde.
percentage 50% -> proportie 0,5
Notatie van waarschijnlijkheid
p(X=35) / p(X>35) / p(X<35)
Betrouwbaarheid :