MTO-B MAW: Inleiding Statistiek
Aantekeningen hoorcolleges
Hoorcollege 1:
Correlatie is niet gelijk aan causatie: een samenhang is geen zekerheid dat de ene de andere
beïnvloed (causaal verband).
• Statistiek…
> Statistiek is de wetenschap, de methodiek en de techniek van het verzamelen, bewerken,
interpreteren en presenteren van gegevens. (Wikipedia)
> Methode of wetenschap van het waarnemen van verschijnselen en van het weergeven
van de uitkomsten in getallen en figuren. (Van Dale)
> Set of mathematical procedures for organizing, summarizing, and interpreting
information. (Gravetter & Wallnau boek)
• Statistiek in de empirische cyclus = observatie → inductie → deductie → toetsing →
evaluatie → observatie.
> Statistiek komt kijken bij observatie (kijken naar verbanden) en bij toetsing (kijken op
basis van de data die je hebt; welke conclusies kan je trekken).
• Beschrijvende en inferentiële statistiek:
> Beschrijvende statistiek
* Gebruik: kwantitatieve samenvatting van informatie/ data
* Relevante jargon: summary statistics, gemiddelde, mediaan, modus, variantie,
standaarddeviatie, covariantie, frequentiedeling, histogram etc.
> Inferentiële statistiek
* Gebruik: Maak inductieve inferenties van data
(een steekproef) naar en meer algemene situatie
(de populatie).
* Relevante jargon: Sampling error, standaardfout,
schatten, confidence intervals, margin of error,
hypothesetoetsing, etc.
* Voor het trekken van conclusies!!
• Inferentiële statistiek: van steekproef naar
populatie.
> Stel je voor dat je deze studie opnieuw zou doen, met hetzelfde aantal participanten
(steekproefgrootte), maar wel een nieuwe (simple random) steekproef. Zou je weer precies
hetzelfde resultaat verwachten?
> Nee. Misschien heeft deze steekproef meer mensen waarvoor de methode goed werkt,
juist minder goed werkt, etc. De resultaten zullen nooit precies hetzelfde zijn.
> Als we iets willen zeggen over een populatie op basis van een steekproef, dan moeten
we rekening houden met deze onzekerheid. De onzekerheid die komt van het nemen van
random steekproeven (Steekproeffluctuaties = Als je ander steekproef zou hebben
gebruikt zou je ook een ander resultaat hebben)!
• Data: Random Variabelen (X) → iets wat kan variëren
en dit heeft iets met kansen te maken. Als je een
nieuw proefpersoon verzamelt is er een kans dat dit
een man of vrouw is. Als ze niet random zijn dan zijn
het fixed variabelen (iedereen vrouw of iedereen
werkloos).
> Variabelen waarvan de mogelijke uitkomsten het resultaat zijn van een random
, fenomeen.
> Statistische notatie: Meestal X, of Y.
> Specifieke uitkomsten en specifieke observaties worden opgeschreven met een kleine x
of y.
• Kwantificeren van Random Variabelen
> Je wilt er getallen van maken om het in de analyses mee te kunnen nemen.
> Het meetniveau van een variabele bepaalt wat voor betekenis de nummers die we
toewijzen hebben.
* 4 niveaus: nominaal, ordinaal, interval, ratio
* de niveaus zijn cumulatief – elk niveau heeft de eigenschappen van de vorige niveaus.
> Het meetniveau van een random variabele bepaalt wat voor analyses je er beter wel/niet
op kan uitvoeren.
→ Dezelfde dataset maar dan met
getallen i.p.v. woorden.
• Meetniveaus van random
variabelen:
> Nominale variabelen = toewijzen
van mutueel exclusieve getallen aan
de mutueel exclusieve uitkomsten
(1).
Voorbeelden: geslacht (man, vrouw;
0,1), nationaliteit (Nederlands, Duits
etc.)
> Ordinale variabelen = toewijzen
van mutueel exclusieve getallen aan de mutueel exclusieve uitkomsten (1) + Er is een
betekenisvolle ordening in de mogelijke uitkomsten (2).
Voorbeelden: dosering (laag, medium, hoog; 0,1,2), rangen (1e plaats, 2e plaats, 3e plaats;
0, 1, 2), likert schalen (zeer oneens, oneens, neutraal, mee eens, zeer eens; 0, 1, 2, 3 ,4, 5),
leeftijdscategorieën: 9-13, 14-18, etc.; 0, 1, etc.)
> Interval variabelen = toewijzen van mutueel exclusieve getallen aan de mutueel
exclusieve uitkomsten (1) + Er is een betekenisvolle ordening in de mogelijke uitkomsten
(2) + De intervallen tussen elk van de geordende uitkomsten is betekenisvol en dezelfde
grootte (3).
Voorbeelden: temperatuur in graden Celsius en Fahrenheit. (0 graden Celsius betekent
niet afwezigheid van temperatuur)
> Ratio variabelen = toewijzen van mutueel exclusieve getallen aan de mutueel exclusieve
uitkomsten (1) + Er is een betekenisvolle ordening in de mogelijke uitkomsten (2) + De
intervallen tussen elk van de geordende uitkomsten is betekenisvol en dezelfde grootte (3)
+ “Absoluut nulpunt”: Een nul betekent dat de gemeten eigenschap afwezig is (4).
Voorbeelden: Dosering in milligram (0mg, 1mg, 2mg, etc.), lengte in cm (0cm – geen
lengte), temperatuur op Kelvin schaal (0 graden – geen temperatuur).
!! In de sociale wetenschappen hebben we veel ordinale variabelen (Likert schalen) – deze
worden behandeld alsof ze interval zijn als ze veel uitkomstcategorieën hebben (say 5+)!!
→ Dan kan je er veel analyses mee doen.
,• Voorbeeld Interval vs. Ratio:
Meten vanaf de grond: ratio
Meten vanaf 1 meter: interval
• Discrete vs. Continue random variabelen
> Het type variabele bepaalt wat voor analyses we er beter wel/niet op uit kunnen voeren.
> Discrete variabele.
* De mogelijke uitkomsten voor de variabelen zijn te vangen in een eindige, telbare lijst
van waarden.
→ Let op! Als de gemeten score discreet is, hoeft de onderliggende variabele dat niet te
zijn (bv. Leeftijd afgerond op hele jaren).
Voorbeelden: Aantal kinderen per gezin, dosering categorieën (laag, medium, hoog),
sekse categorieën (man, vrouw), beroepsgroep (docent, advocaat, tandarts, etc.)
! Nominale/ordinale variabelen zijn over het algemeen discreet. Discrete variabelen zijn
niet per sé nominaal/ordinaal.
> Continue variabele
* De mogelijke uitkomsten van de variabele kunnen elke waarde aannemen binnen een
bepaald interval (dat interval zou kunnen lopen van – oneindig tot oneindig).
Voorbeelden: leeftijd (niet afgerond), hoeveelheid gedronken alcohol, dosering in
grammen, lengte.
! Continue variabelen hebben over het algemeen interval/ratio niveaus. Interval/ratio
variabelen zijn niet per sé continu.
• Mogelijke tentamenvraag:
→ A. Juist (Er is een absoluut
nulpunt en je kan alleen maar
hele kinderen hebben).
• Frequentieverdelingen en kansverdelingen
> Frequentie (van de uitkomsten van een random variabele): Hoe vaak
een bepaalde uitkomst is geobserveerd.
> Frequentieverdelingen: Een tabel of grafiek die weergeeft hoe vaak een
bepaalde uitkomst is geobserveerd, voor elke mogelijke uitkomst voor
die variabele.
> Kans: De relatieve frequentie van de uitkomst. D.w.z.: Hoe vaak de
uitkomst voorkomt in verhouding tot het totaal aantal observaties.
11 grote auto’s van de 54 observaties in totaal = 11/54= .204
> Kansverdelingen laten de kans zien op elke mogelijke uitkomst voor
een random variabele. Deze kansen moeten altijd optellen tot 1!
Voorbeeld: 11/54 + 22/54 + 21/54 = .204+.407+.389 = 1
, • Discrete en continue kansverdelingen
Discreet: Continu:
• Beschrijvende statistieken
> Voor het samenvatten van variabelen en hun kansverdelingen in een paar getallen.
> Centrummaten
* Beschrijven het ‘centrum’ of ‘midden’ of ‘typische waarde’ voor een variabele.
* Modus, mediaan, gemiddelde.
> Spreidingsmaten
* Beschrijven de variatie, spreiding, breedte van een variabele.
* Bereik, variantie en standaarddeviatie.
• Centrummaten: Modus
= de uitkomst die het vaakst voorkomt, d.w.z. de uitkomst met de hoogste frequentie
• Centrummaten: Mediaan
= de waarde die de hoogste helft van de data scheidt van de laagste helft van de data.
* 50% van de data ligt boven deze waarde, en 50% ligt onder deze waarde.
Voorbeeld 1: Stel je hebt de volgende cijfers gehaald: 7,7,8,6,9. Start met het ordenen van
de cijfers: 6,7,7,8,9. De mediaan is de middelste waarde:7.
Voorbeeld 2: Stel je hebt de volgende cijfers gehaald: 7,7,8,6,9,7,8,9. Start met het
ordenen van de cijfers: 6,7,7,7,8,8,9,9. Een even aantal cijfers, dus de middelste waarde
ligt tussen 7 en 8. De mediaan is 7,5.
• Centrummaten: Gemiddelde
Voorbeeld: Stel je hebt de volgende cijfers gehaald: 7,7,8,6,9. Wat is je gemiddelde cijfer?
7+7+8+6+9 = 37 → 37/5 = 7,4
1. Tel alle observaties voor variabele X op (neem de som van X)
2. Bepaal het totale aantal observaties, we noemen dat getal N of n.
3. We delen de som uit stap 1 door het totale aantal observaties van stap 2.
* Notatie: u (met streepje linksonder), voor het gemiddelde van een
populatie.
* Notatie: X (streepje boven), voor het gemiddelde van een steekproef.
= Korte uitleg somteken.
Op welke manier geeft het gemiddelde
het centrum of het midden van onze
verdeling aan?
> De som van deviaties (afwijkingen van; X-u) tussen de observaties en het gemiddelde is
altijd 0!
> D.w.z. de totale afstand tussen de observaties hoger dan het gemiddelde, en de totale