Hoorcolleges
Hoorcollege 1
Beschrijvende en inferentiële statistiek
- Beschrijvende statistiek:
o Je beschrijft iets, je vat data samen
o Gebruik: kwantitatieve samenvatting van informatie/data
o Jargon: summary statistics, gemiddelde, mediaan, modus, variantie. Standaarddeviatie,
covariantie, frequentieverdeling, histogram etc.
- Inferentiële statistiek:
o Gebruik: maak inductieve inferenties van data (een steekproef) naar een meer algemene
situatie (de populatie)
o Jargon: sampling error, standaardfout, schatten, confidence intervals, margin of error,
hypothesetoetsing etc.
o Conclusies trekken om te generaliseren
Steekproefresultaten zijn nooit gelijk: er zijn steekproef fluctuaties. De statistische notatie is meestal
onafhankelijke X en afhankelijke Y. Specifieke observaties en uitkomsten worden opgeschreven met een
kleine x of y. variabele leeftijd = X. dus proefpersoon x4 is 23.
Het meetniveau van een variabele bepaalt wat voor betekenis de nummers die we toewijzen hebben. Er zijn
4 niveaus: nominaal, ordinaal, interval en ratio. De niveaus zijn cumulatief: elk niveau heeft de
eigenschappen van de vorige niveaus. Het meetniveau van een random variabele bepaalt wat voor analyses
je wel/niet kan uitvoeren. We willen resultaten kwantificeren: in getallen weergeven.
- Nominaal: toewijzen van mutueel exclusieve getallen aan de mutueel exclusieve uitkomsten.
Bv geslacht: man, vrouw = 0,1. nationaliteit: NL, De, VS = 0, 1, 2
- Ordinaal: toewijzen van mutueel exclusieve getallen aan de mutueel exclusieve uitkomsten. En er is
een betekenisvolle ordening in de mogelijke uitkomsten.
Bv. dosering laag, medium, hoog = 0, 1, 2 likertschalen: eens, neutraal, oneens = 0, 1, 2
rangen: goud, zilver, brons = 0, 1, 2. Iets is hoger dan de ander: het getal maakt wel uit.
- Interval: toewijzen van mutueel exclusieve getallen aan de mutueel exclusieve uitkomsten. En er is
een betekenisvolle ordening in de mogelijke uitkomsten. En de intervallen tussen elk van de
geordende uitkomsten is betekenisvol en dezelfde grootte.
Bv. temperatuur in graden Celsius (bij 0 is er dus wel een temperatuur)
- Ratio: toewijzen van mutueel exclusieve getallen aan de mutueel exclusieve uitkomsten. En er is een
betekenisvolle ordening in de mogelijke uitkomsten. En de intervallen tussen elk van de geordende
uitkomsten is betekenisvol en dezelfde grootte. En er is een absoluut nulpunt: een nul betekent dat
de gemeten eigenschap afwezig is: 0gram.
Bv. dosering in mg: 0mg, 1 mg, 2 mg lengte in cm (0cm-lengte) temperatuur op de Kelvin schaal.
Type random variabelen
Het type variabele bepaalt wat voor analyses we er beter wel/niet op uit kunnen voeren
- Discrete variabele: de mogelijke uitkomsten voor de variabelen zijn te vangen in een eindige,
telbare lijst van waarden. Let op! Als de gemeten score discreet is, hoeft de onderliggende
variabele dat niet te zijn (bv. leeftijd afgerond op hele jaren). bv. aantal kinderen per gezin
(alleen hele waarden), dosering categorieën als laag, medium en hoog. Sekse: man en vrouw.
Beroepsgroep (docent, advocaat, tandarts er ligt niets tussenin). Nominaal en ordinaal zijn
meestal discreet maar discreet hoeft niet nominaal/ordinaal te zijn.
, - Continue variabele: de mogelijke uitkomsten van de variabele kunnen elke waarde aannemen
binnen een bepaald interval (dat interval zou kunnen lopen van -oneindig tot oneindig). Bv.
leeftijd (niet afgerond), hoeveelheid gedronken alcohol, dosering in grammen en lengte.
Continue variabelen zijn vaak interval/ratio. Interval/ratio zijn niet per se continu.
Frequentie en kansverdelingen
- Frequentie van de uitkomsten van een random variabele is hoe vaak een bepaalde uitkomst is
geobserveerd
- Een frequentieverdeling is een tabel of grafiek die weergeeft hoe vaak een bepaalde uitkomst is
geobserveerd, voor elke mogelijke uitkomst voor die variabele
- Kans is de relatieve frequentie van de uitkomst. Hoe vaak de uitkomst voorkomt in verhouding
tot het totaal aantal observaties.
- Kansverdelingen laten de kans zien op elke mogelijke uitkomst voor een random variabele. Als je
ze allemaal optelt is het altijd 1.
Centrummaten en spreidingsmaten
Voor het samenvatten van variabelen en hun kansverdelingen in een paar getallen.
Centrummaten beschrijven het centrum/midden/typische waarde voor een variabele
- Modus: uitkomst die het vaakste voorkomt (hoogste frequentie)
- Mediaan: die de hoogste helft van de data scheidt van de laagste helft van de data. 50% ligt er
boven en 50% ligt eronder. Bij oneven heb je 2 middelste cijfers, hier neem je het gemiddelde van.
- Gemiddelde μ: som van alle cijfers delen door aantal observaties (observaties N)
Op welke manier geeft het gemiddelde het centrum/midden van onze verdeling aan?
- De som van de deviaties (afwijkingen van X- μ) tussen de observaties en gemiddelde is altijd 0
- Dat wil zeggen dat de totale afstand
tussen de observaties hoger dan het
gemiddelde en de totale afstand
tussen de observaties lager dan het
gemiddelde zijn precies even groot
- Alle deviaties samen (X –
gemiddelde) zijn 0.
- Meest betekenisvol voor ratio en interval
Spreidingsmaten beschrijven de variatie/spreiding/breedte van een variabele
Zonder spreiding is er niets te onderzoeken.
- Bereik: het verschil tussen de laagste en hoogste waarde van de variabele.
- Variantie σ2: bepaal de afstand tot het gemiddelde van iedere waarde. Kwadrateer deze en
tel ze bij elkaar op. Deel de som door n-1.
- Standaarddeviatie σ: de wortel van de variantie
, Hoorcollege 2
Kans en kansverdelingen
Een kans noteren doe je als P(x=uitkomst) of P(uitkomst).
Kansen voor discrete vs continue variabelen
Kansrekenregels (discreet)
Een kans is altijd tussen 0 en 1. De kansen voor alle uitkomsten voor een variabele zijn samen 1. Voor
mutueel exclusieve gebeurtenissen A en B (ze kunnen niet tegelijk voorkomen bv een rode en
zwarte kaart of aas en heer) kun je de kansen bij elkaar optellen P(A of B) = P(A) + P(B).
Bij niet-mutueel exclusieve gebeurtenissen A en B (de kansen kunnen wel tegelijk voorkomen) geldt
P (A of B) = P(A) + P(B) – P(A en B).
Bv. P(harten of dame) = P(A) +P(B) – P(A en B) 13/52 + 4/52 – 1/52 = 16/52.
Complementregel: P(A) = 1 – P (niet A). een kans is 1 – de kans op al het overige.
Kansrekenregels (continu)
Een kans is altijd tussen de 0 en 1. De oppervlakte onder de curve is de kans. De totale oppervlakte
onder de curve is altijd gelijk aan 1. De kans op een specifieke uitkomst is gelijk aan 0: P(leeftijd = 25)
= 0. Dit komt doordat er wordt afgerond op gehelen. We werken daarom met intervallen i.p.v.
uitkomsten: P(leeftijd>35) = 1.5/ P(leeftijd tussen de 25 en 35) = 25. Ook voor mutueel-exclusieve
gebeurtenissen A en B P(A of B)= P(A) + P(B). De kans op precies iets laten we dus weg we
werken met > en <.
Voor niet-mutueel exclusieve gebeurtenissen A en B: P(A of B) = P(A)+P(B) – P(A en B)
P (leeftijd 15 tot 25 of P leeftijd 25 tot 35) = P (leeftijd 15 tot 25) + P(leeftijd 25 tot 35). Bv. (P15 tot
30 of 25 tot 50) = P(15 tot 30) + P(25 tot 50) – P(25 tot 30). 25 en 30 zijn namelijk dubbel geteld.
Ook hier geldt de complementregel. Echter P (leeftijd>25) = 1 – P(leeftijd<25)
Speciale kansverdelingen: bernoulli en normaal
- Bernoulli-verdeling (dichtome variabelen twee mogelijke uitkomsten: ja/nee of
Tilburg/anders)
We noemen één uitkomst ‘succes’ en de andere ‘falen’ deze kunnen ook andersom. De vorm van de
kansverdeling wordt bepaald door één parameter ‘p’. p is de kans op een succes. Notatie:
X~Bernoulli(p). bv. woonplaats ~ Bernoulli (.36).
Golfje betekent ‘verdeeld als’
Als n>30 dan is het bij benadering normaal verdeeld. Gemiddelde is hetzelfde als
steekproefgemiddeldes x̄ .
- Normale verdeling
Voor continue variabelen. X loopt van -∞ tot ∞ (-oneindig tot oneindig). de oppervlakte onder de
curve geeft de kans weer. De totale oppervlakte onder de curve is weer gelijk aan 1. Perfect
symmetrisch en ‘belvormig’. Wordt ook Gaussian distribution genoemd. Steekproevenverdeling van
het steekproefgemiddelde is ook normaal verdeeld. De vorm wordt verdeeld door het gemiddelde μ
en de standaarddeviatie/variantie: σ/σ^2. 2,5%/13,5%/34%/34%/13,5%/2,5%.
Z-scores
Soms zit iets tussen de vastgestelde scores, bijvoorbeeld tussen het gemiddelde en één
standaarddeviatie. Dan maak je gebruik van Z-scores i.p.v. X-scores. De Z-scores zijn normaal
verdeeld met een gemiddelde van 0 en een standaarddeviatie van 1. Er zijn tabellen met de kansen
van deze waardes. Je kijkt naar de Z die je zoekt in de tabel. Je kijkt naar body en tail. Body is grootste