HC1
Correlatie is niet gelijk aan causatie. Ook al komen twee variabelen overeen (correlatie),
betekent dat niet dat er een causale relatie is.
Correlatie = Er is samenhang tussen 2 factoren (films met een specifieke acteur en aantal
verdrinkingen per jaar)
Causatie = Het een veroorzaakt het ander
2 soorten statistiek:
- Beschrijvende statistiek
- Gebruik: kwantitatieve samenvatting van informatie/data
- Relevante jargon: summary statistics, gemiddelde, mediaan, modus,
variantie, standaarddeviatie, covariantie, frequentieverdeling, histogram
- Over het beschrijven van data
- Inferentiële statistiek
- Gebruik: maak inductieve inferenties van data (een steekproef) naar een
meer algemene studie (de populatie)
- Relevante jargon: sampling error, standaardfout, schatten, confidence,
intervals, margin of error, hypothesetoetsing
- We willen een inferentie (=gevolgtrekking) maken van iets naar iets anders
Onafhankelijke variabele = X
Afhankelijke variabele = Y
Kwantificering van dataset:
Variabelen zoals geslacht omzetten in cijfers
1. Nominale variabelen
a. exclusieve categorieën: man en vrouw, nationaliteit
2. Ordinale variabelen
a. Exclusieve categorieën met betekenisvolle ordening: goud, zilver en brons en
Likertschalen: zeer oneens, oneens, neutraal, mee eens en zeer eens
3. Interval variabelen
a. De interval tussen de geordende uitkomsten is betekenisvol en dezelfde
grootte: Temperatuur in graden Celsius/fahrenheit of intelligentie
4. Ratiovariabelen
a. Je hebt een absoluut nulpunt: grammen en centimeters (ook graden Kelvin,
kan niet lager dan 0)
,Discrete vs continue random variabelen
- Het type variabele bepaalt wat voor analyses we er beter wel/niet op uit kunnen
voeren
- Discrete variabele (aantal bestellingen per week, kunnen alleen hele getallen zijn)
- De mogelijk uitkomsten voor de variabelen zijn te vangen in een eindige,
telbare lijst van waarden. Let op! Als de gemeten score discreet is, hoeft de
onderliggende variabele dat niet te zijn. (bijvoorbeeld leeftijd afgerond op hele
jaren)
- Voorbeelden:
- Aantal kinderen per gezin
- Dosering categorieën (laag, medium, hoog)
- Sekse categorieën (man/vrouw)
- Beroepsgroep (docent, advocaat, tandarts)
- Continue variabele
- De mogelijke uitkomsten van de variabelen kunnen elke waarde aannemen
binnen een bepaald interval (dat interval zou kunnen lopen van -oneindig tot
oneindig
- Voorbeelden
- Leeftijd (niet afgerond)
- Hoeveelheid gedronken alcohol
- Dosering in grammen
- Lengte
Frequentieverdelingen en kansverdelingen
- Frequentieverdelingen
- Een tabel of grafiek die weergeeft hoe vaak een bepaalde uitkomst is
geobserveerd voor elke mogelijke uitkomst voor die variabele
- Kans
- De relatieve frequentie van de uitkomst
- d.w.z.: Hoe vaak de uitkomst voorkomt in verhouding tot het totaal aantal
observaties
- 11 grote auto’s van 54 observaties in totaal = 11/54 = 0.204
- Kansverdelingen laten de kans zien op elke mogelijke uitkomst voor een
random variabele
- Deze kansen moeten altijd optellen tot 1
- 11/54 + 22/54 + 21/54 = 0.204 + 0.407 + 0.389 = 1
,Beschrijvende statistieken
- Voor het samenvatten van variabelen en hun kansverdelingen in een paar getallen
- Centrummaten
- Beschrijven het ‘centrum’ of ‘midden’ of ‘typische waarde’ voor een variabele
- Modus, mediaan en gemiddelde
- Modus: Uitkomst die het vaakst voorkomt (hoogste frequentie)
- Mediaan: Waarde die de hoogste helft van de data scheidt van de
laagste helft van de data (Middelste getal). Als er twee middelste
getallen zijn neem je het gemiddelde van de middelste twee getallen.
- Gemiddelde
Griekse letters voor populatie
Romeins voor steekproef
- Spreidingsmaten
- Beschrijven de variatie, spreiding, breedte van een variabele
- Bereik, variantie en standaardisatie
- Het idee: hoe ver zijn de observaties, gemiddelde genomen, van het centrum
van de verdeling
- We nemen het volgende als centrum van de verdeling
- Laten we een poging wagen met de volgende cijfers: 7, 7, 8, 6, 9
, We zullen de deviaties kwadrateren, zodat de negatieve en positieve waarden elkaar niet
opheffen
- = Variantie
- De gemiddelde gekwadrateerde afwijking (deviatie) van het gemiddelde
- 1. voor elke observatie bereken je de afwijking (deviatie) van het
gemiddelde
- 2. Kwadrateer alle deviaties die je in stap 1 hebt berekend
- 3. Neem de som van alle gekwadrateerde deviaties uit stap 2
- 4. Bepaal het totaal aantal observaties, we noemen dat aantal n of N
- 5. Deel de som van de gekwadrateerde deviaties door het totaal
aantal observaties
1.96 + 0.16 + 0.16 + 0.36 + 2.56 = 5,2
5,⅖ = 1.04 (variantie is 1.04)
Spreidingsmaten
- Standaarddeviatie
- De wortel van de variantie. Handig om te hebben omdat het uitgedrukt wordt in
dezelfde eenheden als de observaties i.p.v. die kwadraten in de variantie
- 1. Bereken de variantie
- 2. Neem de wortel van de variantie
- Wortel van 1.04 = 1.02