Week 1
- Statistiek in de empirische cyclus -> inductie deductie -> ‘de abt in bad’
- Beschrijvende statistiek: kwantitatieve samenvatting van informatie/ data
➔ gemiddelde, mediaan, modus, variantie, standaarddeviatie, covariantie, frequentieverdeling, histogram.
- Inferentiele statistiek: maak inductieve interferenties van data (een steekproef) naar een meer algemene
situatie (de populatie).
➔ sampling error, standaardfout, schatten, confidence intervals, margin of error, hypothese toetsing → van steekproef naar populatie
- Als we iets willen zeggen over een populatie op basis van een steekproef dan moeten we rekening houden
met deze onzekerheid. De onzekerheid die komt van het nemen van random steekproeven
(steekproeffluctaties)
- Random variabelen: Variabelen waarvan de mogelijke uitkomsten het resultaat zijn van een random
fenomeen. Statistische notatie: meestal X, of Y
- Meetniveaus zijn cumulatief, elk niveau heeft de eigenschappen van de vorige niveaus.
- Heet meetniveau van een random variabele bepaalt wat voor analyses je er beter wel of niet op kan
uitvoeren.
- Nominale variabele = mutueel exclusieve getallen en uitkomsten. Geen nul
➔ Geslacht: man, vrouw; 0 en 1/ Nationaliteit; Nederlands Duits Grieks Pools; 0, 1, 2 , 3
- Ordinale variabele = ordening in de mogelijke uitkomsten. Gerangschikte categorieën
➔ Dosering: laag, medium, hoog; 0, 1, 2 / Rangen: 1e plaats, 2e plaats, 3e plaats; 0, 1, 2
- Interval variabele = tussen elk van de geordende uitkomsten is betekenisvol en dezelfde grote + Geen
absolute nul punt. Even grote intervallen tussen waarde
➔ Celsius en fahrenheid
- Ratio variabele = absoluut nulpunt; een nul betekent dat de gemeten eigenschap afwezig is
➔ Dosering in milligram: o mg, 1 mg, 2 mg. Dosering kan niet negatief zijn.
- het type variabele bepaalt wat voor analyse we er beter wel of niet kunnen uitvoeren
- Discrete variabele = de mogelijke uitkomsten voor de variabelen zijn te vangen in een einde, telbare lijst van
waarden. (nominaal/ordinaal) aantal kinderen per gezin, dosering categorieën, man/vrouw
- Continue variabele = de mogelijke uitkomsten van de variabele kunnen elke waarde aannemen binnen een
bepaald interval (dat interval zou kunnen lopen van oneindig tot oneindig) leeftijd, hoeveelheid gedronken alcohol,
dosering in grammen, lengte
- Frequentie (van uitkomsten van een random variabele)= hoe vaak een bepaalde uitkomst is geobserveerd
(absolute aantallen)
- Kansverdelingen laten de kans zien op elke mogelijke uitkomst voor een random variabele. Deze kansen
moeten altijd optellen tot 1 (de relatieve frequentie van de uitkomst)
Week 2
- Centrummaten = beschrijven van het centrum of midden of typische waarden voor een variabele
➔ Modus: de uitkomst die het vaakst voorkomt. de uitkomst met de hoogste frequentie.
➔ Mediaan: de waarde die de hoogste helft van de data scheidt van de laagste helft van de data. 50% van
de data ligt boven de waarde, en 50% ligt onder de waarde
➔ Gemiddelde: (meest betekenisvol voor ratio/interval) Notatie u, voor gemiddelde van een populatie
Notatie X, voor het gemiddelde van eens steekproef
- Mooie symmetrische verdeling -> gemiddelde modus en mediaan hetzelfde. Verdeling scheef naar rechts -> gemiddelde naar rechts
- Spreidingsmaten = beschrijven de variatie, spreiding, breedte van variabele - bereik, variantie en
standaarddeviatie
1
, ➔ Bereik: het verschil tussen de laagste en de hoogste waarde van een variabele
➔ Variantie: de gemiddelde gekwadrateerde afwijking (deviatie) van het gemiddelde
➔ Standaardeviatie: Het idee: hoe ver zijn de observaties, gemiddelde genomen, van het centrum van de
verdeling.
Variantie = som van gekwadrateerde deviatie
Totaal aantal observaties
Week 3
z-score
- We lokaliseren een punt ten opzichte van het gemiddelde in termen van SD
- standaardiseren → gemiddelde = 0 en SD =1
kans
- Discrete kans verdeling → Kansen op de y-as - Uitkomsten van de variabele x -as
- Notatie voor de kans bepaald uitkomst: P (X = uitkomst) of korter P(uitkomst). Vereist aselecte steekproef
- P(juist) = 0.50 → P(0.50)^10 voor tien voorspellingen
- Onafhankelijke gebeurtenissen: de uitkomst A verandert de kans op uitkomst B niet en vice versa.
- Onafhankelijke gebeurtenis A en B → P(A en B) = P(A) x P(B) (discrete variabelen)
Voorwaardelijke waarschijnlijkheid:
- De kans op terrorist gegeven dat er een alarm is : P (T | A)
Kansenrekenregels (discrete)
1. Kans is altijd tussen 0 en 1
2. De kansen voor elke uitkomst tellen op tot 1
3. Voor mutueel exclusieve (niet tegelijk voorkomen) gebeurtenissen A en B : P(A of B) = P(A) + P(B)
4. Complementenregel: P(A) = P(NIET A)
5. Voor niet-mutueel exclusieve gebeurtenissen A en B - P (A of B) = P(A) + P(B) – P(A en B)
Kansrekenregels (continu)
1. Een kans is altijd tussen de 0 en 1. De oppervlakte onder de curve is de kans
2. De totale oppervlakte onder de curve is altijd gelijk aan 1
3. De kans op een specifieke uitkomst is gelijk aan 0 → P(leeftijd = 25) = 0
We werken daarom met intervallen van uitkomsten → P (leeftijd > 35) = 0.15
4. Voor mutueel exclusieve gebeurtenissen A en B → P (A of B) = P (A) + P(B)
5. Complementregel → P(A) = 1 – P(NIET A)
6. P(For NIET-mutueel exclusieve gebeurtenissen tussen A en B: → P(A of B) = P(A) + P(B) – P(A en B)
De normale verdeling
- Voor continue variabelen - X loopt van oneindig tot oneindig
- Perfect symmetrisch en belvormig - Veel variabelen bij benadering normaal verdeeld
- De opp onder de curve geeft de kans weer. - De totale oppervlakte onder de curve is gelijk aan 1
- Steekproevenverdeling van het steekproefgemiddelde is normaal verdeeld!!!
- Het gemiddelde (U) is het exacte midden + De standaarddeviatie of variantie bepaalde de breedte
- Notatie: X ~N(u,0)
Standaardnormale verdeling → smaller normale
- Normale verdeling met een gemiddelde van 0 en standaarddeviatie van 1
2
, - Z scores op de X-as - Z ~ N (0,1)
Normaal verdeeld variabelen transformeren naar Z-scores
1. We maken het gemiddelde 0, door het gemiddelde van X af te trekken van elke observatie X
2. We maken de standaarddeviatie 1, door elke observatie X te delen door de standaarddeviatie van X
Teruggaan van Z-scores naar X
- Een Z-score geeft aan hoeveel standaarddeviaties boven een observatie af ligt
van het gemiddelde
- Z = 3 x ligt 3 standaarddeviaties boven het gemiddelde
Bernoulli-verdeling
- Voor discrete variabelen met 2 uitkomsten (dicotome variabelen)
- We nemen één uitkomst ‘succes’ en de ander ‘falen’
- De vorm van de kansverdeling wordt bepaald door één parameter P
- P is de kans op een succes
- Notatie: X ~ bernoulli(P) = woonplaats ~ bernoulli(36)
Week 4
Verdelingen en steekproeven
1. We hebben een enkelvoudige aselecte steekproef genomen (simple random sample)
2. We nemen een steekproef met teruglegging
We nemen steekproeven uit een oneindig grote populatie
- Met teruglegging : Nadat we een observatie uit de populatie hebben getrokken, stoppen we het weer terug
in de populatie. De populatie en diens kansverdeling veranderen niet.
- Zonder teruglegging: Nadat we een observatie uit de populatie trekken, stoppen we die niet meer terug in de
populatie.
- De populatie wordt kleiner met elke trekking, en de kansverdeling verandert mee.
- Voor oneindige grote populaties maakt met/zonder terugleggen niet meer uit.
- Breedte steekproevenverdeling hangt af van hoe groot de steekproef is.
➔ Kleine steekproef zal die breed zijn. Soms hoog soms laag gemiddelde.
➔ Grotere steekproef dan gemiddelde dan zullen gemiddelde dichter bij elkaar liggen
Populatieverdeling
- Meestal de verdeling waar wie iets over willen weten + Meestal onbekend in de praktijk x = gemiddelde
- Populatie statistieken griekse letters notatie – steekproefstatistieken gewone leters s= standaard deviatie
Steekproevenverdelingen:
- NIET!! Een verdeling van de scores X in een steekproef
- Het is de verdeling van de steekproefstatistieken die we zouden krijgen voor alle verschillende
steekproeven, als we oneindig veel steekproeven nemen voor een bepaald steekproefgrootte N
- Theoretische kansverdelingen, meestal onbekend in de praktijk
- Vaak het type verdeling afleiden obv wat we weten of aannemen over de populatie en hoe we onze
steekproeven hebben getrokken.
Eigenschappen van de steekproevenverdeling van de steekproefgemiddeldes X
1. Centrale limietstelling
3