STATISTIEK 2
Categorische= kwalitatief= tekst
Kwantitatief= cijfers= ctn verdeling
Inhoud boek:
• HF 1: intro (niet belangrijk) = wrm we bepaalde tech gebruiken, etc
➢ 1.3 (niet geactiveerd) niet nodig
➢ 1.5 niet nodig
➢ 1.8 niet nodig
➢ Instant msg (om bericht te sturen naar prof voor snel ans ipv mail)
• HF 2: introduction to probability
➢ LLN (law of large numbers) = hoe meer getallen, hoe nauwkeurig de simulatie
➢ Stelling van Bayes
• HF 3: Distribution (niet blokken, is een referentie)
➢ Chi kwadraat (= som van normale verdeling in kwadraat)
• HF 4: Descriptieve statistiek (niet expliciet doen)
➢ EDA: Exploratieve Data Analysis
• HF 5: hypotheses testing (belangrijk HF)
➢ Part 1: (5.1 – 5.16) theorie (geen bewijzen, formules op examen)
➢ Part 2: (rest) toepassen op onderzoek (belangrijk)
• HF 6: Regression analysis
• HF 7: Time series
• HF 8: Time series
• HF 9: Cases (#4)
➢ Niv aan kunnen van 1ste 2 cases (dus die 2 volledig begrijpen om alles te
kunnen)
➢ 3de en 4de zijn moeilijker (eig niet kennen)
Compendium: tekst met hyperlink, die alle gegevens toont
Statistiek 2: zijn website met alle software
, HC 2: HF 5
HF 5: hypotheses Testing (belangrijk HF)
➢ Part 1: (5.1 – 5.16) theorie (geen bewijzen, formules op examen)
➢ Part 2: (rest) toepassen op onderzoek, praktisch deel (belangrijk), methodes
van 5.17 kunnen toepassen op examen.
Je hebt 2 manieren voor toetsen van hypothese
• Bootstrap methode -> heeft wel 1 voordeel. Die werkt altijd
• Klassieke manier -> voorkeur omdat de resultaten die je bereikt zijn veel meer
nauwkeuriger. Hier moet je aantal assumpties maken. Soms zijn die niet voldaan dus
dan is het zinloos
Kerngetallen: interpretatie van de spreiding of de variantie van normaalverdeling. Hoe
groter de variantie hoe platter de normaalverdeling. Dus ook hoe groter de staarten zijn. De
kurtosis neemt ook toe.
Kurtosis: dikte van de staart. Voor normaalverdeling moet het 3 zijn. Dus de dikte van de
staart voor normaalverdeling altijd zelfde moeten zijn.
Betrouwbaarheidsinterval opstellen door de kerngetallen: Betrouwbaarheidsinterval is om
waarschijnlijkheid uit te drukken. Waarschijnlijkheid wordt berekend als de oppervlakte
onder de curve.
Variantie: In welke mate kan je afwijken van de stippellijn naar links of rechts. Het is sigma
^2 (à^2)
Sigma: De rode op foto. = à. Het is een stddev tov µ. Je maakt een voorspelling, de µ. De
werkelijk uitkomst zal afwijken van de µ. Dus de gemiddelde van de afwijkingen die je hebt
is sigma. In andere woorden de te verwachten afwijking.
,Steekproef: 5.3 in boek: The sample
Popluatie
Steekproef: het is veel kleiner dan een populatie. Het moet aselecte steekproef zijn. (In
ENG: random sample= elke ind uit de
populatie heeft evenveel kans om in de
steekproef terecht te komen)
• 1ste steekproef: aselecte steekproef.
Het rekenkundige gemiddelde daarvan
is x1.
• 2de aselecte steekproef: x2 -> onafhankelijk trekken met terugleggen.
X1, x2, x3 … die gaan niet hetzelfde zijn. Die gaan andere verdeling hebben.
Fundamenteel eigenschap: wanneer je onafhankelijke steekproeven trekt, je doet het
aselect dus de x (strepen) zich normaal verdelen, de verwachtingswaarde van alle x
(strepen)is µ (mu).
Variantie is veel kleiner: sigma ^2 delen door n.
, HET IS CENTRALE LIMIET STELLING: 5.8 in boek
5.8 Central Limit Theorem = centrale limietstelling
Populatie (mu en sigma kwadraat) waaruit we een steekproef nemen en dit doen we op een random (aselecte) manier
--> iedereen heeft evenveel kans om in de steekproef terecht te komen
In de steekproef hebben we n individuen: observaties (deze n is kleiner dan de n in de populatie)
Steekproef: x streep gaat afwijken van mu, maar niet ongecontroleerd
We trekken opnieuw een aselecte steekproef uit de populatie, nu hebben we n2 observaties met gemiddelde x2 streep
3e aselecte steekproef met n3 observaties en x3 streep als gemiddelde
Elke keer als ik een steekproef trek heb ik de individuen van de vorige steekproef terug in de populatie gestoken, de
steekproeven zijn onafhankelijk van elkaar
(x1 streep, x2 streep, x3 streep,…) --> N(mu, sigma kwadraat/n)
eerste haakjes: verzameling van allemaal gemiddeldes
Centrale limietstelling zegt ons iets over de verdeling van die verzameling van aselect getrokken en onafhankelijk bepaalde
gemiddeldes, die zegt dat die gemiddeldes een normaal verdeling hebben, met als wiskundige verwachting mu en als
variantie (niet sigma kwadraat) maar sigma kwadraat gedeeld door n
Steekproeven met verschillende grootte, veronderstel dat je telkens een even grote hebt, dan is het deze N
Je gaat altijd kunnen stellen dat het gemiddelde uit een aselecte en onafhankelijke steekproef, een normaalverdeling volgt,
met het juiste gemiddelde (mu vd populatie) en een relatief kleine variantie "small", kleiner dan die van de oorspronkelijke
populatie
De spreiding --> smalle normaalverdeling
Oorspronkelijke meningen van de populatie --> hoeft niet eens een normaalverdeling te zijn
Ongeacht de verdeling van uw oorspronkelijke populatie, ga je toch tenderen naar een normaalverdeling van het gemiddelde
uit de steekproef van die populatie, zelfs als er oorspronkelijk een bimodale verdeling zou zijn (2 meningen, polarisering, geen
gemiddelde uitspraken, ofwel voor ofwel tegen) dan nog gaat het gemiddelde normaalverdeling zijn
Ho en Ha zijn 2 hypothese die we tegen mekaar zetten. Ze zijn exclusief dus ofwel is Ho
waar ofwel Ha. Ze kunnen niet alle 2 waar zijn.
Ho aanvaarden = Ha verwerpen
Ho verwerpen = Ha aanvaarden
Type 1 error= Alpha: Ho is waar, maar je gaat
het verwerpen.
Type 2 error= Beta: Ho is niet waar, je gaat het accepteren.
Ho= default hypothese, dategene wat je aanvaardt, gelooft, denkt indien er geen
tegenbewijs bestaan.
In wetenschap: Ho is datgene wat je NIET gelooft. Je wil Ha waar is aantonen, dus je moet
Ho definiëren als datgene wat je niet gelooft. Bv in juridische wereld: je bent onschuldig tot
tegendeel bewijzen is.
Doping bv.
Sporter voorbeeld
Ho: geen doping gebruikt tenzij ik bewijs van hij heeft dat wel gebruikt
Ha: hij heeft het wel gebruikt
Type 1 fout: Alpha: Hij heeft geen doping gebruikt, maar je verwerpt de Ho. Dus je gaat
zeggen hij heeft het wel gebruikt. Kans dat je valselijk beschuldigt. Dus zo klein mogelijk
alpha houden.
,Type 2 fout: Beta. Hij heeft wel doping gebruikt, je aanvaardt de Ho. Dus je gaat zeggen hij
heeft geen doping gebruikt maar in werkelijk heeft hij dat wel gedaan. Kans dat je fraude
wel doet maar niet gepakt wordt.
, HC 3: HF 5
Software op zijn website: https://supernova.wessa.net/ajax/rfc.php
Menu hypothese
- reeks 1 komt overeen met de deel 1 van boek.
We gaan een toets doen => ervan uit gaan dat de variantie gekend is. Eerste reeks 1
calculations gaan we nooit gebruiken voor onderzoek.
Hypothese test invullen
• Sample size: aantal observaties
• Population variance: gegeven
• Sample mean: steekrproef gemiddelde
• Null hypo about mean: µ0
• Type 1 fout: (alpha fout) = hoe groot mag de fout zijn dat ik mij vergis bij het verwerpen
van de null hypo indien het wel waar is. Het is een managementbeslissing. Hoe kleiner
de null hypo hoe moeilijker om null hypo te verwerpen
Voorbeeld van IQ testen van studenten
Gemiddelde IQ van studenten van universiteit is 115. We zitten aan de KUL dus bij ons moet
dat meer zijn. Dat gaan we toetsen met behulp van eenzijdige toets maar de null hypo is wel
115 want bij null hypo is datgene dat we niet willen bewijzen. Dus we hebben gem IQ van
115 tot we het anders kunnen bewijzen.
Mean (known Var.) - Critical Value : Hypothese test invullen
• Sample size: aantal observaties
• Population variance: gegeven: 1.5
• Sample mean: x (streep) 120 (lager dan 115 is een probleem)
• Null hypo about mean: µ0: 115
• Type 1 fout: alpha fout= 0.04
= in de aselect studenten zitten er toevallig ook
studenten die superslim zijn, dus die zijn niet
representatief voor KUL. Dus wat is de kans dat
ik zo’n beslissing neem. Die moet je zelf kiezen.
• Critical value (one-tailed): 115.7. het ligt
tussen µ0 (=115) en x(streep) (=120)
• CI (confidence level =
betrouwbaarheidsinterval) = 1-0.4= 96%
waarschijnlijkheid
, • Hier kan je geen tekening (gaus curve) maken omdat µ (mu) is niet gekend. Dat is de
werkelijk IQ van KUL studenten. We kennen de x (streep) wel dus we gaan daar rond
tekenen. Je kan dat ook zien bij CI dat het rond 120 is berekend en niet rond 115.
• Je gaat kijken of µ0 buiten de grenzen valt. Als 115 buiten de CI ligt, gaan we null hypo
verwerpen.
• Tekening: je gaat het rond x (streep) tekenen dus je moet het spiegelen -> Links
115.7 > 115
Mean (known Var.) - p-value
2de calculator gebruiken voor de p-waarde.
• Nu gaat er geen interval berekend
worden
• Twee getallen van p-value zijn allebei
afgerond 0 want ze zijn zo klein
• P-value= Berekende kans dat je u vergist
bij hets verwerpen van de 0 hypothese
• De berenkende kans is zeer klein
• Aanvaarde kans is 4% (type 1 fout)
• P waarde vergelijken met de gekozen
alpha fout.
P value < aanvaarde kans dus de null hypothese verwerpen. (= kans dat ik mij zou
vergissen is kleiner dan kans dat ik aanvaard)
Conclusie: P waarde is beter/makkelijker te gebruiken dan critical value.
Mean (known Var.) – sample size
Als je type 1 en 2 fout al kent, kan je deze calculator gebruiken voor hoe groot deze
steekproef moet zijn (de n). er is altijd 1 onbekende, dus die kan je berekenen uit deze Test.
Pop. proportion (known Var.) : Gebruiken voor slaagkansen