1
Statistiek 2
Hoorcollege 1
Beschrijvende statistiek:
- Samenvatten van de data middels tabellen en figuren.
- Samenvatten per variabele (verdeling), samenvatten voor meerdere
variabelen (samenhang).
De deviatie is de afwijking van de score van iemand, ten opzichte van de
gemiddelde score.
- Die afwijking kwadrateren we, omdat de afwijking onder en boven het
gemiddelde kan liggen. Maar of het eronder of erboven ligt, doet er niet zoveel
toe. Het gaat er meer om hoeveel het van het gemiddelde af ligt.
De standaarddeviatie is eigenlijk de gemiddelde deviatiescore, gemiddeld over al
die personen heen.
De empirische regel (bij een normaalverdeling):
- 68% van de waarnemingen ligt maximaal één SD van het gemiddelde af.
- 95% van de waarnemingen ligt maximaal twee SD’s van het gemiddelde af.
- 99% van de waarnemingen ligt maximaal drie SD’s van het gemiddelde af.
Hoe zat het ook alweer met interkwartielen etc:
Kansverdelingen:
- Discrete kansverdeling:
- Continue kansverdeling:
, 2
- Kansverdelingen in de statistiek:
o Scores omzetten naar Z-scores!
Hoe groot is de kans dat een volwassene de score van 120 of hoger haalt (bij
IQ-scores)?
- IQ-scores zijn normaal verdeeld.
- Gemiddelde van 100.
- Standaarddeviatie van 15.
à Dan ga je de scores omzetten naar Z-scores.
- Dat doe je door de observatie (de waarde op Y) – het gemiddelde / de
standaarddeviatie.
o Dan krijg je een Z-waarde.
§ Dan zoek je in het boek de Z-tabel op, en kijk je welke waarde
(overschrijdingskans) er bij die Z-waarde hoort.
Verdelingen:
Populatieverdeling: verdeling van de populatie.
Steekproefverdeling: verdeling van scores van mijn variabelen in de steekproef.
Steekproevenverdeling: verdeling van die steekproefgrootheid over verschillende
steekproeven heen.
- Het gemiddelde van de steekproevenverdeling blijkt uiteindelijk 𝜇 te zijn.
- De standaarddeviatie van de steekproevenverdeling heet de standaardfout.
o De steekproevenverdeling vertoont minder spreiding dan de verdeling
waaruit de steekproef getrokken is, dus de standaardfout is over het
algemeen kleiner dan de standaarddeviatie. Omdat:
§ Als je een steekproef hebt van een bepaalde grootte, dan is de
kans dat je een extreme waarde hebt, best wel klein.
§ Dus de verdeling van het steekproevengemiddelde wordt smaller
naarmate we meerdere proefpersonen hebben. Want hoe groter
je steekproef, des te kleiner de kans dat je met je schatting heel
ver afwijkt van de werkelijkheid.
Centrale limietstelling en de normale verdeling:
- Ook al is mijn verdeling van de populatie niet normaal verdeeld, als mijn
steekproevenverdeling groot genoeg is dan zal die uiteindelijk wel normaal
verdeeld zijn.
Hoorcollege 2
In een steekproef van 30 vrouwen die tijdens de zwangerschap roken, is de
gemiddelde lengte van de kinderen 50 cm met een standaardafwijking van 1 cm.
à Maar dit is het steekproef gemiddelde. We willen uiteindelijk het
populatiegemiddelde.
- We willen iets zeggen over het populatie gemiddelde (populatie gemiddelde
schatten).
, 3
o De punt schatting is de beste gok die je kunt doen.
§ Maar er is ook een intervalschatting om die puntschatting
heen. Die ligt om de puntschatting heen en bekijkt waar
ongeveer je parameter tussen zou moeten liggen.
o Hoe weet je of een schatter (zoals het steekproefgemiddelde) ook echt
een goede schatter is voor je populatiegemiddelde?
§ Die moet dan aan twee eisen voldoen:
• De zuiverheid van de schatting (hij moet unbiased) zijn.
• De doeltreffendheid (hij moet efficiënt zijn).
• à Het blijkt zo te zijn dat de beste schatter het
steekproefgemiddelde is. Dit blijkt een type
steekproefgrootheid te zijn die unbiased én efficiënt is.
- We willen dan ook iets zeggen over hoe zeker we zijn van dat gemiddelde
(betrouwbaarheidsinterval).
o Dan trekken we bij de puntenschatting de foutenmarge op en trekken
we de foutenmarge er af.
o Daar hoort ook het betrouwbaarheidsniveau bij: dat is de kans dat de
methode uit komt in een interval waar de parameter in valt. Meestal is
dit 95% of 99%.
o We weten volgens de empirische regel dat 95% van de verdeling
maximaal binnen twee standaardfouten van de parameter af ligt (naar
links en naar rechts).
o De breedte van het interval neemt ook toe als de betrouwbaarheid
stijgt. Bij 95% in het interval minder breed (aan iedere kant 2,5%) dan
bij 99% (aan iedere kant 0.5%).
o Maar de breedte van het interval neemt juist af als de steekproef groter
wordt.
- Je rekent die uit door:
o Puntschatting (steekproefgemiddelde) + de foutenmarge (daarvoor
neem je de Z score die correspondeert met de betrouwbaarheid van
95%) * de standaardfout.
o En puntschatting (steekproefgemiddelde) - de foutenmarge
(daarvoor neem je de Z score die correspondeert met de
betrouwbaarheid van 95%) * de standaardfout.
§ Alleen kennen we de standaardfout eigenlijk niet, net zoals we
het gemiddelde niet kennen.
, 4
§ We schatten dus 𝜎 aan de hand van s, maar dan gebruiken we
niet meer de standaard normaalverdeling maar de T-verdeling!
o Want bij een onbekende 𝝈 gebruiken we dus de T-verdeling.
§ De T-verdeling lijkt wel op de normaalverdeling.
o Op het moment dat we een T-toets willen gaan doen, moeten we de
vrijheidsgraden berekenen.
§ Die hangen af van de restricties op de observaties. Hoe meer
restricties, hoe minder vrijheidsgraden.
o We gaan dus de T-waarde gebruiken in plaats van de Z-waarde om het
betrouwbaarheidsinterval uit te rekenen, omdat we 𝜎 niet kennen en
het met s moeten doen.
§ Om die T-waarde te vinden die hoort bij het 95%
betrouwbaarheidsinterval moeten we het aantal vrijheidsgraden
weten. Dat is gegeven door N-1.
§ Dan zoek je in de T-tabel de T-waarde op, en die stop je in de
formule voor het betrouwbaarheidsinterval.
o Dus van het voorbeeld:
§ Vrijheidsgraden = N-1. Dus 29.
§ Steekproefgemiddelde (ȳ) = 50 en s = 1.
§ We gaan de T-score opzoeken die hoort bij 95%
betrouwbaarheid. Die blijkt bij 29 vrijheidsgraden .025 te zijn.
§ De standaardfout (se) moeten we uitrekenen: s/√𝑛 = 1/√30 =
.18257.
• Dan voer je dat in, in de formule voor
betrouwbaarheidsinterval: ȳ ± t.025 * se = 50 ± 2.045 *
.18257.
o Dan komt daar een betrouwbaarheidsinterval uit
van 49.63 < 𝜇 < 50.37.
o We geloven dus met 95% zekerheid dat 𝜇 in dit
interval ligt; 95 van de 100 bepaalde intervallen
bevat 𝜇.
- En dan willen we ook nog een statistische toets uitvoeren. We willen weten
of de gemiddelde lengte die we hebben gevonden bij vrouwen die roken, of
die significant afwijkt van de algemene populatie van vrouwen die niet roken.
o Je hebt de nulhypothese en de alternatieve hypothese.
o Dus van het voorbeeld:
o (In de algemene populatie blijkt het gemiddelde 52 te zijn).
§ Steekproefgemiddelde = 5
§ 0.
§ Standaarddeviatie = 1.
§ Sample size = 30, dus vrijheidsgraden = 29.
o T-waarde is dan = 50-/√30 = -10.95.
o Dan zoek je in de Tabel B in het boek van Agresti bij df=29, bij één- en
tweezijdig toetsen P <.001.
, 5
§ Dus we verwerpen de nulhypothese. Dus we concluderen dat de
gemiddelde lengte van baby’s van rokende vrouwen significant
afwijkt van de gemiddelde lengte van baby’s van de algemene
populatie.
• Dus dat roken wel degelijk een schadelijk effect heeft op
de groei van de baby’s.
Hoorcollege 3
Enkelvoudige lineaire regressie:
- Er zijn twee parameters nodig:
o De 𝜶 (oftewel de constante/ of het intercept).
§ De waarde voor y als x = 0.
o De 𝜷 (oftewel de regressie coëfficiënt).
§ Hoe steil de lijn is.
§ Als je op je x-as met 1 eenheid omhoog gaat, met hoeveel
neemt y dan toe.
- Regressiemodel is niet deterministisch maar stochastisch.
o Dat betekent dat we niet met zekerheid de y kunnen voorspellen als we
de x weten. Je kan alleen maar uitspraken doen over dat het
waarschijnlijk is dat iemand een bepaalde y-waarde heeft gebaseerd op
de x-waarde (stochastisch).
Sir Francis Galton is de grondlegger van de tweelingenmethode.
- Hij heeft ook regressieanalyse bedacht.
- De regressielijn is een voorspelling. De waarnemingen kunnen daarvan
afwijken.
- Notatie:
o In de steekproef is de notatie voor het regressiemodel als volgt:
§ y^ = a + b ∗ x, of y = a + b ∗ x + e
• y^ staat voor ‘voorspelde y’.
- De Kleinste Kwadraten methode:
o Zorgt ervoor dat we de best passende lijn vinden als het gaat over het
schatten voor de waarden van de populatie.
o Bepaalde kwadraten worden zo klein mogelijk gemaakt.
o De afstanden tussen de observaties (de puntjes) en de voorspelling (de
streep) moeten het liefst zo klein mogelijk zijn.
o De errorterm wordt weergegeven door ‘e’ en bereken je door y - ȳ.
§ De som van de gekwadrateerde errors worden geminimaliseerd
bij het uitvoeren van de Kleinste Kwadraten Methode.
§ Dus als je de ‘e’ uitrekent voor elk bolletje, die kwadrateert, alle
waardes van die bolletjes optelt, dan krijg je daar je Sum of
Squared Errors (SSE) uit.
, 6
o Bij de Kleinste Kwadraten Formule horen de volgende twee formules
om a en b te schatten:
o Toepassen in voorbeeld:
§ Stel je krijgt de volgende gegevens:
• Dat zijn de scores op een x variabele en de scores op een
y variabele van zes mensen (zes leerlingen):
• Daarnaast is er ook aan de leerkracht gevraagd hoe bang
dat hij denkt dat zijn leerlingen zijn voor het maken van
toetsen.
§ Handmatig kan je dan alle gegevens uitrekenen (in SPSS kan je
dat met één druk op de knop doen):
• Je gaat het gemiddelde uitrekenen voor x en voor y. Dus
dan heb je ȳ en x̄.
• Vervolgens ga je een tabel maken van alle scores die je
nodig hebt voor de formule voor b.
• Leerling 1 scoorde ‘3’ op de x variabele. Gemiddelde
scoorde de leerlingen 4.67, dus dan kan je de
deviatiescore uitrekenen: x – de gemiddelde x.
o 3 – 4.67 = -1.67.
§ Die waarde kan je kwadrateren. Dan heb je
het kwadraat van die deviatiescore. Die is
2.78.
• Je gaat hetzelfde doen voor y. Leerling 1 scoorde 5 en
het gemiddelde = 5. Dus daar komt ‘0’ te staan.
§ Vervolgens bereken je dan de som van al die dingen (zie
onderste regel in de tabel).
• De deviatiescores die moeten altijd optellen tot ‘0’.
Anders heb je en rekenfout gemaakt!
o Sommige scoren namelijk onder gemiddeld en
sommige boven gemiddeld, dat middelt elkaar uit
naar ‘0’.
, 7
§ In de derde verticale kolom zie je de som van de kruisproducten.
Die telt op tot 20.
• Dan kan je b zelf uitrekenen!
• Dus als je 1 eenheid om hoog gaat op de x, dan is de
voorspelling dat de leerkrachten met .42 stijgen als ze
moeten aangeven hoe bang hun leerling met de toets is.
• We kunnen a ook bepalen:
o De gemiddeldes hadden we al. De b stoppen we er
gewoon in:
§ De geschatte regressielijn is dan:
Marginale en conditionele variantie:
- De marginale verdeling is de verdeling van y, zonder dat er rekening
gehouden wordt met de x.
o Daar hoort een variantie bij. De variantie van y (sy2).
o Daar hoort een n-1 vrijheidsgraden bij onder de noemer.
- De conditionele variantie is de verdeling waarbij je wel rekening houdt met x.
o Hoeveel ‘error’ blijft er nog over als we x gebruiken om y te voorspellen.
Hoe variëren die y waarden rondom die y-gemiddeldes.
o Daar hoort een n-2 vrijheidsgraden bij onder de noemer.
§ Er zijn namelijk twee parameters die al geschat moeten zijn (a
en b). Dus die verlies je al op je ‘n’.
De kwadratensommen (het verschil tussen de
TSS en de SSE) kan je in een figuur inzichtelijk
maken:
Als je alleen kijkt naar de y-waarden, zonder
rekening te houden met de x:
De totale kwadratensom geeft alle verticale
afstanden van alle bolletjes ten opzichte van
de gemiddelde y (dus de horizontale lijn) weer.
, 8
Maar als we wel de informatie over x gaan gebruik om y te voorspellen, dan worden
die afstanden kleiner.
- De rode lijn is de voorspelling geconditioneerd op x.
o De SSE wordt dan een veel kleinere waarde dan de TSS.
§ We hebben dan ‘error’ gereduceerd.
Regressieschatter b heeft zelf ook een steekproevenverdeling:
- We berekenen aan de hand van steekproefdata, de b. We hopen dat die iets
zegt over de werkelijke waarde (de beta van de populatie).
o In de ene steekproef zit je hartstikke dicht bij de werkelijke waarde,
maar bij de andere steekproef zit je ernaast.
- à Dus b heeft zelf ook een steekproevenverdeling.
o Hij heeft dan een gemiddelde en een standaardafwijking.
§ Het gemiddelde is gewoon ‘beta’.
§ De formule voor de standaardfout van b is
o In 95% van de steekproeven ligt onze b in het blauwe vlak.
De spreiding in de b’tjes van de verschillende steekproeven
dat is de standaardfout.
Even op een rijtje en in vergelijking met het gemiddelde:
We hebben bij beide te maken met een puntschatting
en een intervalschatting die we voor de foutenmarge
gebruiken.
- Bij het gemiddelde is de puntschatting (de
beste gok die we kunnen doen voor mu): y-.
o Maar daar hoort ook een bepaalde
standaardfout bij. Een bepaalde
onzekerheidsmarge waar we mee te
dealen hebben.
§ Die werd gegeven door s / √𝑛.
- Nu hebben we b als beste puntschatting. Als beste gok voor beta.
o Maar ook hier hoort een bepaalde standaardfout bij.
§ Die formule ziet er iets ingewikkelder uit: zie tabel hier onder.
Wat bepaalt de standaardfout van b?
- De standaardfout wordt kleiner bij:
o Een afname in s (de residuele variantie van y).
o Een toename van n (grotere steekproeven).
o Een toename van sx (de spreiding van x).