Hoorcollege 1
1. Kijk naar je data hoe het eruit ziet; verdeling en spreiding
2. Hoe is dit gemeten/verzameld?
3. Centrale tendentie; mu of x; gemiddelde; mean; avarage; expected value
4. Standaarddeviatie: afstanden gemiddelde bij elkaar opgeteld is nul, daarom moet het
worden gekwadrateerd
5. Variantie en standaarddeviatie: is het een steekproef of een populatie
6. Verschil beschrijvende (populatie) en verklarende statistiek(steekproef verklaring populatie)
7. Betrouwbaarheid op basis van sigma
8. Probleem bij betrouwbaarheid bij steekproef: centrale limietstelling en maak een grotere
steekproef (minimaal 30). Steekproefverdeling μ en standaardfout bekijken (SE).
9. Werken met intervalschatters
10. Bepaalde mate van betrouwbaarheid 95% bevind het gemiddelde zich in [5.83-6,66] Bij
kleine steekproef werken met t-toets
11. h0= (mu=7) bewering waarvan we uitgaan dat het waar is, ha= (mu<7)mark niet sympathiek
beschouwd, berekenen met z of t-toets en hier komt een alpha uit
12. p-waarde= significantieniveau, p kleiner dan alpha dus wordt h0 verworpen
Sympathie Mark Rutte
• Op basis van een steekproef van 50 personen, komen we nu tot een gemiddelde sympathy
score voor Mark Rutte van 6,25 met een standaarddeviatie van 1,5
• Kunnen we op basis hiervan concluderen dat Mark Rutte niet als een sympathiek persoon
wordt gezien?
• H0: μ = 7 Ha: μ < 7 α = .05 met een t-toets= -3,54 meer dan 3
standaardfouten van het gemiddelde dus onwaarschijnlijk dat h0 waar is
Meerdere steekproeven en deze vergelijken met elkaar
Sympathie voor mark veranderd?
Hypothesen:
H0 = mu1- mu2 = 0
Ha= mu1 – mu2 is niet 0 → kan ook groter dan of kleiner dan 0 zijn afhankelijk van de vraag
Dit bepaald dus ook eenzijdig of dubbelzijdige toets
,De verschillen mu1-mu2 in een tabel zetten in een steekproekproevenverdeling
Hypothesen:
H0 = mu2014- mu2010 = 0
Ha= mu2014 – mu2010 is niet 0
N2010= 50 N2014=50
Vanaf welke waarde h0 verdeling: kritieke waarde, bij 95% is z-waarde -1,96 en 1,96
H0= het verschil zoals verondersteld in de 0 hypothese, in dit geval 0
(x1 − x 2 ) - D 0 (6,18 - 6,56) − 0
Z= = −0,99
σ (x1 − x 2 ) 2,184 2 1,6282
+
50 50
H0 niet verwerpen bij alpha is 0,05; minder dan één standaardfout van het gemiddelde af dus er is
geen aanleiding om te vermoeden dat de sympathie is veranderd.
Statistisch model
Score=(model)+error
Error (deviance) = score – (model)
Basismodel: schatting voor sympathie terwijl er niks bekend is gebruik je het gemiddelde
Score= gemiddelde + error
Error (deviance)= som van de gekwadrateerde afstanden tot gemiddelde= SSE sum of squared errors
Score=6,1=b0=intercept
T-toetsen als vorm van regressie
Je voegt een factor toe aan de toets
Score = (model) + error
Score = (b0 + b1Xi)
Mark Rutte is een charmante man,
Hypothese 1: Meer sympathie van vrouwen
• Score = (b0 + b1Xi)
• Score = b0 + b1 vrouw
• b1 = ‘bonus’ in sympathie veroorzaakt door factor vrouw
• b1 = ͞xvrouw - ͞xman
Mark Rutte is een ongehuwde man,
Hypothese 2: Meer sympathie van ongehuwden
• Score = (b0 + b1Xi)
• Score = b0 + b1 ongehuwd
• b1 = ‘bonus’ in sympathie veroorzaakt door factor ongehuwd.
• b1 = x͞ ongehuwd - x͞ gehuwd
,Hoe te bepalen of het verschil van 0,14 in de gemiddelde sympathie tussen m/v groot is?
Standaardfout drukt de breedte van de verdeling uit
Hoe groter de standaardfout, hoe meer ruis
σxv-xm = gewogen gemiddelde SE vrouw (0,060) en SE man (0,059)
𝜎2 𝜎2 3,017 3,035
σxv-xm = √ + =√ + = 0,084 (afgerond)
𝑛1 𝑛2 882 853
t-waarde drukt het verschil in gemiddelde uit in standaardfouten
𝜇𝑣− 𝜇𝑚
t= σxv-xm
Paired sample t-test; zelfde groep met 2 verschillende vragen
H0 = Mu D = 0
Ha= Mu D is niet 0 → kan ook groter dan of kleiner dan 0 zijn afhankelijk van de vraag
Dit bepaald dus ook eenzijdig of dubbelzijdige toets
T-toetsen voor proporties
• Hypothese 4: Het kijken van populaire tv programma’s zoals De Wereld Draait Door (DWDD)
heeft invloed op de sympathie voor politici (positief dan wel negatief).
• Statistische hypothese: onder kijkers van De Wereld Draait Door (DWDD) is het percentage
Rutte sympathisanten anders dan onder niet-kijkers.
• T-toets voor situaties waarin je te maken hebt met een binomiale afhankelijke variabele.
• Hier de vraag of iemand Rutte wel of niet sympathiek vindt.
• Scores van 7 of hoger = sympathiek (1)
• Scores van 6 of lager = niet sympathiek (0)
, Hoorcollege 2
Terugblik:
• Statistische modellen verklaren spreiding (deviatie) tov het gemiddelde
• Basismodel is y = x|
• We drukken de kwaliteit van ons model uit met behulp van SE
• In veel statistische analyses werken we met de gekwadrateerde afstanden tot het
gemiddelde
• Sum of Squres for Error (SSE)= som van de gekwadrateerde afstanden tot het gemiddelde
Variantieanalyse
In hoeverre kunnen we een score verklaren op basis van het lidmaatschap van een bepaalde groep
PLOT IS GEEN TOETS, GEEFT ALLEEN INZICHT IN RELATIE; LET OP SCHAALVERDELING DIE KAN
VERTEKEND ZIJN
Variantieanalyse als vorm van regressie
• Basismodel: score = b0 + error
• t-toets model: score = b0 + b1*Xi + error
• Xi = geslacht. Man = ‘0’ Vrouw = ‘1’
Variantie heeft alleen meer groepen
• Variantieanalyse: b0 + b1*Xi + b2*Xi + b3*Xi + b4*Xi + error
• Xi = Kijken naar Hart van Nederland
• 0 = nooit (referentie categorie)
• 1 = minder dan eens per week
• 2 = 1-2 keer per week
• 3 = 3-4 keer per week
• 4 = vrijwel dagelijks
Verklaarbaarheid
Systematische variantie = verklaarbaar
Onsystematische = onverklaarbaar
De verklaarbaarheid kan je uitdrukken met een ratio (verhoudignsgetal)
Wat moeten we weten om deze ratio te kunnen bepalen
• Totale variantie t.o.v. het gemiddelde (SST)
• Variantie verklaard door ons model (SSM)
• Variantie veroorzaakt door andere factoren (SSE of SSR)
In termen van variantie analyse:
• Totale variantie t.o.v. het gemiddelde (SST)
Bij total kijk je naar de mean. Hoever de gemiddeldes van de mean afliggen, deze afstanden
kwadrateer je en heb je de SSt
• Variantie tussen de verschillende groepen (SSM) Between groups
Bereken het verschil tussen groepsgemiddelde en het totale gemiddelde en dit kwadrateer je. Dit
kwadrateer je met het aantal mensen in de groep (N). Dit doe je voor elke voor elke groep en deze
totalen tel je bij elkaar op.